Estás navegando como visitante. Por favor Registrate y Logueate para poder participar de ventajas como postear en el foro, Solicitar Ayuda, Ver Enlaces, Ver Imagenes. Registrate con nosotros clickeando AQUÍ.    
Registrarse    Identificarse   Blogs
Anuncios Internos

Quieres ser Moderador/a. Si estas interesado/a, lee la info sobre ésto, haciendo Click
Promociona tu web AQUÍ

En ésta web está expresamente prohibido, publicar enlaces de descargas de material protegido por la ley, asi como seriales, cracks, parches, programas o juegos pirateados sin el consentimienteo del autor, en cuyo caso se debará exibir dicha autorización para legitimizar la descarga. Si algun usuario incumple esta norma, sera
eliminado junto a todos sus mensajes.


Portal » Índice general » Zona Webmasters » Tutoriales Webmaster




Nuevo tema Responder al tema  [ 1 mensaje ] 
{ VISITS } Vistas: 444  { VISITS } Favoritos: 0  | { VISITS } Seguidores: 1 
Seguidores: buthas
 
Autor Mensaje
 Asunto: Controlar El Acceso Con El Archivo Robots Txt
 Nota Publicado: 24 Abr 2010 11:31 


Desconectado
Moderador Global
Moderador Global
Avatar de Usuario

Mensajes: 136

Todos mis aportes


Nivel: 10

HP: 0 / 230
0 / 230 0 / 230 0 / 230
MP: 110 / 110
110 / 110 110 / 110 110 / 110
EXP: 136 / 142
136 / 142 136 / 142 136 / 142

Karma: 25

Sexo:
Masculino



He dado: 26 Gracias
Recibidas: 25 Gracias
Blog: Ver blog (0)
En un post anterior explicaba la Debe registrarse para ver este enlace. Gracias por su visita., con el cual se puede bloquear a diferentes directorios, extensiones, etc., de un dominio en internet, mucho de los buscadores lo respetan y existen otros tantos que lo pasan por alto, también existen diferentes sitios donde se puede definir el robots.txt y uno de ellos lo podemos encontrar en las mismas herramientas para webmasters de Google, en la sección herramienta de generación de archivos robots.txt, donde se puede definir el acceso o el bloqueo a diferentes robots de los buscadores, en la misma sección de herramientas para webmaster de Google, también se puede encontrar una herramienta que sirve para evaluar como acabamos de definir el archivo robots.txt.

Si usaste esta opción para crear el archivo robots.txt, luego de usar la herramienta de verificación, lo descargás en la pc y luego lo subís en la raíz del directorio donde se encuentra tu dominio, esta es la ubicación que por lógica los robots van a buscar el archivo, si lo guardás en otro lugar no lo van a encontrar.

Existe también la posibilidad de crear el archivo robots.txt de una forma manual y sencilla y esto se hace por medio de cualquier editor de texto, como por ejemplo el bloc de notas, el archivo robots.txt tiene que ser creado bajo la codificación ASCII, no como un archivo html o cualquier otra codificación, por último el nombre del archivo robots.txt tiene que estar en minúsculas y no en mayúsculas.

Lo mas habitual que se usa en un archivo robots.txt, son las siguientes reglas:

User-Agent: aca se agrega el nombre de un robots puntual, si se va a permitir a ese sólo, en el caso de permitir a todos los robots se agrega un * asterísco.

Disallow: en esta línea se van agregar los directorios, seciones, etc., que se quieran bloquear a uno o a todos los robots, en este punto hay que tener en cuenta de no dejar una barra invertida / después de Disallow:, por ejemplo Disallow: / por que de esta manera se estaría bloqueando a todos los buscadores, esto va a depender de como se define la primera línea, User-Agent:, por ejemplo, si querés habilitar a todos los robots, lo que tenés que agregar a tu archivo robots.txt es lo siguiente:

User-Agent: *

Disallow:

Ahora si lo que querés es bloquear a todos, lo hacés de la siguiente manera:

User-Agent: *

Disallow: /

Tenés que tener en cuenta, que podés definir para cada robots una sentencia diferente, no justamente tienen que ser iguales para todos, por ejemplo podés excluir un directorio.

Disallow: /pagina/

Disallow: /pagina.hml

Disallow: /pagina.php

Como para que se entienda y se tenga en cuenta un user-agent es un robot específico de un motor de búsqueda, en su base de datos se pueden incluir muchos otros robots comunes a un robots puntual, en este caso como explicaba con anterioridad se puede configurar una parte específica para su aplicación sobre un robot, mostrando el nombre de este o en todo caso para que se aplique a todos los robots, por medio del asterisco.

En el caso de Google, se complementa con la utilización de diferentes user-agents, como por ejemplo el Googlebot que sirve para las búsquedas en internet, como así también otros robots como Googlebot-Mobile y Googlebot-Image, donde respetan las reglas definidas en el archivo robots.txt para Googlebot, también se pueden definir reglas particulaes a estos dos ante últimos aparte de las que ya están definidas para Googlebot.

Por ejemplo para eliminar una imagen de la búsqueda de imágenes de Google, tenés que agregar lo siguiente:

User-agent: Googlebot-Image

Disallow: /images/foto.jpg
Disallow: /imagenes/foto.jpg

Ahora si querés eliminar todas las imágenes de tu sitio web, blog, etc., de la búsqueda de imágenes de Google, tenés que agregar lo siguiente:

User-agent: Googlebot-Image
Disallow: /

Si querés bloquear archivos determinados como por ejemplo, .gif, tenés que agregar lo siguiente:

User-agent: Googlebot
Disallow: /*.gif$

Si querés evitar el rastreo de páginas de tu sitio web, blog, etc., donde igual se muestran anuncios de AdSense, tenés que inhabilitar el acceso de todos los robots menos el de Mediapartners-Google, implementando esta opción te permite que el contenido de tu sitio web, blog, etc., aparezca en los resultados de búsqueda, permitiendo al robot Googlebot-Mediapartners la analización para su posterior determinación de los anuncios que se van a mostrar en tu sitio web, blog, etc., en este caso el robot Googlebot-MediaPartners no comparte las páginas con otros robots de Google como se muestra a continuación por ejemplo:

User-agent: *
Disallow: /archivo/

User-agent: Mediapartners-Google
Disallow: /archivo/

Tenés que tener en cuenta que las directivas que le asignés, se distinguen de mayúsculas y de las minúsculas, como por ejemplo, si impedís el rastreo de “/chatarra_barata.php”, el Googlebot no va a poder rastrear “http://www.tudominio.com/chatarra_barata.php”, pero sí lo podrá hacer en “http://www.tudominio.com/Chatarra_barata.php”.

El Googlebot también rastrea y tiene en cuenta la concordancia por medio de patrones, un tema que no todos los motores de búsqueda suelen respetar estas concordancias por medi ode patrones que solemos implementar e el archivo robots.txt, en este caso podés usar el asterisco *, como para que esa concordancia se pueda establecer con una secuencia de carácteres, como por ejemplo, para intentar bloquear el acceso de los robots a todos los subdirectorios que considerás como privados, como por ejemplo:

User-agent: Googlebot
Disallow: /private*/

Disallow: /admin*/

También podés bloquear el acceso a todas las url donde cuyo contenido tenga un signo de interrogación ?, específicamente cualquier url que empiece con el nombre de tu dominio, siguiendo con cualquier cadena, un signo de interrogación y otra vez cualquier cadena, como por ejemplo:

User-agent: Googlebot
Disallow: /*?

Una especificación también para determinar la concordancia es agregar al final de una url el símbolo de dinero $, como por ejemplo, para bloquear una url que termine en .css.

User-agent: Googlebot
Disallow: /*.css$

Podés utilizar estas concordancias de patrones en forma conbinada con la directiva Allow: como por ejemplo, si un símbolo ? esta indicando el id de una sesión, podés excluirlo de todas las url que las contienen como para asegurarte de que el robots de Google de Googlebot no rastree y las considere como páginas duplicadas, al margen de esto, las url que suelen finalizar con este símbolo, podrían ser la opción de la página que estás deseando incluir en los resultados de búsqueda, si es así tendrías que configurar el archivo robots.txt de la siguiente manera:

User-agent: *
Allow: /*?$
Disallow: /*?

Cuando ingresás una sentencia en la directiva Disallow: /*?, esta bloquearía cualquier url que este incluído el símbolo ?, específicamente esto bloquearía todas las url que empiezan con el nombre de su dominio y siguen con cualquier cadena, un signo de interrogación y otra vez cualquier cadena.

Un sentencia en la directiva Allow: /*?$, por ejemplo va a permitir cualquier url que termine con el símbolo ?, en concreto esto admitiría cualquier url que empiece por el nombre de su dominio, luego siguiendo cualquier cadena y mas el símbolo ?, sin carácteres después de lo último.

Fuente: masefectivo.com.ar

firma

Este es el lugar para tu firma

Personaliza tu perfil



Pc-teros Community - www.pc-teros.es
Arriba 
 Perfil  
 
Mostrar mensajes previos:  Ordenar por  
 
Nuevo tema Responder al tema  [ 1 mensaje ] 


¿Te fue util este tema?

Link:
BBcode:
HTML:


Temas Similares


Portal » Índice general » Zona Webmasters » Tutoriales Webmaster


Temas relacionados
 Temas   Autor   Comentarios   Vistas   Último mensaje 
No hay nuevos mensajes sin leer en este tema. Creación Y Definición Del Archivo Robots.txt

buthas

0

619

24 Abr 2010 11:29

buthas Ver último mensaje

No hay nuevos mensajes sin leer en este tema. Protegerse y evitar ataques DoS, SQL injection, XSS, Robots

blquack

2

822

27 Sep 2010 00:09

blquack Ver último mensaje

No hay nuevos mensajes sin leer en este tema. Bloquear acceso de virus a tu memoria USB (VideoTutorial)

soft1

4

853

23 Ene 2012 00:13

EseTecnico Ver último mensaje

No hay nuevos mensajes sin leer en este tema. Adjunto(s) Modulo de Acceso Rapido dentro del ACP, phpbb3, mod

Megabyte

1

293

21 Ene 2011 02:38

blquack Ver último mensaje

No hay nuevos mensajes sin leer en este tema. tutorial par eliminar virus con acceso directo

EseTecnico

0

750

11 Mar 2013 17:12

EseTecnico Ver último mensaje

No hay nuevos mensajes sin leer en este tema. Como Conectar 2 Routers en la misma Red - Punto de acceso

blquack

1

778

23 Ene 2012 00:18

EseTecnico Ver último mensaje

No hay nuevos mensajes sin leer en este tema. Encabezado con archivo flash

Megabyte

0

267

19 Nov 2010 16:04

Megabyte Ver último mensaje

Este tema está cerrado, no puede editar mensajes o enviar nuevas respuestas Adjunto(s) ¿Cómo particiono un archivo de 6 GB?

uruguayito

5

359

03 Mar 2011 12:58

uruguayito Ver último mensaje

No hay nuevos mensajes sin leer en este tema. permisos a un archivo en el .htaccess

Megabyte

1

369

20 Mar 2011 04:08

guille05 Ver último mensaje

No hay nuevos mensajes sin leer en este tema. Reparar archivo .rar dañado.

Total13

6

826

24 Ene 2012 12:14

EseTecnico Ver último mensaje

 


¿Quién está conectado?

Usuarios navegando por este Foro: No hay usuarios registrados visitando el Foro y 0 invitados

 
 

 
No puede abrir nuevos temas en este Foro
No puede responder a temas en este Foro
No puede editar sus mensajes en este Foro
No puede borrar sus mensajes en este Foro
No puede enviar adjuntos en este Foro

Buscar:
Saltar a:  
cron