¿Cómo funcionan los robots.txt?
Los robots.txt permite que nuestro sitio se indexe de la mejor manera, tanto como si queremos indicarle que sitios indexar y que sitios no indexar todo depende de la configuración de los robots.txt en nuestro blog.
Los robots.txt también son conocidos como crawlers, arañas, indexadores y boots. Cada buscador tiene un robot que se encarga de encontrar la információn para indexarla y agregarla en los buscadores. El robot de google buscador se llama googlebot, el robot que indexa las imagenes se llama Google-bot image, Mediapartners-google revisa los anuncios publicitarios de google,
Los buscadores indexan nuestro contenido cuando los robots.txt pasan por nuestro sitio y encuentra nueva información, a menos tu se lo impidas configurando los robots.txt para esta acción.
Para impedir que un robot.txt no indexe cierta información de nuestro blog. Por ejemplo:
Disallow: / Prohibe la entrada de un robot a todo nuestro blog.
Disallow: Permite que un robot indexe la información de todo nuestro blog.
Otro ejemplo, Si quisieramos impedir el acceso al robot del buscador de yahoo (Slurp), hacemos lo siguiente:
User-agent: SlurpDisallow: /links.html
Disallow: /private/
Disallow: /photos/
Ojo que hay ciertos robots que lejos de hacernos bien, pueden hacernos daño como crear spam en nuestro blog.
Tambien podemos indicar a los robots no indexar contenido duplicado, haciendo lo siguiente:
User-agent: (nombre del robot del buscador)
Disallow: /2011/*
Disallow: /2012/*
De esta forma solo se estaría indexando la dirección principal para ingresar a todos los artículos que terminan con un año.
Cuando varios artículos indican el año puede ser considerado contenido duplicado, ya que existe una dirección principal para ingresar a todos los artículos.
Aprender a ganar dinero con youtube
Ideas para duplicar tu dinero
Decorar con posters el dormitorio
No hay comentarios:
Publicar un comentario