Hace unos días tuve un «pequeño» problema y era que las nuevas entradas no estaban siendo indexadas por Google. Al revisar la web con las Webmaster Tools me encuentro con la sorpresa de una advertencia en los site maps: se me había ido la mano y el archivo robots.txt estaba impidiendo la indexación de la web. Y es que el archivo robots.txt es un archivo muy olvidado en las instalaciones de WordPress, y aunque no tenerlo, o tenerlo vacío, no va a suponer ningún problema de funcionamiento para el blog lo cierto es que tenerlo bien configurado ayudará, y mucho, a mejorar el posicionamiento SEO de los contenidos y el funcionamiento general de la web. Veamos por qué y cómo configurarlo.

Función del archivo robots.txt

Por defecto, cualquier buscador intentará indexar todo lo que encuentre en tu web y la función de este fichero es la de indicar a los robots de los buscadores que secciones o páginas de la web puede indexar y que otras secciones no debe indexar. Esto puede ser interesante por varios motivos, por ejemplo:

  • Tienes contenidos que no quieres que aparezcan en las búsquedas.
  • Tienes wordpress y quieres prevenir problemas por contenido duplicado.
  • Para evitar gastar ancho de banda y carga del servidor indexando ficheros del sistema que no tienen valor para tus visitantes.

Otra función asignada a este fichero es la de indicar la ubicación del sitemap de tu blog. Por ejemplo:

Sitemap: http://mi_blog/sitemap.xml

 

Limitaciones del robots.txt

Como nos informa Google, este archivo tiene una serie de limitaciones, entre ellas:

  • Las instrucciones de robots.txt son solo indicaciones

    Al contrario que las instrucciones del archivo .htaccess que son obligatorias, las instrucciones de los archivos robots.txt no son de obligado cumplimiento. Sin embargo sigue siendo una opción interesante habilitar las búsquedas para los que nos interesan y bloquear todos los demás.

  • Cada buscador puede interpretar la sintaxis de formas diferentes

    Por ello debes conocer la sintaxis adecuada para cada uno de ellos (aunque aquí el rey es Google). Te dejo el enlace con las indicaciones de sintaxis de Google.

  • Interferencias con la adaptabilidad para móviles

    Si tienes una plantilla responsive, y por algún motivo que desconozco, si limitas el acceso a todo el sistema wordpress (disallow: /wp ) Google no reconoce tu sistema como responsive y te marca como página web no optimizada para móviles. Si actualmente tienes esta limitación puesta en tu archivo robots.txt compruéba tu web en el sitio de prueba de Google y si te da error elimina esa limitación y vuelve a comprobar.

 

 

La ubicación del archivo robots.txt

Sencillamente en el directorio raíz de tu web, de tal forma que la dirección del mismo será http://mi_web/robots.txt

Si lo colocas en cualquier otro sitio no será tenido en cuenta.

 

Peligros del archivo robots.txt

A pesar de que su función no parece crítica en el funcionamiento de la web, un uso inadecuado puede dar serios problemas de posicionamiento, y es que como ya indiqué al principio del artículo una configuración incorrecta puede impedir que tu web sea correctamente indexada. De hecho, Fernando Ferreiro comentó que a un cliente suyo le había hackeado la web y solo le modificaron este archivo, consiguiendo poner en riesgo todo el trabajo de SEO y posicionamiento de mucho tiempo.

 

La configuración básica

Como su extensión indica, el archivo robots.txt es un archivo en formato texto, por lo que puede ser creado o editado por cualquier programa de edición básico como el notepad o el wordpad, y su estructura básica está compuesta por el comando «User-agent:» seguido de un parámetro que servirá para definir el robot al que se dirigen las siguientes indicaciones, y los comandos «Allow:» y «Disallow:» para indicar los ficheros o directorios que deberían, o no, ser indexados.

Las indicaciones «Allow» deben colocarse las primeras y las «Disallow» después. En caso de no haber ninguna instrucción «Allow» equivaldría a indicar que se puede indexar todo salvo lo que venga a continuación.

Por ejemplo:

User-agent: * 
Disallow: /wp-login 
Disallow: /wp-admin
Disallow: /tag/

User-agent: yahoo! Slurp
Disallow: /category/

Este ejemplo le estaría indicando a todos los buscadores que puede indexar todo salvo aquellas urls que comiencen por «http://mi-blog/wp-login», «http://mi-blog/wp-admin» y «http://mi-blog/tag/» y al robot de Yahoo! se le hace una limitación adicional para que no indexe nada de lo que se encuentre dentro de «htp://mi-blog/category/».

 

 Algunos Bots

Aunque parezca lo contrario, hay una gran cantidad de robots pululando por la web. Algunos son interesantes y hay que facilitarles el trabajo, otros vienen con aviesas intenciones tales como conseguir nuestras direcciones de correo o localizar las páginas con sección de comentarios y notificarlo a los muchos sistemas de spam que en el ciberespacio son.

Entre los interesantes, y que hacen caso a las indicaciones, podemos citar algunos:

    • Googlebot:  Google.
    • Googlebot-Image: El indexador de imágenes de Google.
    • Adsbot-Google: El robot de Adwords.
    • Yahoo! Slurp: Yahoo
    • Bingbot: Bing.
    • YandexBot:  Yandex.

Y si quieres echar un vistazo a los «web crawlers» que andan por ahí te dejo este enlace

 

Un ejemplo de Robots.txt

Finalmente, te dejo un ejemplo de configuración de un archivo robots.txt para wordpress. Úsalo con cuidado.

User-agent: * 
Allow: /wp-content/uploads/

Disallow: /trackback/
Disallow: /archives/
Disallow: /category/
Disallow: /tag/
Disallow: /author/
Disallow: /feed/
Disallow: /comments/
Disallow: /login/
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.php$

 

Si te has quedado con ganas de saber más sobre las posibilidades de este interesante fichero te dejo un enlace a un artículo muy interesante de Aukera sobre el tema.

 

¿Te ha parecido interesante? Si es así te estaré muy agradecido si me ayudas a difundir el artículo y recuerda suscribirte gratis al blog para no perderte ningún artículo (tu correo estará seguro conmigo).

Si quieres saber más sobre las posibilidades del marketing digital puedes contactar conmigo sin ningún compromiso.

Nos vemos.

 

Descubre conmigo las posibilidades del Marketing Online

 

Foto por Grant Hutchinson en Flickr (CC)

 

 

A %d blogueros les gusta esto: