¿Cuáles son las limitaciones de los archivos robots.txt?

El método de bloqueo aplicado a partir de un archivo robots.txt suele ser el más utilizado, pero siempre es aconsejable conocer las limitaciones del mismo a fin de saber trabajar la edición del mismo de manera adecuada.

  • Las instrucciones incluidas en los archivos.txt son solo indicaciones.

    Estas instrucciones no pueden forzar el comportamiento de los rastreadores en el sitio web, son un conjunto de indicadores incluidos en un archivo cuya misión es esta precisamente, la de dar indicaciones a los robots o rastreadores que accedan a él.
  • El archivo.txt da instrucciones a los rastreadores, pero no todos ellos obedecen a dichas instrucciones.

    Por ello, si deseamos proteger cierta información de todos los rastreadores web existentes, la mejor manera es utilizando otros métodos alternativos de bloqueo.
  • Interpretación variable de las instrucciones incluidas en el archivo robots.txt

    Según que robots o rastreadores podemos encontrarnos diferentes interpretaciones de una misma sintaxis de instrucciones. Por ello, es adecuado usar la sintaxis apropiada que se ajuste a cada buscador, asegurándonos de esta manera que todos ellos entiendan las instrucciones incluidas en el archivo robots.txt
  •  

  • Robots.txt, un método no infalible contra la indexación.

    Cuando aplicamos una instrucción de bloqueo a través de un archivo robots.txt a fin de que los buscadores no rastren ni tampoco indexen ciertas url o archivos de nuestro sitio web, no podemos estar seguros 100% de que dichas url o archivos no queden indexados. Puede suceder, que a pesar de incluir la instrucción “noindex” en el propio archivo, ciertas páginas de terceros establezcan enlaces que apunten hacia las mismas y en consecuencia dichas url o archivos web puedan seguir mostrándose en los resultados de búsqueda de los principales buscadores.

Para evitar esto, las mejores opciones son;

  • Proteger los archivos de nuestro servidor con contraseña
  • Una la metaetiqueta noindex
  • Usar encabezado de respuesta noindex
  • Retirar la página al completo

Estos son algunas de las principales limitaciones que nos ofrecen los archivos robots.txt y es por ello por lo que la gestión de los mismos debe ser delicada y cuidadosa a la vez que es aconsejable complementar el uso del mismo con la aplicación de etiquetado específico de cada url, archivos etc..