En mi experiencia con clientes, he visto que el archivo robots.txt suele ser el gran olvidado o, peor aún, el causante de problemas graves de indexación. Este archivo no es una sugerencia, sino una herramienta de administración técnica que le indica a Google qué partes de tu web puede rastrear y cuáles no. Si no lo controlas, puedes estar bloqueando contenido que necesitas que posicione o, por el contrario, desperdiciando tu crawl budget en directorios irrelevantes.
Sintaxis y configuración técnica
La estructura del robots.txt es directa pero no admite errores de sintaxis. Para comunicarte con los buscadores, utilizas principalmente tres comandos:
- User-agent: Define a qué bot te diriges. Si usas un asterisco (*), aplicas la regla a todos los rastreadores.
- Disallow: Indica los directorios o archivos que el bot debe ignorar.
- Allow: Permite el acceso a una subcarpeta o archivo específico dentro de un directorio bloqueado.
Lo que mejor me ha funcionado es ser específico. Por ejemplo, si bloqueas toda una carpeta de administración con Disallow: /admin/, pero necesitas que Google acceda a un archivo CSS concreto dentro de ella, debes añadir un Allow: /admin/estilos.css. Recuerda que la regla más específica siempre prevalece sobre la más general.
El papel del sitemap y errores comunes
Aunque el archivo robots.txt sirve para administrar el rastreo, te recomiendo encarecidamente incluir la ruta de tu sitemap.xml al final del archivo. Esto ayuda a Google a localizar tus URLs prioritarias de forma inmediata, sobre todo en sitios grandes o con cambios frecuentes.
Uno de los errores más comunes que detecto en auditorías es usar el robots.txt para intentar desindexar páginas. Bloquear una URL mediante robots.txt no impide que Google la indexe. Si la página tiene enlaces externos, Google puede descubrirla, indexar la URL y mostrarla en los resultados sin conocer el contenido. Para evitar que una página aparezca en los resultados, el método correcto es utilizar la etiqueta noindex en el HTML o en la cabecera HTTP, nunca un bloqueo en el robots.txt.
He visto proyectos donde se bloquean archivos JS o CSS esenciales para el renderizado. Si Google no puede acceder a estos archivos, no podrá entender el diseño ni la estructura de tu web, lo cual afecta directamente a tu capacidad de posicionamiento. Mi consejo es que siempre valides tus cambios con el probador de robots.txt de Google Search Console antes de subir cualquier modificación al servidor. Es la única forma de asegurarte de que no estás cerrando la puerta a páginas que son vitales para tu negocio.
Preguntas frecuentes
¿El archivo robots.txt es suficiente para eliminar una página de Google?
No. El archivo robots.txt solo impide el rastreo; si la página tiene enlaces externos, Google puede indexar la URL. Para eliminarla de los resultados, debes usar la etiqueta meta noindex.
¿Debo incluir todas las URLs de mi web en el robots.txt?
No, el archivo robots.txt es para administrar el rastreo, no para listar todas tus páginas. Solo incluye las directivas de bloqueo necesarias y la ruta de tu sitemap.
¿Qué ocurre si bloqueo archivos CSS o JS en el robots.txt?
Google no podrá renderizar correctamente tu página, lo que le impide entender cómo ven el sitio los usuarios. Esto suele provocar problemas graves de indexación y posicionamiento.