El archivo robots.txt actúa como el manual de instrucciones que le entregas a los rastreadores cuando llegan a tu sitio. Si está mal configurado, estarás enviando señales erróneas que afectan directamente a cómo Google gestiona tu contenido. En mi experiencia con clientes, he visto webs con problemas graves de indexación simplemente por un mal uso de este archivo.
Anatomía y sintaxis del robots.txt
Este archivo es un documento de texto plano ubicado en la raíz de tu dominio. Su sintaxis es sencilla pero exigente. Usamos User-agent para identificar al robot (por ejemplo, Googlebot), seguido de instrucciones de Allow (para permitir) o Disallow (para restringir).
He visto que muchos caen en la trampa de no usar comodines correctamente. El asterisco (*) representa cualquier cadena de texto y el dólar ($) marca el final de una URL. Los comentarios, que empiezan por una almohadilla (#), son invisibles para Google y solo sirven para organizarte, aunque te aseguro que mantener un orden es necesario cuando el archivo crece.
Requisitos técnicos y errores comunes
Para que funcione, el archivo debe ser accesible y responder con un código 200. Si tu servidor devuelve un 404, Google asume que no hay restricciones y rastreará todo, lo cual suele ser un desperdicio de recursos. Si devuelve un 500 de forma prolongada, podrías acabar desindexado.
- No uses robots.txt para desindexar: Esto no funciona para páginas HTML. Si bloqueas una URL en el robots.txt, Google no podrá ver etiquetas noindex y la mantendrá en su índice sin descripción.
- Cuidado con los archivos de soporte: Nunca bloquees archivos CSS o JavaScript que sean necesarios para renderizar el contenido. Google necesita ver la web tal cual la ve un usuario.
- Validación obligatoria: Siempre utiliza el comprobador de robots.txt en Google Search Console o herramientas como Screaming Frog antes de subir cualquier cambio.
Lo que mejor me ha funcionado es auditar los logs del servidor antes de tocar nada. Solo así sabrás realmente qué secciones están consumiendo recursos de rastreo innecesariamente. No bloquees por intuición, bloquea basándote en datos reales.
Preguntas frecuentes
¿El robots.txt sirve para desindexar URLs?
No. Para desindexar contenido HTML debes usar etiquetas noindex; el robots.txt solo impide el acceso al rastreador, pero no elimina la página de los resultados.
¿Qué pasa si mi archivo robots.txt devuelve un error 404?
Google interpretará que no existen restricciones y rastreará todas las páginas de tu sitio web sin limitaciones.
¿Debo bloquear las imágenes y archivos CSS en el robots.txt?
Nunca. Google necesita acceder a estos archivos para renderizar y entender correctamente el contenido principal de tu web.