Llevo 15 anos en esto y todavia me encuentro con clientes que temen tocar sus archivos de logs. Piensan que es una tarea reservada para ingenieros o que requiere sistemas complejos. Nada mas lejos de la realidad. Si quieres saber que hace Googlebot en tu web, tienes que dejar de simular con crawlers y empezar a monitorizar la realidad.
La diferencia entre simular y monitorizar
Cuando pasas Screaming Frog o Sitebulb, estas simulando. Es util, pero es solo una foto fija. La monitorizacion, en cambio, es la historia real. Gracias a Screaming Frog Log Analyzer, puedes cargar tus logs y ver exactamente que URLs ha visitado el robot, con que frecuencia y que codigo de respuesta ha recibido.
En mi experiencia, no necesitas analizar logs para una web de 50 paginas. Pero si gestionas un e-commerce mediano o una web con cambios constantes, los logs son obligatorios. Es la unica forma de detectar URLs huerfanas —esas que Google rastrea pero que no estan enlazadas— o de entender por que el bot ignora ciertas secciones.
Configuracion y analisis real
El primer paso es configurar el proyecto. Al importar tus logs, lo mas importante es verificar los bots. No te fies del User Agent, porque es facilmente falsificable. La herramienta te permite validar mediante DNS inversa o IPs, lo cual es vital para descartar fake bots y no ensuciar tus datos.
Una vez dentro, la pestana Overview es tu centro de mando. Ahi veras:
- Eventos vs URLs unicas: Una URL puede tener miles de hits, pero solo un recurso. Saber distinguir esto cambia tu percepcion del rastreo.
- Codigos de respuesta: Detectar URLs inconsistentes —aquellas que devuelven diferentes codigos en un mismo periodo— es donde realmente encuentras problemas de servidor.
Lo que mejor me ha funcionado es cruzar estos datos con un rastreo previo. Si importas tu sitemap o un archivo de URLs en la seccion Import URL Data, podras ver al instante que secciones de tu web estan siendo ignoradas por Google. Si Google no entra, no hay indexacion.
Exportaciones y Excel para profundizar
No te quedes con lo que ves en la interfaz. Usa las exportaciones. Lo que suelo hacer es descargar los informes de URLs y Response Codes y unificarlos en un solo archivo. Con un simple BUSCARV en Excel, cruzo los datos y creo agrupaciones personalizadas (por ejemplo: /blog/, /paginacion/, /parametros/).
He visto que al clasificar las URLs en grupos, los patrones de rastreo saltan a la vista. ¿Esta Google perdiendo tiempo en paginaciones innecesarias? ¿Esta ignorando mi contenido core? Esa respuesta solo te la da el archivo de logs. No pierdas tiempo con datos irrelevantes; enfocate en los eventos y en las URLs inconsistentes. Es ahi donde realmente optimizas el presupuesto de rastreo.
Preguntas frecuentes
¿Es necesario analizar logs en todos los sitios web?
No. Solo es necesario en proyectos medianos o grandes con problemas de indexacion, crecimiento constante de URLs o presupuestos de rastreo limitados.
¿Que diferencia hay entre simular y monitorizar?
Simular imita el comportamiento de un bot mediante un crawler, mientras que monitorizar analiza los archivos de log para ver lo que el bot realmente ha hecho en el pasado.
¿Puedo usar Excel para analizar los logs?
Si, pero solo para procesar los datos exportados de una herramienta como Screaming Frog Log Analyzer, ya que los archivos de log en bruto son demasiado pesados para tratarlos directamente.