Como rastrear y analizar sitemaps con Screaming Frog

Rastrear una web solo mediante su enlazado interno es un error que veo a diario. Si el enlazado de tu proyecto es pobre o está mal estructurado, Screaming Frog no hará milagros. Para obtener una visión completa, necesitas alimentar al crawler con fuentes adicionales. Aquí es donde entra en juego el sitemap.

Configuración del rastreo de sitemaps

No basta con lanzar el rastreo a ciegas. Si quieres analizar tu sitemap, debes ir a la pestaña Configuration y seleccionar Sitemaps. Tienes dos formas de hacerlo: dejar que Screaming Frog lo encuentre automáticamente en el archivo robots.txt o añadirlo de forma manual copiando la URL directa. He visto que añadirlo a mano es más seguro cuando quieres auditar un archivo específico o probar uno nuevo antes de subirlo a producción.

Recuerda que, una vez configurado, el crawler visitará las URLs que encuentre tanto en el enlazado interno como en el sitemap. Esto evita que te pierdas páginas que, por mala arquitectura, no están conectadas internamente pero sí deberían estar indexadas.

Cruce de datos y detección de páginas huérfanas

Lo que mejor me ha funcionado para auditar proyectos es la funcionalidad de post-rastreo. Para usarla, debes ir a Crawl Analysis y asegurarte de que la opción Sitemaps esté marcada antes de empezar. Una vez finalizado el rastreo, la herramienta cruzará la información automáticamente.

Alex Amigo

¿Necesitas ayuda con tu estrategia SEO?

Trabajemos juntos para hacer crecer tu negocio con una estrategia digital personalizada.

Esto es lo que obtienes:

  • URLs en el sitemap: Aquellas que declaraste intencionadamente.
  • URLs huérfanas: Páginas que existen en tu sitemap pero que no tienen ningún enlace interno apuntándoles. Son un riesgo de indexación, ya que Google tendrá dificultades para encontrarlas.
  • Páginas no indexables: Identificarás rápidamente si has incluido URLs con etiqueta noindex o bloqueadas por robots.txt dentro de tu sitemap, lo cual es una práctica incorrecta que debes corregir.

En mi experiencia con clientes, esta es la forma más rápida de limpiar el sitemap de basura o errores. Si detectas URLs que no están en el enlazado interno, tienes dos opciones: o las enlazas para darles fuerza, o las eliminas del sitemap si realmente no aportan valor al negocio.

No te limites a los datos globales. Usa los segmentos de Screaming Frog para filtrar estos errores por tipología de página. No es lo mismo tener una paginación huérfana —que a veces podemos ignorar— que tener una landing de producto importante oculta para los bots. Aplica siempre el sentido común antes de ejecutar cambios masivos.

Preguntas frecuentes

¿Es obligatorio marcar la opción de sitemaps en Crawl Analysis?

Sí, para que Screaming Frog realice el cruce de datos automático y puedas visualizar qué URLs están en el sitemap y cuáles no.

¿Por qué aparecen páginas en mi sitemap pero no en el rastreo interno?

Estas son páginas huérfanas. Indica que no tienen enlaces internos apuntando hacia ellas, por lo que son difíciles de descubrir para los buscadores.

¿Debo incluir URLs con etiqueta noindex en el sitemap?

No. Si una página es noindex, no debe estar en tu sitemap, ya que envías señales contradictorias a Google.