En mis más de 15 años de experiencia diseñando estrategias SEO, lo que mejor me ha funcionado para auditar sitios masivos es dejar de depender exclusivamente de los datos que las herramientas sacan por defecto. Si quieres ir un paso por delante de tu competencia, necesitas dominar la custom extraction screaming frog utilizando expresiones regulares para capturar fragmentos exactos del código HTML.
Extracción de migas de pan y enlaces internos
Cuando te enfrentas a una tienda online enorme, comprobar que la arquitectura de la información está bien implementada a mano es inviable. Para solucionar esto, inspecciono el código fuente de un par de URLs y busco el patrón de las migas de pan, que normalmente suele estar envuelto en etiquetas de navegación o listas ordenadas.
Una vez que identifico que todas las páginas comparten la misma estructura HTML para este elemento, copio ese bloque, escapo los caracteres especiales como las barras o los corchetes angulares y monto un grupo de captura. Así, al lanzar el rastreo, la herramienta me devuelve exactamente el texto de cada nivel de navegación. He visto que aplicar esta misma lógica para extraer enlaces internos es igual de potente. Si aíslas una capa específica del código y capturas todo lo que hay dentro del atributo href asegurándote de excluir las etiquetas HTML, consigues un mapa perfecto de la estrategia de interlinking real de cualquier proyecto.
Scrapeo de precios de la competencia
En mi experiencia con clientes del sector ecommerce, monitorizar los precios de los rivales te da una ventaja táctica brutal para ajustar tu propia estrategia. No necesitas un software carísimo de monitorización si sabes usar el extractor personalizado de Screaming Frog.
El proceso es directo. Entras en la ficha de producto de tu competidor, localizas el contenedor del precio que suele ser un span o un div con un identificador único y extraes ese patrón. Creas una expresión regular que ignore el código sobrante y capture únicamente la cifra numérica. Al rastrear su dominio completo con esta configuración, obtienes un listado limpio con el catálogo y los precios actualizados de todos sus productos en cuestión de minutos.
Mi método de trabajo con expresiones regulares
Antes de configurar el rastreador y lanzarte a procesar miles de páginas, hay un paso previo que no puedes saltarte. Rastrear una web entera para descubrir al final que tu regla estaba mal construida es un error que te hace perder horas de trabajo.
- Copia siempre el fragmento de código fuente original que quieres analizar.
- Pega ese código en un validador online como regex101.
- Ajusta tu expresión regular hasta que el grupo de captura ilumine exactamente el dato que necesitas aislar.
Solo cuando tienes la certeza absoluta de que el patrón funciona perfectamente sobre el texto de prueba, copias esa regla y la pegas en la configuración de extracción de Screaming Frog. Trabajar con este nivel de precisión separa a los analistas promedio de los verdaderos profesionales del SEO técnico.
Preguntas frecuentes
¿Por qué es necesario escapar los caracteres especiales en la extracción HTML?
Al usar expresiones regulares para capturar código, los caracteres como las barras o los corchetes angulares tienen funciones de programación nativas. Si no los escapas, la herramienta los interpretará como comandos y la regla fallará.
¿Cómo puedo evitar capturar etiquetas HTML al extraer enlaces internos?
Debes utilizar un grupo de captura que niegue específicamente el corchete angular de apertura. De esta forma, le indicas a la expresión regular que se detenga justo antes de que empiece la siguiente etiqueta del código HTML.
¿Qué debo hacer antes de lanzar un rastreo masivo con un extractor personalizado?
Siempre debes probar tu expresión regular en un entorno seguro como regex101 usando el código fuente real de la página. Esto garantiza que el patrón es correcto y evita que pierdas tiempo procesando miles de URLs con una regla defectuosa.