Configurar la herramienta de custom extraction screaming frog es el paso definitivo para auditar cualquier web a un nivel verdaderamente avanzado. He visto que muchos de mis clientes se quedan en el rastreo basico, perdiendo la oportunidad de sacar datos estructurados super valiosos. Yo mismo he pasado horas copiando datos a mano hasta que domine esta funcion.
Dentro de la configuracion de extraccion personalizada, la herramienta te da varias opciones para tratar el dato que capturas con tu XPath. Elegir la correcta te ahorrara muchisimo trabajo de limpieza posterior en tus hojas de calculo.
Opciones de extraccion en Screaming Frog
Cuando configuras tu regla, veras un desplegable con distintas opciones de salida. Si eliges HTML Element (o HTML interno), la arana te devolvera todo el bloque de codigo tal cual, incluyendo divs y spans interiores. Esto lo uso muy poco, salvo que necesite auditar estructuras de codigo especificas.
Lo que mejor me ha funcionado casi siempre es Extract Text. Esta opcion limpia las etiquetas y te devuelve unicamente el texto legible del elemento. Por otro lado, si en tu expresion XPath utilizas funciones como contains, starts-with o count, obligatoriamente debes seleccionar Function Value. Asi Screaming Frog entiende que esperas el resultado de una operacion matematica o logica, y no un nodo de texto estandar.
Probando expresiones con la vista Live
Las versiones mas recientes de la herramienta incluyen una funcionalidad maravillosa llamada Live. Es un boton con forma de bola del mundo dentro del panel de Custom Extraction. Te permite introducir una URL de tu proyecto y navegar visualmente por el codigo de la pagina. Pinchas el elemento deseado y a la derecha ves instantaneamente el resultado que se va a descargar.
En mi experiencia, esta vista en vivo es una salvacion cuando las expresiones se complican. Aunque la herramienta te sugiere rutas de extraccion automaticas, a veces ancla los XPath a IDs unicos que solo sirven para esa URL en concreto. Por eso, entender la sintaxis y modificar la expresion manualmente sigue siendo tu mejor arma.
Ejemplos reales extrayendo datos de blogs
Imagina que auditas un blog enorme y necesitas tabular todo su contenido. Con el custom extraction screaming frog puedes sacar campos clave en cada pasada. Por ejemplo, puedes crear reglas precisas para capturar a los autores, la fecha de publicacion y las categorias principales de cada articulo.
- Para la categoria, suelo apuntar al div que contenga la clase especifica y bajo hasta la etiqueta enlace para sacar el texto limpio.
- Para identificar si rastreo un post o una pagina de archivo, extraigo el atributo class de la etiqueta body y filtro esos resultados.
- Si el texto extraido viene sucio, envuelvo mi XPath con la funcion normalize-space para eliminar espacios en blanco y saltos de linea residuales.
Te aseguro que si dedicas unos minutos a refinar bien tus expresiones antes de lanzar el rastreo completo, vas a conseguir una tabla de datos inmaculada, lista para cruzar con el resto de tus metricas SEO.
Preguntas frecuentes
¿Qué diferencia hay entre Extract Text y HTML Element en Screaming Frog?
Extract Text limpia el código y devuelve solo el texto legible del elemento seleccionado. HTML Element extrae todo el bloque de código en bruto, incluyendo las etiquetas interiores.
¿Cuándo debo elegir Function Value en la configuración de extracción?
Debes seleccionarlo siempre que tu expresión XPath utilice funciones específicas como recuentos (count) o validaciones lógicas. Si no lo haces, la herramienta no procesará la función correctamente.
¿Para qué sirve la vista Live en Screaming Frog?
Permite cargar una URL real dentro de la herramienta para probar tus expresiones XPath de forma visual. Es muy útil para validar que estás extrayendo exactamente el dato que necesitas antes de iniciar el rastreo.