Hay un paper que lleva semanas circulando por los grupos de SEO y que merece más análisis del que suele recibir. Se llama CORE (Controlling Output Rankings in Generative Engines) y lo que demuestra, con datos, es que los rankings de los buscadores de IA se pueden manipular de forma sistemática; no de manera vaga o anecdótica, sino con tasas de éxito que van del 77% al 91% dependiendo de la táctica. Antes de que saques conclusiones precipitadas, te explico qué probaron exactamente, qué funciona en la práctica y qué parte de esto roza el black hat sin que nadie lo llame así.
Qué probaron y en qué condiciones
Los investigadores trabajaron con cuatro modelos: Claude 4, Gemini 2.5, GPT-4o y Grok-3, todos consultados vía API, sin las capas de personalización ni los sistemas RAG que tienen las interfaces de consumo habituales. Eso importa: las pruebas miden el comportamiento del modelo cuando solo recibe el texto que tú le das, no lo que pasa cuando alguien pregunta a ChatGPT con su historial y sus búsquedas guardadas. Es un entorno más controlado y, en cierta medida, más favorable a la manipulación que el uso real.
El objetivo era subir un producto a la primera posición dentro de una respuesta de ranking generativa, como cuando le preguntas a un LLM «cuál es la mejor cafetera espresso por menos de 200 euros». Para lograrlo probaron cuatro enfoques distintos, con resultados muy diferentes entre sí.
Las cuatro tácticas y lo que muestran los números
La táctica más burda fue la de cadenas de texto optimizadas matemáticamente: básicamente, añadir una ristra de caracteres especiales ajustada por iteraciones hasta que el modelo mejoraba el ranking del producto. Técnicamente funcionó en el 33% de los casos, pero los evaluadores humanos detectaron la manipulación en el 98,5% de las ocasiones. Es el equivalente al keyword stuffing de 2005: funciona hasta que alguien lo mira. Descartada para cualquier web que quiera mantener la confianza del usuario.
El razonamiento lógico explícito fue el que más subió posiciones técnicamente, con tasas de éxito en la primera posición del 77% al 82%. Consiste en añadir al texto argumentos comparativos paso a paso, explicando por qué el producto satisface la consulta mejor que las alternativas. El problema es que el 62,1% de los lectores detectaba que el texto había sido optimizado; suena demasiado estructurado, demasiado redactado para una máquina. Lo interesante aquí es que se parece mucho a lo que Google lleva años pidiendo en sus guías de producto, con la diferencia de que, aplicado en exceso, resulta antinatural para un lector real.
Las reseñas en pasado simulando una compra fueron la táctica más efectiva sobre GPT-4o: productos que estaban en última posición subieron al top 5 en el 91% de los casos. El patrón era claro —visión general del tipo de producto, características clave, modelos específicos, estrategia de compra— con un tono que imitaba la experiencia del usuario. El estudio señala que, aunque el esquema se acerca a las recomendaciones de Google sobre reseñas, a menudo faltaban comparativas genuinas con datos contrastables. Aquí es donde el estudio toca la línea del black hat sin nombrarlo: el black hat en la era de la IA no siempre viene con etiqueta de advertencia.
La cuarta táctica, los shadow models o modelos espejo, es la más relevante desde el punto de vista técnico. Los investigadores entrenaron un modelo local (Llama-3.1-8B) para predecir cómo clasificaría los productos GPT-4o, obteniendo una similitud de 4,5 sobre 5. Lo que eso significa en la práctica es que puedes hacer tus pruebas de optimización en un modelo pequeño y gratuito antes de publicar, sin pagar por miles de llamadas a la API de los modelos grandes. Si tienes un catálogo de productos grande y quieres iterar textos, ese hallazgo tiene valor aplicado real.
Mi lectura práctica de todo esto
El estudio es valioso porque cuantifica algo que muchos intuíamos: los LLM tienen preferencias de contenido predecibles, y esas preferencias difieren entre modelos. GPT-4o y Claude 4 responden mejor al razonamiento estructurado; Gemini 2.5 y Grok-3, al lenguaje evaluativo basado en experiencia de uso. Eso no es muy distinto de lo que ya sabemos sobre la personalización algorítmica en SEO clásico: la estrategia de contenido no es universal.
Ahora bien, la mayoría de los clientes con los que trabajo no tienen un problema de «cómo manipulo el ranking en un LLM». Tienen un problema más básico: su contenido no es lo suficientemente claro, específico ni útil para que un modelo, al ser consultado sobre su sector, los mencione de forma natural. Y esa brecha no se cierra con razonamiento lógico forzado ni con reseñas ficticias; se cierra con contenido que tiene criterio real, datos propios y una perspectiva que no se puede copiar de la competencia. Si quieres entender qué tipo de texto funciona para aparecer en respuestas generativas, tienes más detalle sobre los elementos concretos en el artículo sobre cómo adaptar tus textos para aparecer en AI Overviews y ChatGPT.
La conclusión que extraigo del estudio CORE no es «ahora puedes hacer black hat en la IA sin que nadie se entere», porque los datos muestran lo contrario: la detección humana sigue siendo alta y el contenido artificial acaba perjudicando la conversión aunque mejore el ranking. La conclusión útil es otra: los modelos de lenguaje premian la especificidad argumentada, la experiencia de uso real y las comparativas con criterio, que son exactamente los elementos que hacen que un texto también sea bueno para una persona. Optimizar bien para IA y optimizar bien para el usuario son el mismo objetivo, aunque el camino corto siempre exista.
¿Necesitas mejorar el posicionamiento de tu web?
Si quieres aplicar estas estrategias y obtener resultados reales, puedo ayudarte. Llevo años trabajando el SEO de empresas y proyectos digitales con un enfoque técnico y orientado a resultados.
Solicitar consulta SEOPreguntas frecuentes
¿Qué es el método CORE en SEO para IA?
Es una metodología de ingeniería inversa diseñada para influir en los rankings de los buscadores generativos mediante la expansión de contenido basada en razonamiento lógico y reseñas evaluativas.
¿Qué modelos de IA son más fáciles de optimizar?
El estudio demostró que modelos como GPT-4o y Claude responden mejor a textos con razonamiento estructurado, mientras que Gemini y Grok tienen preferencia por contenidos con formato de reseña.
¿Es efectivo usar Shadow Models para SEO?
Sí, el uso de modelos más pequeños como Llama-3.1-8B permite predecir con alta precisión cómo clasificarán el contenido los modelos más grandes, facilitando pruebas de optimización más baratas y rápidas.