Cómo configurar robots.txt y llms.txt para los crawlers de IA en 2026

Si configuraste tu robots.txt el año pasado para gestionar los bots de IA, tienes trabajo pendiente. No porque lo hicieras mal, sino porque el ecosistema ha cambiado lo suficiente desde entonces como para que esa configuración ya no describa la realidad. Hay crawlers nuevos, hay decisiones de bloqueo que Cloudflare ha tomado por ti sin avisarte, y hay un archivo llamado llms.txt del que probablemente hayas oído hablar sin tener claro si sirve para algo o es otro hype de temporada.

Este artículo responde esas preguntas de forma concreta: qué crawlers de IA existen ahora mismo, cuándo te interesa bloquearlos y cuándo no, cómo queda un robots.txt razonable para junio de 2026, qué es exactamente llms.txt y dónde está la trampa silenciosa de Cloudflare que está afectando a webs españolas sin que sus dueños lo sepan.

Por qué tu robots.txt de 2024 ya no funciona para los bots de IA

El problema más común que encuentro cuando reviso webs de clientes no es que tengan el robots.txt mal configurado: es que lo tienen desactualizado. Añadieron Disallow: / bajo User-agent: GPTBot en 2023 o 2024, y desde entonces no lo han vuelto a tocar. Eso significa que están operando con un mapa de carreteras que ya no refleja las carreteras que existen.

El cambio más significativo llegó en febrero de 2026, cuando Anthropic separó sus crawlers en tres user-agents distintos: ClaudeBot para entrenamiento de modelos, Claude-SearchBot para búsqueda web en Claude.ai y Claude-User para peticiones directas de usuarios. Antes de esa separación, una sola línea en el robots.txt hacía todo el trabajo; ahora, bloquear ClaudeBot no bloquea a Claude-SearchBot, y eso tiene implicaciones directas en tu visibilidad dentro de Claude.

El segundo cambio relevante es el del panel de Cloudflare, del que hablo en detalle más adelante, pero que en resumen activó por defecto una capa de bloqueo de bots de IA que muchas webs no pidieron y de la que muchos webmasters no se han enterado.

A esto se suma que la lista de crawlers activos en 2026 tiene entre diez y veinte entradas dependiendo de cómo cuentes, con comportamientos muy distintos entre sí: algunos respetan el robots.txt religiosamente, otros lo leen pero lo ignoran en parte, y un porcentaje pequeño pero no despreciable simplemente no lo lee. Según datos de Tollbit citados por alicelabs.ai, aproximadamente el 12,9 % de los bots de IA ignoran el robots.txt, lo que es casi uno de cada ocho; conviene tenerlo en cuenta antes de confiar ciegamente en ese archivo como única barrera.

Los tres tipos de crawlers de IA que necesitas distinguir

Antes de tocar una sola línea del robots.txt, necesitas entender qué hace cada bot, porque la decisión de bloquear o permitir cambia completamente según el tipo. Para ampliar los detalles concretos sobre la separación de Anthropic en tres user-agents, te remito a lo que ya expliqué en este artículo sobre Anthropic, Claude y el robots.txt; aquí lo pongo en contexto junto al resto de crawlers.

Los tres tipos que importan son: los crawlers de entrenamiento, que rastrean tu contenido para incluirlo en los datos de entrenamiento de un modelo de lenguaje; los de retrieval o búsqueda, que lo indexan para poder citarlo en respuestas en tiempo real; y los de tipo user, que actúan directamente a petición de un usuario final que ha pedido que el modelo visite tu web. Bloquear los tres es bloquear cosas distintas, con consecuencias distintas.

User-agent Empresa Tipo ¿Respeta robots.txt? Recomendación por defecto
GPTBot OpenAI Entrenamiento Bloquear si no quieres que tu contenido entre en datos de entrenamiento
OAI-SearchBot OpenAI Retrieval (citación en ChatGPT Search) Permitir si quieres visibilidad en ChatGPT
ClaudeBot Anthropic Entrenamiento Bloquear si no quieres contribuir al entrenamiento de Claude
Claude-SearchBot Anthropic Retrieval (citación en Claude.ai) Sí (desde feb. 2026) Permitir si quieres citaciones en Claude
Claude-User Anthropic Petición de usuario Sí (desde feb. 2026) Permitir; bloquear solo si tienes razón específica
PerplexityBot Perplexity Retrieval (citación en Perplexity) Permitir; Perplexity es el más eficiente en ratio citación/rastreo
Google-Extended Google Entrenamiento (solo Gemini) Decisión libre; bloquearlo no afecta al ranking en Google Search

Sobre Google-Extended conviene ser explícito porque es uno de los errores que veo con más frecuencia: bloquearlo no tiene ningún efecto sobre la indexación ni el posicionamiento en Google Search. Controla únicamente si tu contenido entra en los datos de entrenamiento del modelo Gemini; el Googlebot clásico sigue funcionando con total independencia. Si alguien te dice que bloquear Google-Extended protege tu SEO, está equivocado.

Cuándo bloquear y cuándo dejar pasar según tu modelo de negocio

La decisión de bloquear bots de IA no debería ser binaria ni por defecto. La pregunta real es: ¿qué consigues con visibilidad en las respuestas de estos modelos, y qué pierdes si dejas que rastreen tu contenido para entrenamiento?

Para orientar esa decisión, hay un dato de contexto que vale la pena conocer, aunque con sus matices. Según un análisis de evolveamz.com sobre crawlers de IA en ecommerce publicado en junio de 2026, Perplexity tiene un ratio crawl-to-referral de aproximadamente 111:1 (111 páginas rastreadas por cada visita que devuelve), mientras que Anthropic está en torno a 20.583:1. Son datos de metodología no publicada, así que los tomo como orientativos, no como cifras definitivas, pero señalan una dirección clara: Perplexity es el crawler de IA más eficiente a la hora de convertir rastreo en tráfico real, y Anthropic es el más costoso en esa ecuación.

Si tu modelo de negocio depende de la visibilidad, la captación o el tráfico (una tienda, un blog de contenido, un consultor que vive de la demanda entrante), generalmente te interesa permitir los bots de retrieval y citación, y decidir de forma separada sobre los de entrenamiento. Si tienes una web con contenido de alto valor propietario (datos exclusivos, investigación propia, contenido de pago), el cálculo cambia: ceder ese contenido para entrenar modelos tiene un coste real sin compensación directa. Si no tienes claro cuál es tu caso, en este artículo sobre bloquear bots de IA en tu web desarrollé el razonamiento base con más detalle.

Un caso concreto para ilustrarlo: un cliente con un ecommerce de producto especializado me preguntó si debía bloquear GPTBot porque "no quería que ChatGPT usara sus fichas de producto". Le expliqué la diferencia entre GPTBot y OAI-SearchBot; bloqueó el primero, dejó pasar el segundo, y tres meses después tenía referencias directas a sus productos en respuestas de ChatGPT Search. Eso es lo que se pierde cuando se trata el bloqueo como un interruptor general.

Alex Amigo

¿Necesitas ayuda con tu estrategia SEO?

Trabajemos juntos para hacer crecer tu negocio con una estrategia digital personalizada.

Plantilla robots.txt para crawlers de IA en 2026 por perfil de negocio

Lo que sigue son tres configuraciones que yo aplicaría a distintos tipos de web en España en junio de 2026. Están pensadas para copiar y adaptar, no como verdad absoluta: tu casuística puede requerir ajustes. Añádelas siempre al final del robots.txt existente, sin tocar las reglas para Googlebot.

Perfil A — Máxima visibilidad en IA (recomendado para blogs, webs de servicios, ecommerce con visibilidad como objetivo)

# Crawlers de entrenamiento — bloqueados
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# Crawlers de retrieval y citación — permitidos
User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

Perfil B — Equilibrio (para webs con contenido parcialmente propietario que quieren presencia en IA sin ceder todo)

# Entrenamiento — bloqueado
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# Retrieval — acceso solo a contenido público, no a zona de cliente ni docs internos
User-agent: OAI-SearchBot
Allow: /blog/
Allow: /servicios/
Disallow: /docs/
Disallow: /privado/

User-agent: Claude-SearchBot
Allow: /blog/
Allow: /servicios/
Disallow: /docs/
Disallow: /privado/

User-agent: PerplexityBot
Allow: /blog/
Allow: /servicios/
Disallow: /docs/
Disallow: /privado/

Perfil C — Protección total (contenido propietario de alto valor, plataformas de datos, webs con razones específicas para no ser rastreadas por IA)

# Todos los crawlers de IA bloqueados
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-SearchBot
Disallow: /

User-agent: Claude-User
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Recuerda que el robots.txt es declarativo, no técnico: los crawlers que no lo respetan (ese ~12,9 % del que hablaba antes) lo ignorarán de todas formas. Para una barrera técnica real necesitas autenticación, rate limiting o las herramientas del firewall de Cloudflare, pero eso ya es otra conversación.

Qué es llms.txt, en qué se diferencia de robots.txt y cómo crearlo

llms.txt es un archivo de texto que colocas en la raíz de tu dominio (tudominio.com/llms.txt) y que le dice a los modelos de lenguaje qué contenido de tu web es relevante para responder preguntas sobre ti o sobre lo que ofreces. La distinción con robots.txt es funcional, no técnica: robots.txt controla el acceso del crawler a las URLs; llms.txt prioriza y estructura la información para la fase de inferencia, es decir, para cuando el modelo decide qué usar al generar una respuesta.

Dicho de forma directa: puedes tener un robots.txt que permita el acceso a todos los bots de retrieval y al mismo tiempo un llms.txt que oriente a esos bots hacia tus páginas más relevantes, evitando que "entiendan" tu web a través de contenido secundario o desactualizado.

Antes de vendértelo como solución mágica, la honestidad obliga a decir dos cosas. Primera: llms.txt es una propuesta, no un estándar oficial; lo impulsó Jeremy Howard (fast.ai) en 2025 y ha ganado tracción, pero no existe un cuerpo de estandarización que lo valide y no todos los crawlers lo leen aún. Segunda: los beneficios reportados son mejoras en la precisión con que los LLMs citan y resumen tu contenido, no un aumento de tráfico directo medible. Es una inversión de posicionamiento en IA, no una palanca de tráfico inmediata.

Un llms.txt mínimo viable tiene esta estructura:

# tudominio.com

> [Descripción breve de quién eres y qué ofreces, en 1-2 frases]

## Contenido principal
- [Título de la página]: [URL] — [descripción corta]
- [Título de la página]: [URL] — [descripción corta]

## Servicios
- [Nombre del servicio]: [URL]

## Sobre
- [Página de about o contacto]: [URL]

Para una web de servicios como la de un consultor, la sección más importante es la de servicios y la descripción inicial. Para un ecommerce, las categorías principales y las páginas de producto estrella. Para un blog técnico, los artículos de mayor autoridad y los que mejor resumen tu posición sobre los temas clave.

Según solumize.com, en junio de 2026 la mayoría de empresas en España y LATAM todavía no tienen llms.txt implementado; si lo haces ahora, entras en una ventana de ventaja temprana que probablemente no dure mucho más.

La trampa del panel de Cloudflare que nadie te avisa

Esta es la parte del artículo con más impacto práctico para webs españolas, porque el problema es completamente silencioso: ocurre sin que hayas pedido que ocurra y sin ninguna notificación clara.

Cloudflare activó por defecto en su panel de control una función de bloqueo de bots de IA orientada a proteger a los usuarios del scraping masivo. El problema es que esa función no distingue entre crawlers de entrenamiento (los que toman tu contenido sin devolverte nada) y crawlers de retrieval (los que podrían citarte en ChatGPT, Claude o Perplexity). Los bloquea todos. Webs que activaron la "protección anti-bot" para parar el scraping llevan meses bloqueando también los bots que les darían visibilidad en modelos de IA, sin saberlo.

Para comprobar si te afecta, ve a tu panel de Cloudflare y busca Security → Bots. Si tienes activado el Bot Fight Mode o el Super Bot Fight Mode, revisa qué nivel de bloqueo aplica a "AI Scrapers and Crawlers". En el plan gratuito, la opción es binaria (bloquear o no bloquear); en planes de pago tienes más granularidad para separar por tipo de bot. Si estás en el plan gratuito y quieres permitir los bots de retrieval, la solución más limpia es desactivar el bloqueo genérico de bots de IA en Cloudflare y gestionar la distinción directamente en el robots.txt con las plantillas del apartado anterior.

Hay un segundo punto a revisar en Cloudflare: las reglas de firewall personalizadas. Si tienes una regla que bloquea por user-agent y fue creada hace más de seis meses, probablemente no incluye la distinción entre ClaudeBot y Claude-SearchBot (que son user-agents distintos desde febrero de 2026). Una regla antigua que bloqueara "claude" en el user-agent puede estar bloqueando los tres, incluidos los de retrieval. Vale la pena revisarlo.

Antes de cerrar, un checklist rápido de verificación para dejar la configuración en orden:

  • ¿Tu robots.txt tiene reglas separadas para user-agents de entrenamiento y de retrieval?
  • ¿Incluye los tres user-agents de Anthropic post-febrero 2026 (ClaudeBot, Claude-SearchBot, Claude-User)?
  • ¿Has revisado si Google-Extended está bloqueado por razones válidas o por error?
  • ¿Has comprobado el Bot Fight Mode de Cloudflare y qué hace exactamente con los bots de IA?
  • ¿Tienes llms.txt, o al menos lo has valorado en función de tu tipo de web?
  • ¿Tienes alguna regla de firewall antigua que pueda estar bloqueando user-agents por string parcial?

Si encuentras algún punto sin resolver, o quieres combinarlo con otros trucos SEO que realmente funcionan en 2026, puedo ayudarte en una auditoría.

Preguntas frecuentes