Límites de rastreo de Googlebot y su arquitectura

Gary Illyes, analista de Google, ha compartido información detallada sobre el funcionamiento de los sistemas de rastreo de Googlebot. Esta actualización profundiza en los límites de bytes, el comportamiento de la recuperación parcial de datos y la organización de la infraestructura que sostiene el buscador. Entender estos aspectos técnicos resulta fundamental para asegurar que vuestro contenido se indexe correctamente y no quede fuera por limitaciones de tamaño o estructura.

Googlebot como parte de una plataforma compartida

Googlebot no opera de forma aislada. Se trata de un cliente dentro de una plataforma de rastreo centralizada que comparten otros servicios como Google Shopping o AdSense. Aunque cada producto tiene su propio nombre de crawler, todos utilizan la misma base tecnológica para realizar peticiones a los servidores web.

Cada cliente de esta plataforma configura sus propios parámetros, lo que incluye el user agent, las reglas específicas del archivo robots.txt y los límites de descarga de datos. Cuando veis a Googlebot en vuestros registros de servidor, estáis ante el rastreador de la Búsqueda de Google. Otros rastreadores aparecerán con sus nombres correspondientes, permitiendo identificar qué servicio está accediendo a vuestra web. Podéis profundizar en cómo estos rastreadores interactúan con las nuevas tecnologías en este artículo sobre el Panel de IA en Bing y nuevos límites de Googlebot.

El límite de 2 MB y su aplicación técnica

Googlebot tiene establecido un límite de 2 MB para la descarga de cualquier URL, exceptuando los archivos PDF, que cuentan con un margen superior de 64 MB. Otros rastreadores que no especifican un límite concreto utilizan un valor por defecto de 15 MB. Es un detalle técnico que debéis vigilar, especialmente en páginas con mucho código incrustado.

Un aspecto relevante es que las cabeceras de la petición HTTP también computan dentro de esos 2 MB. Si una página supera este tamaño, Googlebot no descarta el archivo por completo. El rastreador detiene la descarga al alcanzar el límite y envía el contenido truncado a los sistemas de indexación y al Servicio de Renderizado Web (WRS). Estos sistemas procesan el archivo como si estuviera completo, lo que significa que cualquier contenido, enlace o etiqueta que se encuentre después del corte de 2 MB será ignorado por Google.

Gestión de recursos externos y renderizado

A pesar del límite estricto en el HTML principal, los recursos externos referenciados —como archivos CSS o JavaScript— funcionan con su propio contador de bytes independiente. Estos archivos no restan capacidad al límite de 2 MB de la página madre. Esta separación es clave para mantener el peso del HTML bajo control sin sacrificar la funcionalidad del sitio.

Límites de rastreo de Googlebot y arquitectura de Google

El WRS se encarga de procesar el JavaScript y ejecutar el código del lado del cliente para comprender la estructura de la página. Durante este proceso, se solicitan archivos CSS y peticiones XHR, pero el sistema no descarga imágenes ni vídeos para el renderizado. Además, el WRS opera de forma sin estado, limpiando el almacenamiento local y los datos de sesión entre cada petición. Para analizar cómo estas interacciones afectan a vuestro rendimiento, podéis realizar un Análisis avanzado: Cruza datos de GSC y GA4 para un SEO imparable.

¿Necesitas ayuda con tu estrategia SEO?

Trabajemos juntos para hacer crecer tu negocio con una estrategia digital personalizada.

Contactar ahora Pedir reunión

Recursos que no computan en el límite principal

Archivos CSS externos.
Scripts de JavaScript alojados en archivos independientes.
Peticiones de datos mediante XHR o Fetch API.
Fuentes tipográficas y otros archivos específicos.

Buenas prácticas para optimizar el rastreo

Para evitar que vuestro contenido crítico quede fuera del alcance de Googlebot, conviene seguir una serie de pautas de optimización técnica. La prioridad debe ser mantener el código HTML lo más limpio posible, delegando la carga visual y lógica a archivos externos. En el contexto actual, donde la inteligencia artificial cambia las reglas del juego, estas bases técnicas son más necesarias que nunca, como se explica en este post sobre AI SEO y gestión del cambio para el posicionamiento web.

Colocad siempre las etiquetas meta, el título, los elementos de enlace, las etiquetas canonical y los datos estructurados en la parte superior del documento HTML. En páginas extremadamente extensas, el contenido situado al final del archivo corre el riesgo de no ser procesado si se supera el umbral de bytes. Evitad el uso de imágenes en base64 de gran tamaño, bloques masivos de CSS o JS en línea y menús de navegación sobredimensionados que hinchen el peso del archivo innecesariamente.

Impacto de las cabeceras HTTP

Aunque la mayoría de los sitios web no tendrán problemas con el límite de 2 MB, aquellos que utilicen cabeceras HTTP muy pesadas o un marcado excesivamente redundante podrían alcanzar el corte antes de lo previsto. Las cabeceras consumen una parte del presupuesto de bytes junto con los datos del HTML. Es un factor a tener en cuenta en configuraciones de servidor complejas o cuando se envían grandes cantidades de metadatos en la respuesta inicial.

Google ha indicado que estos límites no son inamovibles. Podrían ajustarse en el futuro a medida que la web evolucione y el tamaño medio de las páginas aumente. Por ahora, la recomendación es verificar que los elementos esenciales para el posicionamiento se encuentren siempre dentro del primer tramo de descarga.

Para implementar correctamente estas estrategias y maximizar resultados, contar con un experto en posicionamiento web puede marcar la diferencia entre el éxito y el estancamiento de tu proyecto digital. Un profesional podrá auditar vuestro código y asegurar que la arquitectura de rastreo de Google no encuentre obstáculos insalvables.

Conclusión sobre la arquitectura de rastreo

La transparencia de Google respecto a Googlebot permite a los profesionales del SEO técnico ajustar sus desarrollos con mayor precisión. El conocimiento de que Googlebot comparte plataforma con otros servicios explica las variaciones de comportamiento observadas en los logs del servidor. Mantener vuestras páginas por debajo de los 2 MB y priorizar la carga de recursos externos no solo facilita el rastreo, sino que mejora la eficiencia con la que Google comprende vuestro sitio web.

¿Necesitas mejorar el posicionamiento de tu web?

Si quieres aplicar estas estrategias y obtener resultados reales, puedo ayudarte. Llevo años trabajando el SEO de empresas y proyectos digitales con un enfoque técnico y orientado a resultados.

Solicitar consulta SEO

Preguntas frecuentes

¿Qué ocurre si mi página HTML supera los 2 MB?

Googlebot detendrá la descarga al alcanzar el límite y enviará solo la parte recuperada a los sistemas de indexación. Todo el contenido y las etiquetas situadas después de ese punto serán ignorados.

¿Cuentan las imágenes y el CSS externo para el límite de 2 MB?

No, los archivos externos como CSS, JS y recursos multimedia tienen sus propios contadores independientes. Solo el HTML y las cabeceras HTTP de la página principal computan para el límite de 2 MB.

¿Cuál es el límite de tamaño para los archivos PDF en Google?

Los archivos PDF tienen un límite de rastreo superior de 64 MB, significativamente más alto que el estándar de 2 MB para las páginas HTML comunes.

Límites de rastreo de Googlebot y arquitectura de Google