Cloudflare bloquea bots de scraping por defecto para proteger contenido web
La empresa de seguridad web anuncia que a partir de septiembre de 2026 bloqueará por defecto los bots de uso mixto en páginas con anuncios, afectando a Google, Apple y Microsoft.
4 de julio de 2026 · 5 min de lectura

¿Qué ha ocurrido?
Cloudflare ha anunciado cambios significativos en su plataforma para proteger el contenido de los sitios web frente a bots de scraping, especialmente aquellos utilizados para entrenar modelos de inteligencia artificial. A partir del 15 de septiembre de 2026, los nuevos clientes y los nuevos sitios de clientes existentes tendrán por defecto la configuración que permite el rastreo para búsqueda pero bloquea el entrenamiento de IA y los agentes en páginas con anuncios. Esta configuración también se aplicará a los clientes del plan gratuito que no hayan modificado sus ajustes. La decisión se produce en un contexto donde, según The Register, la mayoría del tráfico en Internet ya es no humano, y los editores han estado luchando por controlar el uso de su contenido por parte de las empresas de IA. Cloudflare, que maneja aproximadamente el 20% del tráfico web global, se posiciona como un árbitro en este conflicto.
Además, Cloudflare renombra su servicio 'Pay Per Crawl' a 'Pay Per Use' y se asocia con Ceramic.ai y You.com para que los editores reciban compensación cuando su contenido genere valor, no solo cuando sea rastreado. También lanza un nuevo panel de análisis de negocio (Business Insights Dashboard) que proporciona visibilidad granular sobre el consumo de bots, incluyendo métricas de qué bots acceden, con qué frecuencia y qué datos extraen. Este panel se alinea con la tendencia de 'data sovereignty' que ha ganado tracción desde la GDPR en 2018 y las recientes regulaciones de IA en la UE.
¿Por qué es importante?
Este movimiento es crucial porque aborda uno de los mayores conflictos actuales en la web: el uso no compensado de contenido editorial para entrenar modelos de IA. Hasta ahora, los editores se veían atrapados entre permitir el rastreo de Googlebot (necesario para aparecer en búsquedas) y evitar que sus datos se usen para entrenar IA. Cloudflare ofrece una solución técnica que separa ambos usos, dando a los editores un control granular. La decisión se basa en la existencia de directivas como Google-Extended (anunciada en agosto de 2023) y Applebot-Extended, que permiten a los editores optar por no participar en el entrenamiento de IA mediante robots.txt. Sin embargo, muchos bots ignoran estas directivas, y Cloudflare busca hacer cumplir el bloqueo a nivel de red.
La decisión afecta directamente a los principales buscadores: Google, Microsoft Bing y Apple, cuyos crawlers (Googlebot, Bingbot y Applebot) tienen usos mixtos. Si no se adhieren a las directivas de exclusión, podrían ver bloqueado su acceso a contenido con anuncios. Según The Register, Googlebot combina crawling para búsqueda y recolección de datos para entrenamiento de IA, y los editores han tolerado esto por miedo a desaparecer de los resultados de búsqueda. Bingbot y Applebot tienen comportamientos similares. La fecha de implementación, septiembre de 2026, da tiempo a estos gigantes para ajustar sus crawlers, pero si no lo hacen, podrían perder visibilidad en una parte significativa de la web.
Consecuencias para el ecosistema digital
- Para editores: Mayor control sobre su contenido y potenciales ingresos por licencias de datos. Sin embargo, podrían perder tráfico de búsqueda si los crawlers no pueden acceder a páginas con anuncios. El nuevo panel de análisis les permitirá monitorear el comportamiento de los bots y tomar decisiones informadas. La asociación con Ceramic.ai y You.com ofrece un modelo de compensación basado en valor generado, similar a los acuerdos de licencia de contenido que News Corp y Axel Springer han firmado con OpenAI.
- Para empresas de IA: Menos acceso gratuito a datos de entrenamiento, lo que podría ralentizar el desarrollo de modelos o aumentar costos si optan por pagar por contenido. Esto podría acelerar la consolidación en el mercado de IA, donde solo las empresas con grandes presupuestos podrán acceder a datos de alta calidad. También podría incentivar el uso de datos sintéticos o la mejora de técnicas de aprendizaje no supervisado.
- Para buscadores: Google, Bing y Apple deben adaptar sus crawlers para cumplir con las nuevas reglas o arriesgarse a ser bloqueados en sitios con anuncios. Históricamente, Google ha resistido cambios que afecten su capacidad de rastreo, pero en 2020 aceptó el mecanismo de 'noindex' para contenido de pago. Es probable que sigan un camino similar, separando sus bots de búsqueda y de IA. Apple, con su enfoque en privacidad, podría ser más receptivo.
- Para usuarios: Posible mejora en la calidad del contenido si los editores pueden monetizarlo mejor, pero también posible reducción en la cobertura de búsqueda si los bots no acceden a ciertas páginas. Sin embargo, los buscadores podrían priorizar contenido sin anuncios, lo que podría llevar a una web más limpia pero menos diversa. Además, los usuarios podrían ver más resultados de sitios que no usan Cloudflare o que permiten el rastreo completo.
¿Qué deben saber los lectores?
Si eres propietario de un sitio web, debes revisar la configuración de Cloudflare a partir de septiembre. Si usas anuncios, por defecto se bloquearán los bots de entrenamiento, pero puedes ajustarlo manualmente. El nuevo panel de análisis te ayudará a entender mejor el tráfico de bots, mostrando qué bots acceden y con qué frecuencia. También puedes explorar la opción de 'Pay Per Use' para obtener ingresos por el uso de tu contenido en IA, aunque esto está en fase inicial con socios específicos.
Para los usuarios de Internet, este cambio podría afectar la disponibilidad de ciertos sitios en los resultados de búsqueda, especialmente aquellos que dependen de ingresos publicitarios. Sin embargo, también podría fomentar un ecosistema más justo donde los creadores de contenido sean compensados por el uso de sus datos en IA. En términos más amplios, esta medida de Cloudflare podría sentar un precedente para que otros proveedores de infraestructura web (como Akamai o Fastly) implementen controles similares, acelerando la transición hacia una web más regulada en cuanto al uso de datos.
"Ahora que la mayoría del tráfico en Internet es no humano, debemos ir más allá y actuar más rápido para que emerja un ecosistema sostenible", declaró Matthew Prince, CEO de Cloudflare.
Esta declaración refleja la urgencia de un problema que ha crecido exponencialmente desde el lanzamiento de ChatGPT en 2022. La decisión de Cloudflare no solo protege a los editores, sino que también envía una señal clara a la industria: la era del scraping gratuito para IA está llegando a su fin.
Puntos clave
- Cloudflare bloquea bots de uso mixto (búsqueda + IA) en páginas con anuncios por defecto desde el 15 de septiembre de 2026.
- La medida afecta a Googlebot, Bingbot y Applebot, que deberán separar sus funciones o ser bloqueados.
- Cloudflare lanza 'Pay Per Use' y paneles de análisis para que editores moneticen su contenido cuando genera valor.
- Los editores pueden optar por no aplicar el bloqueo cambiando la configuración predeterminada.
Preguntas frecuentes
¿Cuándo entra en vigor el bloqueo de Cloudflare?
A partir del 15 de septiembre de 2026 para nuevos clientes y sitios, y para clientes gratuitos que no hayan modificado sus ajustes.
¿Qué bots se ven afectados?
Los crawlers de uso mixto que combinan indexación para búsqueda y recolección de datos para entrenar IA, como Googlebot, Bingbot y Applebot.
¿Puedo desactivar el bloqueo en mi sitio?
Sí, los clientes pueden cambiar la configuración predeterminada para permitir el acceso de estos bots a sus páginas con anuncios.
¿Cómo afecta esto a los buscadores?
Google, Bing y Apple deben asegurarse de que sus crawlers solo realicen funciones de búsqueda en sitios con anuncios, o de lo contrario serán bloqueados. Deben usar las directivas de exclusión (Google-Extended, etc.) para separar usos.
¿Qué es 'Pay Per Use'?
Es la nueva versión de 'Pay Per Crawl', un modelo donde los editores reciben compensación cuando su contenido genera valor (por ejemplo, en resultados de búsqueda de Ceramic.ai o You.com), no solo cuando es rastreado.
Fuentes utilizadas
Sigue leyendo
Comentarios
Sé el primero en comentar.