#79 El fin del "contrato social" de la web

En 2024 vamos a ver la primera "exclusiva" de contenido para un buscador, al tiempo que se pone en tela de juicio el acuerdo tácito que se apoyaba en el fichero robots.txt

jul 31, 2024

🤝 Empecemos explicando a qué me refiero con eso de “contrato social” de la web, en relación con los buscadores. Se trata de algo tan básico como: yo indexo tu contenido en mi buscador y a cambio te doy “algo”. En el caso de los motores de búsqueda, se ha tratado siempre de visitas, que el editor podía monetizar de diversas formas. Cuanto mejor era el contenido del sitio web, mejores rankings y por tanto mayor tráfico. Así de simple.

Este contrato se regulaba en gran parte por medio de ese pacto de caballeros que representaba el fichero robots.txt, un estándar de facto con tres décadas ya a sus espaldas.

El ocaso de robots.txt

Es un archivo muy sencillo, ubicado en la carpeta raíz (/) de los sitios web, pero que no está dotado de ninguna autoridad legal ni técnica en particular. Únicamente plasma un acuerdo entre los primeros pioneros de Internet, que buscaban respetar las reglas mutuas y construir la una red universal en beneficio de todos. Como muchos sabréis, se utiliza para indicar a los motores de búsqueda qué partes de un sitio web pueden o no pueden ser rastreadas e indexadas (y qué buscadores pueden hacerlo).

Si bien robots.txt se ha enfocado tradicionalmente a los motores de búsqueda, permitiéndoles recopilar datos a cambio de mover tráfico hacia los sitios web, la aparición de la inteligencia artificial ha alterado esta dinámica, generando preocupación entre los editores sobre el uso de su contenido sin recibir contraprestación alguna. La IA supone, para muchos, un intercambio desigual donde las compañías aprovechan los datos sin un retorno tangible para los creadores de contenido.

Con el crecimiento exponencial de Internet y la evolución de la IA, las capacidades de los crawlers web aumentaron de forma notable. Google, Bing, y otros motores de búsqueda ya no usan estos bots únicamente para indexar la web, sino que también los emplean para entrenar a sus grandes modelos de lenguaje (LLMs).

La expansión de productos de IA, como ChatGPT o Google Gemini, ha incrementado el valor de los datos para el entrenamiento de estos modelos, y compañías como BBC, The New York Times o Amazon han comenzado a bloquear los bots de IA, como GPTBot.

Aunque es cierto que tanto Google como OpenAI han afirmando que siguen las reglas de robots.txt para dar soporte a un Internet abierto, no hay que olvidar que este protocolo ha sido siempre permisivo, se basa en la confianza en la buena fe de sus usuarios.

Sirva como ejemplo Internet Archive, que obvia por completo este fichero a la hora de incorporar sitios web a su base de datos. A medida que más compañías de IA emergen, bloquear cada bot nuevo que aparece [EN] se convierte en un reto constante, y la posible definición legal y regulatoria aún está por llegar.

Reddit en exclusiva para Google

Con este contexto en mente, descubrimos esta semana que Reddit ha bloqueado a los bots de cualquier motor de búsqueda [EN] que no tenga un acuerdo con ellos. De esta forma, Google es ahora el único buscador que puede mostrar resultados de esta plataforma, algo que convierte uno de los depósitos más valiosos de contenido generado por usuarios (UGC) en exclusivo del motor de búsqueda que ya domina Internet. Lógicamente, la noticia no ha sido recibida con especial entusiasmo [EN] en las oficinas de Microsoft.

Como sabréis, a principios de este año, Google firmó un contrato con Reddit, por valor de 60 millones de dólares anuales [EN], para licenciar los datos del sitio con vistas a entrenar sus modelos de IA. Esto ha llevado de forma paralela a un aumento en la predominancia (y por lo tanto el tráfico) de Reddit en sus resultados de búsqueda.

Los críticos argumentan -pienso que con razón- que Google, a pesar de su temor a eventuales sanciones antimonopolio, está “comprando” una ventaja injusta. Es evidente que con este movimiento despojan a la competencia de Reddit, una fuente importante de texto humano auténtico en Internet.

Aunque estas prácticas puedan ser viables y legales desde una perspectiva puramente empresarial, son sin embargo perjudiciales para el público en general, ya que limitan el acceso a la información y subordinan a Reddit a los incentivos específicos de Google, que a su vez cambian rápidamente debido a la influencia de la IA.

Algunos [EN] piensan que estos desarrollos podrían marcar el fin de una era fructífera sustentada en la web abierta, presagiando un futuro donde la comunicación humana en red se vea reemplazada por contratos antagonistas entre grandes firmas tecnológicas en guerra.

Un nuevo actor entra en juego

En el fragor de esta lucha por presentar el mejor buscador basado en IA y de hacerse con la exclusiva de los mejores datasets con que alimentar y entrenar los modelos, aparece un nuevo contendiente: SearchGPT.

SearchGPT funciona respondiendo consultas utilizando modelos de inteligencia artificial, además de información obtenida de la web, e incluirá enlaces a las fuentes más relevantes, según se explica en el blog de OpenAI [EN]. Al mismo tiempo, describen SearchGPT como “un prototipo de nuevas características de búsqueda que usa la fuerza de sus modelos de IA para proporcionar respuestas rápidas con fuentes claras y relevantes”.

Puede que parte de los movimientos recientes de Google tengan que ver con una respuesta preventiva ante este lanzamiento. Tal vez les preocupe la posibilidad de que OpenAI acierte donde ellos están fallando. No en vano Altman ha dejado claro que su interés no es copiar a Google, sino crear una nueva búsqueda amigable para el usuario que combine modelos de lenguaje y búsqueda sin inundar al usuario con publicidad. También habría que recordar aquello que decía Eric Schmidt: “el próximo gigante de la búsqueda no será una copia de Google”.

Lo próximo será comprobar si, a partir de ahora, entramos en una espiral de adquisiciones y exclusivas de fuentes de contenido que alimenten estos buscadores basados en IA. Esto nos llevaría con total seguridad a ese escenario que comentaba más arriba, donde se rompería el equilibrio, el contrato social de la web y al mismo tiempo el acceso universal a cualquier sitio desde cualquier buscador.

☠️ Google ya NO indexa tu contenido (por defecto) [EN]

👉 Qué tiempos aquellos en que publicabas un post en tu blog de WordPress y se indexaba en cuestión de minutos. Esto reflejaba aquella misión de Google de “organizar y hacer accesible la información global”. Pero ahora Google se enfrenta a un futuro donde la IA puede generar cantidades ingentes de contenido similar al humano y a gran velocidad. La respuesta de Google respecto a esto ha sido triple:

Promover ese vago concepto de E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness), favoreciendo a marcas bien conocidas y sitios muy establecidos.
Mejorar sus métodos de clasificación para restar visibilidad al contenido “poco útil” (Helpful Update)
Abandonar la misión de indexar todo Internet, volviéndose muy selectivo.

Esta modificación a la hora de indexar no se debe a que los editores no cumplan con algún estándar arbitrario de calidad, sino a un cambio fundamental en cómo Google aborda su rol como motor de búsqueda. El buscador ahora opera bajo una política de "no indexar por defecto", solo incluyendo contenido en su índice cuando percibe una necesidad genuina, basándose en la unicidad del contenido, la autoridad percibida y el reconocimiento de la marca.

Y ojo, que inicialmente, puede indexarte el contenido nuevo rápidamente, pero luego desindexarlo si lo detecta como redundante, manteniéndose así a menos que sea realmente necesario.

🕹️ Seguro que recordáis el caso de Retro Dodo, que ya comentamos por aquí hace no mucho y cómo perdieron el 90% de su tráfico desde Google a causa de los recientes core updates. Pues resulta que Google invitó al fundador de Retro Dodo, Brandon Saltalamacchia, para discutir con ellos el impacto devastador de los últimos cambios en el algoritmo y escuchar sus experiencias y sugerencias como creador de contenidos [EN].

👉 Os dejo por aquí varias de las recomendaciones de Brandon, ya que me parecen bastante sensatas:

La necesidad de que Google proporcione guías más claras y coherentes.
Un sistema de análisis similar al Creator Studio de YouTube para ayudar a los editores a mejorar su contenido basándose en datos confiables.
Establecer un nuevo puesto dentro de Google llamada Google Search Creator Advisor (Asesor de Creadores de Búsqueda de Google), enfocado a la optimización centrada en el lector.

Con todo, intuyo que Brandon no salió demasiado contento de la reunión. Manifestó una mezcla de esperanza y escepticismo respecto a que estos “encuentros” con Google cristalicen en acciones concretas para revertir la situación negativa que afecta a los editores independientes.

[Esta semana en Substack…]

GPT-5: Everything You Need to Know [EN], por Alberto Romero.
Para muy cafeteros. Estamos hablando de un pedazo de post de 14.000 palabras describiendo a fondo el modelo. Material muy interesante.
Más allá de los LLMs: poniéndole seso a la Inteligencia Artificial General (AGI), por Fernando Polo.
También para muy cafeteros. Fernando nos cuenta cómo la neurociencia podría orientar el desarrollo de la IA en el futuro de forma que supere sus limitaciones actuales.
La importancia del marcado de datos en SEO: agrupación, relación y tipos, por Rafa Villaplana.
En esta edición, Rafa nos habla sobre la importancia del marcado de datos, cómo se pueden agrupar y relacionar, y qué tipos de marcado utilizar según el tipo de negocio.
Consejos para nicheros de nivel Padawan, por Maca-chan.
Una serie de consejos para aquellos que están empezando en el mundo de los nichos y que Macarena ha aprendido con el paso de los últimos años.

[Otras lecturas SEO/IA que me han parecido interesantes]

SEO para TikTok: Guía completa, por Mercedes Haba.
Errores SEO frecuentes que pueden perjudicar tu sitio web, por Javier Gosende.
6 técnicas para aumentar la autoridad de dominio (DA) en poco tiempo, en growwer.
What is generative engine optimization (GEO)? [EN], por Christina Adame.
Google Confirms Ranking Boost For Country Code Domains [EN], por Roger Montti.
How to Get Search Traffic Without Ranking for Anything [EN], por Tim Soulo.
New Google Business Profile AI tool creates a menu from an image [EN], por Claudia Tomina.
👉 El patrocinador
¿Cansado de crear contenido manualmente para tu sitio web de WordPress?
¡Prueba Brutal Plugins y revoluciona la forma en que generas contenido de alta calidad!
Brutal Plugins son varios plugins innovadores basados en inteligencia artificial para automatizar la creación de artículos, nichos en automático e incluso responder a comentarios con IA.
Con Brutal Plugins puedes:
- Ahorrar tiempo y esfuerzo: Genera contenido en cuestión de minutos, sin necesidad de escribir manualmente.
- Mejorar tu SEO: Crea contenido optimizado para los motores de búsqueda, lo que te ayudará a atraer más tráfico a tu sitio web.
- Aumentar tu productividad: Dedica más tiempo a otras tareas importantes de tu negocio mientras Brutal Plugins se encarga de la creación de contenido.
Brutal Plugins también ofrece una versión gratuita para que puedas probarlo sin compromiso.
¡Suscríbete hoy mismo y descubre cómo Brutal Plugins puede ayudarte a llevar tu sitio web de WordPress al siguiente nivel!
Prueba gratuita