#63 Algoritmos en paños menores y evaluadores basados en IA
La filtración de documentos del juicio antimonopolio contra Google sigue dando sus frutos, mientras los buscadores se preparan para usar evaluadores de calidad basados en IA.
🧑🏻⚖️ El reciente juicio antimonopolio contra Google se ha convertido en una jugosa fuente de información para todos los que nos dedicamos a esto del SEO, gracias a las distintas filtraciones de documentos, que nos permiten asomarnos como nunca al funcionamiento de su algoritmo.
👉 Ya teníamos todos los elementos, pero faltaba unir las piezas del rompecabezas y ofrecer una visión de conjunto. Esto lo ha hecho Natzir Turrado en este extraordinario post donde desgrana todos y cada uno de los componentes del motor de búsqueda más usado a nivel mundial.
Al contrario de lo que suelo hacer, esta vez no voy a “desgranar” post de Natzir, porque está en perfecto español y además él ya se explica de maravilla. Prefiero centrarme en los tres aspectos que más me han llamado la atención al respecto de los distintos módulos que conforman el algoritmo:
1. La importancia de MUM
MUM, que significa Multitask Unified Model (Modelo Unificado Multitarea), es un modelo de IA utilizado por Google para comprender mejor las consultas complejas que los usuarios realizan en su motor de búsqueda. MUM está entrenado en un conjunto de datos masivo de texto y código, y es capaz de entender el contexto de las consultas, así como las relaciones entre diferentes conceptos. Esto le permite proporcionar resultados de búsqueda más precisos y relevantes, incluso para consultas abiertas, desafiantes o extrañas.
Por ejemplo, si un usuario busca "¿cómo hacer una tortilla?", MUM puede entender que la consulta se refiere a una receta, y puede proporcionar resultados que incluyen instrucciones paso a paso, ingredientes y consejos. Sin embargo, si un usuario busca "¿por qué las nubes son blancas?", MUM puede entender que la consulta se refiere a un fenómeno científico, y puede proporcionar resultados que incluyen explicaciones de la física de las nubes, así como imágenes y videos relacionados.
Por concretar, MUM tiene las siguientes características:
Es capaz de entender el contexto de las consultas. Esto significa que puede comprender el significado de una consulta, incluso si es abierta, desafiante o extraña.
Es capaz de conectar diferentes conceptos. Esto significa que puede comprender las relaciones entre diferentes cosas, lo que le permite proporcionar resultados de búsqueda más relevantes.
Es capaz de generar diferentes formatos de texto. Esto significa que puede proporcionar resultados de búsqueda en forma de texto, imágenes, videos, etc.
2. El IS Score
Information Satisfaction Score (IS Score) es una métrica utilizada por Google para evaluar la satisfacción de los usuarios con la información que encuentran en sus productos, como la Búsqueda de Google o Google Maps. Lo llevan a cabo evaluadores humanos (hablaremos más de esto) y se calcula en función de una serie de factores, como la relevancia, la precisión, la completitud y la facilidad de uso de la información. Un IS Score alto indica que los usuarios están satisfechos con la información que encuentran, mientras que un IS Score bajo indica que los usuarios están insatisfechos.
Pero Google no utiliza el IS Score sólo para mejorar la calidad de sus productos y hacerlos más útiles para los usuarios, sino que también sirve para entrenar a diversos modelos dentro de los sistemas de búsqueda de Google, como RankBrain y RankEmbed BERT (ver el artículo de Natzir).
El IS Score es una métrica importante para Google porque ayuda a la empresa a comprender cómo los usuarios interactúan con sus productos y qué necesitan para estar satisfechos. Al comprender las necesidades de los usuarios, Google puede mejorar sus productos y hacerlos más valiosos para las personas que los utilizan.
3. Los clics sí son un factor clave
Si bien tenían prohibido hablar de la cuestión, hemos descubierto la verdadera importancia de los clics para Google, ya que la empresa se apoya en su análisis para comprender el comportamiento y las necesidades de los usuarios.
Los clics contribuyen al aprendizaje y la mejora continua de Google, permitiéndole adaptarse y "aprender" sobre las preferencias y comportamientos de búsqueda. Además, revelan patrones complejos y permiten aprender efectos de segundo y tercer orden. Por ejemplo, si detecta que la mayoría de usuarios prefiere artículos detallados sobre listas rápidas, Google ajustará sus algoritmos para priorizar esos artículos en las búsquedas relacionadas.
Aunque Google ha experimentado cambios significativos desde 2016, la base de su enfoque sigue siendo el análisis del comportamiento del usuario, considerándolos señales de calidad. Sin embargo, este enfoque enfrenta desafíos, especialmente con contenido nuevo o poco frecuente, ya que la evaluación de la calidad de los resultados de búsqueda es un proceso complejo que va más allá de solo contar clics.
Dejo aquí una frase sacada del post de Natzir que me parece especialmente reveladora y que deja clara la importancia del análisis de los clics:
Mientras que los ratings de evaluadores humanos ofrecen una visión básica, los clics proporcionan un panorama mucho más detallado del comportamiento de búsqueda.
En cuanto a la personalización de resultados, Google asegura que es limitada y rara vez modifica los rankings, y que la consulta es más importante que los datos del usuario. A pesar de la importancia de los clics, Google está utilizando menos los datos de los usuarios, ya que las tecnologías como BERT y MUM están tomando mayor relevancia. Aunque los clics son una parte esencial del proceso de búsqueda, Google está evolucionando hacia un enfoque que utiliza menos datos de usuario y más tecnologías de aprendizaje automático para comprender las necesidades de los usuarios.
🔎 Volviendo a los evaluadores de calidad de las búsquedas, ha habido una actualización de las guías (o directrices) que emplean.
👉 Si bien las revisiones más recientes habían puesto el foco en conceptos relativamente nuevos, como la Experiencia o la Utilidad, ésta parece mucho más centrada en la intención del usuario y en la satisfacción de sus necesidades de búsqueda.
Básicamente, lo que Google está haciendo es:
Precisar lo que significa proporcionar resultados de búsqueda de alta calidad.
Ayudar a los evaluadores de calidad a comprender por qué ciertos resultados son más útiles que otros.
Estas matizaciones tal vez puedan ayudar a explicar por qué vemos cierta volatilidad en los rankings durante las actualizaciones principales.
Por otra parte, si los evaluadores de la calidad le dan a Google cierta evidencia de que los resultados de búsqueda no cumplen con las expectativas de los usuarios, esto puede llevar a cambios sustanciales de intención durante los core updates.
Os dejo aquí un post en Search Engine Land [EN] donde se resumen todos los cambios aplicados a las guías.
🤖 No dejamos aún el tema de los evaluadores porque, en otro artículo en Search Engine Land [EN], se nos habla de avances recientes que indican que los sistemas de inteligencia artificial pueden acabar reemplazar a los equipos humanos en la evaluación de las búsquedas.
👉 ¿Cómo se alinea un conjunto de resultados de búsqueda actual o propuesto con la noción notoriamente subjetiva de relevancia para una consulta determinada, en un momento determinado, para las necesidades de información contextual de un usuario determinado? Esta es la pregunta que tratan de responder con su trabajo los evaluadores de Google.
Porque sí, la principal fuente de retroalimentación explícita de los motores de búsqueda proviene de estas personas. Tanto Google como Bing cuentan con una gran cantidad de evaluadores de calidad colaborativos (16.000 en el caso de Google), que reciben capacitación y manuales y son contratados a través de contratistas externos que trabajan de forma remota en todo el mundo.
Sin embargo, el empleo de evaluadores humanos también presenta diversas debilidades, reconocidas por Google:
Desincronización Temporal: Posibles discrepancias debido a la variabilidad en el tiempo de consultas y documentos, lo que puede afectar la precisión de las evaluaciones.
Reutilización de Valoraciones: La práctica de usar evaluaciones anteriores para ahorrar tiempo puede resultar en valoraciones desactualizadas.
Comprensión de Consultas Técnicas: La falta de comprensión de consultas especializadas puede dificultar la evaluación precisa de temas técnicos.
Evaluación de Popularidad: La dificultad para evaluar la popularidad en consultas competitivas puede afectar a la precisión de las valoraciones.
Falta de Diversidad entre Evaluadores: La falta de diversidad entre los evaluadores puede no representar la variabilidad en la base de usuarios de Google.
Contenido Generado por Usuarios: Los evaluadores pueden ser demasiado críticos con el contenido generado por usuarios, subestimando su valor y relevancia.
Problemas en el Entrenamiento del Nodo de Frescura: Desafíos en la sintonización de modelos de frescura debido a la falta de etiquetas adecuadas. Las limitaciones en las etiquetas humanas llevaron a ajustes manuales en las curvas de clasificación del Nodo de Frescura.
Tal vez en este momento no esté sobre la mesa el empleo al 100% de LLMs para evaluación de calidad de búsquedas, pero sí que están explorando algunos enfoques híbridos:
Los investigadores estudian opciones en las que el humano se encuentra al comienzo del flujo de trabajo proporcionando anotaciones de consulta más detalladas para ayudar a la máquina en la evaluación de relevancia, o al final del proceso para verificar las anotaciones proporcionadas por las máquinas.
Poniendo el foco en Google y en el caso de que tome esta ruta, la escala en el proceso de evaluación y la rápida iteración de comentarios y evaluaciones de relevancia allanarían el camino para una frecuencia mucho mayor de actualizaciones del algoritmo en todos los idiomas y mercados.
[Más lecturas SEO]
Las patentes y artículos científicos de Google más interesantes sobre E-E-A-T [EN]
10 Best Reasons To Put 10 Best In Your Headlines For SEO & Not Humans [EN]
Google está probando la opción de refinamiento "Búsqueda simple" [EN]
La Búsqueda de Google ahora admite datos estructurados de foros de discusión y páginas de perfil [EN]
Bookmarklet para escrapear los resultados del motor de búsqueda [EN]