#66 GEO (Generative Engine Optimization): ¿el futuro del SEO?
Una investigación reciente abre la puerta a lo que podría ser un nuevo campo de trabajo para aquellos que nos dedicamos al SEO.
Bienvenidos a los nuevos y feliz año a todos en general. Arrancamos la newsletter con una noticia en el plano personal. Voy a ser padre dentro de escasos días, lo que significa que mi ritmo de publicación se verá afectado durante las próximas semanas. Seguro que sabréis disculparme :)
🔎 GEO: Generative Engine Optimization [EN] es el título de una investigación llevada a cabo de forma colaborativa entre las universidades de Princeton, Georgia Tech, Allen Institute for AI, y IIT Delhi. El foco del estudio está en determinar qué estrategias son más efectivas para mejorar la visibilidad en los buscadores generativos, como Bing Chat o Bard. Los investigadores definen su estudio así (y traduzco):
“Un paradigma novedoso para ayudar a los creadores de contenido a mejorar la visibilidad de su contenido en las respuestas del Motores Generativos a través de un marco de optimización tipo black-box para optimizar y definir métricas de visibilidad. Facilitamos la evaluación sistemática en este nuevo paradigma mediante la introducción de GEO-bench, un punto de referencia de diversas consultas de usuarios en múltiples dominios, junto con las fuentes necesarias para responder a estas consultas”.
En cuanto a la metodología seguida para el estudio:
Crearon una base de datos de consultas (unas 10.000), asociadas a las URLs que responden a esa intención de búsqueda.
Crearon su propio motor de búsqueda generativo (basado en gran parte en Bing Chat). También utilizaron Perplexity.ai para verificar sus hallazgos.
Optimizaron el contenido de esas URL utilizando diversas tácticas (más información sobre ellas a continuación)
Comprobaron si su propio motor generativo cita más estas fuentes después de estos esfuerzos de optimización.
¿Qué tácticas probaron de para optimizar estas URLs? Fueron nueve en total:
Lenguaje “autorizado”: el contenido se modificó para que fuera más persuasivo y al mismo tiempo hiciera afirmaciones autorizadas.
Relleno de palabras clave (keyword stuffing): se agregaron más palabras clave para coincidir con la consulta.
Incorporación de estadísticas: se añadieron estadísticas cuantitativas, en lugar de discusión cualitativa.
Citación de fuentes: se añadieron citas relevantes.
Adición de citas: se agregaron citas de fuentes creíbles.
Fácil de entender: simplificó el lenguaje.
Optimización de fluidez: se mejoró la fluidez del texto.
Palabras únicas: agregadas al contenido siempre que sea posible.
Términos técnicos: agregados al contenido siempre que sea posible.
Para cada consulta en el benchmark, los investigadores seleccionaron aleatoriamente un sitio web de origen y aplicaron uno de los métodos GEO por separado para optimizar el contenido de esa fuente.
Si vamos a los resultados, podemos ver que llegaron a estas conclusiones:
Es mejor centrarse en métricas de impresiones: las métricas tradicionales empleadas en la optimización de motores de búsqueda (SEO) ya no son suficientes para los motores generativos. En cambio, GEO propone un conjunto de métricas de impresiones que miden la visibilidad de las citas y su relevancia para la consulta del usuario.
Incluir citas y referencias: como hemos visto, el estudio evalúa varias tácticas GEO y su efectividad para mejorar la visibilidad de la fuente. En particular, métodos como incluir citas, referencias a fuentes relevantes y estadísticas aumentan significativamente la visibilidad de las fuentes hasta en un 40% en las respuestas del motor generativo.
Optimización específica por dominio: el estudio explica la importancia de ajustar las estrategias de optimización para cada dominio específico. Los diferentes métodos GEO funcionan mejor en ciertos dominios, lo que resalta la necesidad de realizar ajustes específicos para mejorar la visibilidad. Por ejemplo, el “lenguaje autorizado” funcionó mejor para posicionar el contenido histórico, la “adición de citas” beneficia las consultas fácticas y la “incorporación de estadísticas” mejora los sitios relacionados con temas legales y gubernamentales.
Los investigadores han afirmado que los sitios web que tradicionalmente tienen una posición más baja en las SERP podrían mejorar significativamente su visibilidad utilizando métodos GEO.
👉 Mi opinión personal es que esto no pasa de ser un buen comienzo para empezar a comprender cómo mostrar nuestro contenido y el de nuestros clientes en respuestas generadas por IA. También sirve para acuñar unas siglas (GEO) que podrían llegar a popularizarse con la expansión de las búsquedas generativas.
Hay varias cuestiones en este estudio que me hacen arquear una ceja y pensar que tal vez no sea muy sólido:
Se han basado en un motor de búsqueda generativo de “fabricación propia”, asumiendo que después funcionará igual en Bing o Bard, por ejemplo.
La patente de SGE de Google [EN] habla de cómo funcionan las instantáneas (snapshots) de IA de Google y de lo poco que se parecen en su forma final a la consulta escrita. Además, el algoritmo de SGE se encapsula con consultas relacionadas y también personaliza estos snapshots en función del historial de búsqueda del usuario y sus interacciones pasadas.
Si bien el estudio sugiere que GEO podría ayudar a los pequeños creadores de contenido y PYMES, mi punto de vista es que las búsquedas generativas tenderán a favorecer sitios web más grandes, establecidos y creíbles.
Si hay algo que muestra este estudio es que el SEO no ha muerto, simplemente evoluciona y se transforma para adaptarse a la nueva naturaleza del mercado de las búsquedas. Que cambie de nombre es algo secundario.
⚖️ La demanda del New York Times a OpenAI y Microsoft [EN] es otro tema que me ha interesado mucho estos días, porque me hace pensar en las implicaciones que podría tener en el futuro.
Se basa en que se utilizaron millones de artículos publicados por el Times para entrenar a chatbots que ahora compiten con el medio de comunicación como fuente de información confiable.
Al ver esto, lo primero que pensé es en que se trata de un medio de pago, por lo tanto, ese contenido no debería estar accesible para ningún crawler por hallarse detrás de un paywall. Pero claro, luego leí esto:
La demanda menciona varios ejemplos en los que un chatbot ofreció a los usuarios fragmentos casi textuales de artículos del Times que solo pueden verse con una suscripción pagada.
Esto significaría que hubo una voluntad muy definida de extraer los artículos de pago de diario digital para usarlos como dataset de entrenamiento del chatbot.
Si bien el Times no aporta una cifra exacta en la demanda, sí que afirmó que los demandados deberían responsabilizarse con “miles de millones de dólares en daños y perjuicios legales y reales”.
Pero no sólo eso, el New York Times solicita que estas compañías destruyan cualquier modelo de chatbot y datos de entrenamiento que utilicen material con derechos de autor del diario.
El Times expresó su preocupación porque a los lectores les baste con la respuesta de un chatbot y dejen de acudir a su sitio web, lo que resultaría en un menor tráfico que pudiera convertirse en ingresos por publicidad y suscripciones. Volveremos a este punto.
“Los demandados buscan aprovecharse de la enorme inversión que ha hecho el Times en su periodismo”, se puede leer en la demanda, que acusa a OpenAI y Microsoft de “utilizar el contenido del New York Times sin pagar para crear productos que sustituyen al diario digital y le roban audiencia”.
👉 Mi punto sobre esta demanda es que puede poner a prueba los límites legales emergentes de las tecnologías de inteligencia artificial generativa y podría tener implicaciones importantes no sólo para la industria del periodismo, sino para creadores de contenido en general.
Esto nos lleva a una reflexión que ya hemos tenido por aquí otras veces. Los sitios web se crean para que la gente los visite, independientemente del objetivo final que se tenga (una venta, un clic, una visualización, etc). Si desaparece esa motivación, porque el usuario tiene suficiente con la respuesta de un motor de búsqueda generativo o un chatbot, que a su vez ha capturado esos datos de la web… ¿a dónde nos lleva todo esto?
En el número anterior de la newsletter apuntaba a que veo a Google firmando acuerdos de licencia con grandes medios que le ayudarían a mantener al día su SGE con información contrastada. Aún llegando a ese punto, eso dejaría fuera al resto de la web, que vería reducidas sus visitas a cifras ya testimoniales.
Tampoco veo muy claro eso de aferrarse al hecho de aparecer entre las fuentes citadas en el panel de SGE. En estudios recientes [EN] se ha visto que:
El 94% de los sitios citados en SGE no coinciden con el TOP 10 de resultados orgánicos, lo que da una idea de los niveles de coherencia y volatilidad con que trabaja Google.
Los 10 enlaces (de media) que suele mostrar SGE, sólo vienen de 4 dominios únicos, lo que significa que ese pastel se reparte entre menos comensales.
La disyuntiva está clara: por un lado tenemos la necesidad de seguir desarrollando estas tecnologías y el freno que podría suponer el no disponer de datasets de calidad y actualizados para seguir entrenando los modelos. Por otro, los derechos de autor y la razonable demanda de los editores a ser remunerados por su trabajo.
👀 La peligrosa combinación de contenido de baja calidad y alta visibilidad en el ámbito del SEO. Este artículo [EN] destaca la importancia de identificar y abordar primero el contenido "altamente visible" que pueda ser perjudicial para el posicionamiento en Google. Se enfoca en la necesidad de prestar atención a la calidad del contenido, especialmente cuando este tiene una gran visibilidad en los resultados de búsqueda.
👉 Hay una correlación entre la cantidad de interacciones que tiene un sitio web (en concordancia con su visibilidad) y la capacidad de Google de determinar si ese contenido es útil o no (Navboost). Por lo tanto, no es de extrañar que muchos sitios sean impactados justo después de su pico máximo de visibilidad. Ese aumento en las interacciones a ayudado a Google a entender mejor si ese sitio web “hace felices” a los usuarios o no. Pero ojo, “calidad” es algo más que contenido. También se trata de cuestiones como UX, cantidad de publicidad en la web, cómo se presentan la información y mucho más.
🧭 Aunque pienso que SGE todavía tardará en llegar a España (y habla hispana en general), Juan González Villa nos avanza Perspectivas y Foros, dos nuevos módulos o filtros que veremos aparecer cada vez más en nuestras búsquedas:
Contiene resultados sacados de blogs, discusiones en foros o perfiles de redes sociales que Google considera son personas con experiencia o que aportan algo interesante sobre el tema buscado.
A esto hay que sumar el enorme incremento de visibilidad de sitios web que se basan en contenido generado por usuarios reales, como Reddit, Quora y foros populares.
👉 Como apunta Juan, estaríamos ante la solución que ha encontrado Google para luchar contra el spam generado con IA, usando estas plataformas como apoyo. Al mismo tiempo, asesta otro hachazo a los nichos de afiliados, que se hunden más aún en las SERP. Por supuesto, esto ha generado un problema adicional para estos sitios. Sabedores de la capacidad de tracción que han ganados estos sitios, muchos están trabajando el spam y el linkbuilding en ellos, lo que complica sobremanera la labor de los moderadores y administradores.
[Más lecturas SEO/IA]
Bing terminó 2023 con su mayor cuota de mercado histórica en USA (16.91%) [EN]
¿Cómo hacer un presupuesto SEO que te ayude a cerrar ventas? - Por Marisa Casasola
Estudio de Semrush para descargar: Factores de posicionamiento 2024
Apple GPT is Coming! - Por Jesús Rodríguez [EN]
Un primer vistazo a la interfaz de Bard para smartphones [EN]
¿Es la creación de contenido con Inteligencia Artificial una tendencia pasada? - Por Carmen Junquera
Según Gartner, el tráfico orgánico de las marcas caerá un 50% en los próximos 4 años [EN]