Cómo sobrevive la Wikipedia en la era de ChatGPT

Un hombre lee un artículo de la Wikipedia en su tableta.

Frente a los avances de la inteligencia artificial, los voluntarios de la gran enciclopedia online refuerzan su control para evitar que el portal se llene de desinformación o contenidos promocionales

En Wikipedia siempre ha habido riesgo de que aparezcan artículos falsos. Solo un ejemplo: durante un tiempo, la página que contaba la biografía de un presentador de radio de Irlanda del Norte señalaba que este había sido una promesa del break dance y que su carrera en el baile urbano se truncó debido a una lesión en la columna. Pero todo esto era puro troleo. Otras veces, en cambio, hay detrás fines promocionales o de desinformación. El portal tiene ya una larga tradición afrontando este tipo de problemas. Una comprometida comunidad de 265.000 voluntarios activos los ha controlado hasta ahora. Pero la explosión de los textos generados con inteligencia artificial plantea nuevos desafíos.

Con más de 16.000 millones de visitas al mes, el prestigio de la Wikipedia está fuera de toda duda. Por eso es un lugar codiciado para inyectar desinformación o para blanquear mensajes de marketing, de empresas o individuos. Y con la inteligencia artificial (IA) se pueden generar textos creíbles a discreción, fácilmente y sin esfuerzo.

Tras el lanzamiento de ChatGPT, el portal amplió su equipo dedicado al aprendizaje automático. El cofundador de Wikipedia, Jimmy Wales, ha afirmado que la IA es a la vez “una oportunidad y una amenaza”. Y en su última campaña de captación de fondos, uno de los reclamos destacaba el papel de la plataforma en la “era de la inteligencia artificial”.

Miguel Ángel García, socio de Wikimedia España y exmiembro de la junta directiva, reconoce haberse topado ya con textos sospechosos de haber sido generados con IA. “Hemos notado que aparecen editores nuevos que quieren añadir contenidos. Y añaden un contenido muy extenso y muy desarrollado, que es algo raro. Porque cuando tú eres un voluntario que empiezas, construyes poco a poco los artículos. Vas párrafo a párrafo”.

García conoce bien estos patrones. Empezó a colaborar con Wikipedia en 2006, cuando estaba en el instituto. Corregía alguna falta de ortografía o aplicaba cambios gramaticales evidentes. Su primer artículo lo creó porque hizo un trabajo sobre el pueblo de sus padres, Campaspera, cerca de Valladolid. No había ninguna información de esta localidad en el portal, así que subió su texto con fotos hechas por él mismo.

“Desde que existe la inteligencia artificial aparecen cada vez más voluntarios que te pegan un texto gigante, aparentemente bien estructurado y bien desarrollado. Pero luego lo lees y descubres las redundancias que una persona es capaz de detectar muchas veces en los textos hechos con inteligencia artificial”, se refiere García a coletillas y cierta manera de presentar la información, con introducciones y conclusiones manidas.

Este tipo de textos corren el riesgo de perderse en un océano de más de 62 millones de artículos en más de 300 lenguas. Chris Albon, director de Aprendizaje Automático en la Fundación Wikimedia, que controla Wikipedia, señala que desde el 2002 algunos voluntarios han utilizado herramientas de IA, sobre todo en tareas redundantes. La tecnología no les es ajena. Y la clave para controlar los textos inadecuados está precisamente en la comunidad de voluntarios, que hace la moderación del contenido. No solo escriben textos, también los editan y discriminan cuáles pueden no ser valioso.

“En esta nueva era de la inteligencia artificial, la fuerza de este modelo de moderación de contenido liderado por personas es más relevante. El modelo de Wikipedia, basado en el debate, el consenso y normas estrictas de citado [de fuentes] se ha mostrado resiliente para mantener la calidad del contenido en las últimas dos décadas”, afirma Albon. Todo texto debe estar referenciado con fuentes secundarias, que son enlaces a páginas de otros sitios web.

Sospechoso subidón cuando nació ChatGPT

Si un artículo no tiene fuentes, la comunidad de voluntarios lo detecta y actúa. “En la mayoría de casos, los artículos se borran instantáneamente, porque a golpe de dos clics eres capaz de detectar que el texto no tiene ni pies ni cabeza. Si no es así, se suelen marcar para que se borren automáticamente en un plazo máximo de 30 días si el autor no es capaz de acreditar con fuentes lo que está escrito”, explica García.

El socio de Wikimedia España cuenta que cuando surgió ChatGPT hubo un pico de textos generados con IA que se subían al portal. Pero ahora la tendencia se habría estabilizado gracias a los esfuerzos de la comunidad. Por su parte, Albon dice que hay que aprender a convivir con estas herramientas. “El enfoque de Wikipedia hacia la IA siempre ha sido que las personas editan, mejoran y auditan el trabajo que hace la IA. Los voluntarios crean las políticas para el uso responsable de herramientas de IA en Wikipedia y vigilan su correcta aplicación”, reflexiona. El portal no penaliza el uso de la inteligencia artificial en los textos, sino que estos no se ajusten a la calidad que exigen sus políticas.

El mayor riesgo para Wikipedia, según García, estaría fuera de ella. Y es que la plataforma bebe de fuentes secundarias. “Veo un problema a medio plazo en relación con posibles textos generados con IA que se conviertan en fuentes aparentemente fiables en el mundo real. Cada vez surgen más periódicos digitales que publican casi cualquier cosa. Llega un punto en que hay gente que quiere referenciar textos con esos pseudomedios”, apunta.

La solución, como casi todo en la plataforma, se encuentra en los editores. Si los voluntarios detectan que un sitio es poco fiable, la comunidad puede decidir meterlo en una lista negra. Sucedió con un medio tan asentado como el tabloide Daily Mail. Hace unos años se prohibió su uso como fuente debido a que el sensacionalista británico había publicado repetidas informaciones sin contrastar.

El baile de Wikipedia con los chats de IA

Existe otra preocupación relativa al futuro de Wikipedia en esta era de la inteligencia artificial. En un hipotético escenario en el que los chatbots, como ChatGPT o Google Gemini, resuelvan las consultas de los usuarios con un resumen, ¿quién visitará los artículos de Wikipedia? Y más aún, ¿quién los editará?

“Si hay una desconexión entre dónde se genera el conocimiento, como por ejemplo en Wikipedia, y dónde se consume, como por ejemplo en ChatGPT, corremos el riesgo de perder a una generación de voluntarios”, razona Albon.

Conectar los sitios que tienen el conocimiento con los chatbots de IA, que lo extraen y lo replican, tiene también un interés general. “Sin una atribución clara y enlaces a la fuente original de donde se ha obtenido la información, las aplicaciones de IA corren el riesgo de introducir una cantidad de desinformación sin precedentes en el mundo. Los usuarios no podrán distinguir fácilmente entre información precisa y alucinaciones. Pensamos mucho en este reto y creemos que la solución es la atribución”, comenta el director de Aprendizaje Automático de Wikimedia.

La coyuntura es irónica. Porque se sabe, las aplicaciones como ChatGPT o Google Gemini se basan en sistemas que se han entrenado con el contenido de Wikipedia. Así, una parte del conocimiento adquirido por los modelos de lenguaje grandes (LLM, por sus siglas en inglés) viene de esos millones y millones de artículos subidos y editados por personas voluntarias.