¿Alucinó la IA? No culpes a la herramienta

Lo que distingue a los equipos que aprenden a trabajar bien con IA de los que se frustran con ella es, casi siempre, haber incorporado alguna versión de estos criterios antes de publicar o decidir.

Christian Espinosa Baquero

Mientras la industria espera un modelo de IA que no alucine nunca, las empresas y los equipos profesionales que sí trabajan bien con inteligencia artificial comparten una característica común: revisan.

Preguntan. Verifican. Mantienen capas de filtros entre la generación y la publicación o toma de decisiones.

El debate de las alucinaciones ha consumido más energía de la que merece, en parte porque convierte en problema técnico lo que es fundamentalmente un problema de PROCESO.

Visto de otro modo, la herramienta no tiene la culpa de quienes se limitan a copiar y pegar resultados.

Una de las víctimas más recientes es el caso reportado por ABC de España sobre José Antonio Sanahuja, catedrático de Relaciones Internacionales de la Universidad Complutense de Madrid. El profesor Sanahuja había recibido una alerta de Google Scholar relacionada con un artículo suyo citado en una revista científica de prestigio.

La sorpresa llegó al abrir la referencia: el trabajo citado no existía. Alguien había usado IA para redactar un artículo académico, la herramienta había fabricado la cita atribuyéndosela a él, y el texto había atravesado la revisión por pares sin que nadie verificara si esa fuente era real.

“Es un caso de mala praxis en el uso de la IA con fuentes y bibliografía: el primer error es del autor al incluir invenciones y después de los revisores, por no comprobarlo”.

Algo similar le pasó recientemente a Ramón Salaverría, catedrático de Periodismo de la Universidad de Navarra y referente del periodismo digital en Iberoamérica: “Iba a ocurrir y ha ocurrido”, contó en sus redes sociales.

“Unos autores acaban de publicar un artículo académico que cita un supuesto trabajo mío... que no he escrito ni existe. Apunta a que han usado IA y esta ha fabulado la bibliografía”.

¿Por qué ocurren las "alucinaciones”?

La inteligencia artificial generativa no funciona como un buscador o una base de datos que recupera hechos verificados, sino que está diseñada para crear contenido nuevo.

Durante su entrenamiento, estos modelos analizan miles de millones de ejemplos de texto y su funcionamiento principal consiste en aprender a "predecir lo que viene a continuación" basándose en patrones probabilísticos.

Cuando le damos una instrucción (prompt), el modelo genera la respuesta en función de esos patrones aprendidos. Debido a esta naturaleza predictiva, los modelos presentan ciertas limitaciones técnicas, entre las cuales se destacan las llamadas "alucinaciones" (información inventada o inexactitudes).

OpenAI define las alucinaciones como declaraciones verosímiles pero falsas generadas por los modelos de lenguaje, y va más lejos al explicar su origen: "los modelos alucinan porque valoran más las conjeturas que el reconocimiento de la incertidumbre”.

Ethan Mollick, profesor de Wharton y uno de los referentes más influyentes en el estudio de la IA aplicada a la educación, publicó en su cuenta de X una observación que proyecta la salida de fondo.

“Las alucinaciones persisten en los LLM (modelos largos de lenguaje) pero ten en cuenta que durante siglos hemos desarrollado máquinas complicadas y exitosas que toman salidas inciertas de fuentes poco fiables y reducen el riesgo de errores. Llamamos a esas máquinas ESTRUCTURAS ORGANIZATIVAS y podemos aplicar enfoques similares a la IA."

Lo que Mollick describe son sistemas construidos históricamente para en lugar de eliminar errores humanos, atraparlos antes de que lleguen. Yo recuerdo claramente uno de esos sistemas históricos del que fui parte: las salas de redacción.

Antes de llegar al mundo tecnológico, cuando era pasante en diario Hoy, mi trabajo pasaba por cinco instancias antes de llegar al lector. Cuatro o cinco pares de ojos sobre cada texto: periodista, editor jefe, editor de sección, corrector de estilo, editor general. ¿Significaba eso que la función de pasante era incompetente? No, el periodismo entendía, desde mucho antes de que existieran las computadoras, que la producción de información sin verificación es simplemente otra forma de rumor. El sistema no era burocracia.

Aún debemos tomar los resultados de la IA bajo el proceso de revisión propio de un pasante. Incluso los sistemas agénticos van a exigir en los próximos años justamente eso, escalado.

Un agente de IA pasa de dar respuestas a tomar acciones, es capaz de investigar, redactar y publicar de manera autónoma.

Con ello, puede recorrer en minutos el camino que antes tomaba horas. Pero también puede propagar un error fabricado a una escala que ningún pasante podría alcanzar.

Las organizaciones que sobrevivan bien en ese mundo serán las que entiendan que verificar es una función distribuida a lo largo de él.

¿Cómo mitigar entonces las alucinaciones? 10 claves

Lo que distingue a los equipos que aprenden a trabajar bien con IA de los que se frustran con ella es, casi siempre, haber incorporado alguna versión de estos criterios antes de publicar o decidir. Las siguientes recomendaciones son recursos que he ido probando en talleres de adopción de IA dictados a nivel corporativo e institucional, donde el problema de las alucinaciones aparece comúnmente en las primeras horas de trabajo práctico. ¿Cómo mitigarlo?

1. El conocimiento experto es la primera capa de revisión. Tener experiencia consolidada en un dominio específico es lo que permite ejercer un discernimiento real sobre los resultados de la IA. Es ese conocimiento previo el que nos habilita para identificar fortalezas, debilidades, matices e inexactitudes en lo que el modelo genera. Sin esa base, todos los demás tips son herramientas sin quien las valide.

2. Elige el modelo correcto para cada tarea. Un modelo gratuito o rápido no cita fuentes, no razona en profundidad y maximiza la fluidez sobre la precisión. Para tareas que exigen exactitud, debemos preferir modelos con pensamiento profundo o módulos de investigación con referencias verificables. El modelo que elegimos antes de escribir el primer prompt ya es una decisión editorial.

3. Muy rápido no significa verdadero. Los modelos optimizados para velocidad sacrifican el proceso de verificación interna que los modelos de pensamiento profundo sí realizan. Una respuesta instantánea es una respuesta que no se detuvo a dudar. Y dudar, en este contexto, es precisamente lo que necesitas que haga.

4. Divide las tareas complejas en pasos. Desglosar una solicitud difícil en instrucciones secuenciales guía el proceso de razonamiento del modelo y asegura respuestas más metódicas y minuciosas. Cuando le das todo a la vez, el modelo optimiza para completar. Cuando le das un paso a la vez, optimiza para razonar. La diferencia en la calidad del resultado es consistente y medible.

5. Busca la IA que te cuestione, no la que te adule. Los modelos tienden a confirmar lo que el usuario parece querer escuchar. Diseña comandos comodín que le pidan explícitamente que identifique vacíos en tus preguntas, no solo en sus respuestas. El valor de la IA está en el proceso de refinación: primero de las instrucciones, luego de los resultados.

6. Aplica la prueba de la aguja en el pajar. Antes de confiar en un modelo sobre terreno que desconoces, pruébalo en terreno que dominas. Hazle preguntas capciosas sobre lo que ya sabes con certeza. Si falla ahí, no le confíes lo que no puedes verificar. Si acierta, avanza con precaución calibrada hacia lo incierto, pero sin abandonar la verificación.

7 .Compara el mismo prompt en plataformas distintas. Resultados divergentes entre modelos son una señal de alerta. Resultados convergentes dan mayor confianza, aunque no son garantía. El cruce entre plataformas es una capa de revisión adicional que cuesta menos de cinco minutos.

8. Crea agentes con la tarea específica de revisar vacíos. Un agente o varios agentes (multiagentes) con instrucciones precisas para detectar inconsistencias, citas sin verificar o afirmaciones sin respaldo es la versión moderna del corrector de estilo. No lo uses al final: incorpóralo al proceso desde el inicio.

9. El ensayo y error en tu área te enseña qué no delegar. Con el uso sostenido vas reconociendo los límites reales del modelo en tu dominio específico. Un límite crítico que conviene aprender rápido: la IA maneja mal la información extremadamente reciente. Puede inventar noticias que no existen, fabricar URLs que apuntan a enlaces inexistentes y presentarlo todo con la misma fluidez con que entrega un dato verificado. Cualquier resultado que dependa de hechos recientes exige verificación externa, sin excepción.

10. El juicio es siempre nuestro. La comprensión clara de los objetivos, la estrategia general y el criterio experto deben permanecer siempre como tareas humanas. Podemos copiar y pegar a la IA para luego culparle de los errores a la herramienta. O podemos usar la IA como un compañero que nos amplifique el pensamiento si el juicio es siempre nuestro. (O)

Te puede interesar