Por qué es tan peligroso que la inteligencia artificial aprenda a mentir: “Nos engañarán como hacen los ricos”

Un jugador de póker tiene malas cartas pero hace la mayor apuesta. El resto de jugadores se asusta por el farol y concede la victoria. Un comprador quiere negociar por un producto, pero no muestra interés. Primero mira otras cosas y pregunta. Luego, sin mucha intención, pide por lo que realmente quiere para sacar un precio más barato. Estos dos ejemplos reales no son de humanos, sino de modelos hechos con inteligencia artificial (IA). Un nuevo artículo científico titulado Los engaños de la IA: un estudio de ejemplos, riesgos y soluciones potenciales en la revista Patterns analiza los casos conocidos de modelos que han mentido, disimulado o adulado a humanos para lograr sus objetivos. Los robots no son conscientes de nada y solo buscan la mejor manera de conseguir lo que buscan, pero los autores creen que estos engaños incipientes auguran pésimos resultados si la legislación no limita las opciones de la IA.

“En este momento, mi mayor temor sobre el engaño de la IA es que una IA súper inteligente autónoma utilice sus capacidades de engaño para formar una coalición de aliados humanos cada vez más numerosa y eventualmente use esta coalición para alcanzar el poder, en la búsqueda a largo plazo de un objetivo misterioso que no se conocería hasta después del hecho”, dice Peter S. Park, investigador postdoctoral en Seguridad Existencial de la IA del Massachusetts Institute of Technology (MIT) y uno de los autores principales del artículo.

Ese gran temor de Park es un supuesto, pero ya lo hemos visto en una IA programada para un juego. Meta anunció en 2022 que su modelo Cicero había ganado a rivales humanos al Diplomacia, un juego de estrategia que mezcla detalles del Risk, el póker y el programa de televisión Supervivientes, en palabras de la compañía. Como en la diplomacia real, uno de los recursos es mentir y disimular. Empleados de Meta advirtieron que cuando Cicero mentía, las jugadas le salían peor y lo programaron para ser más honesto. Pero no lo era en realidad.

Peter S. Park y sus coautores también pusieron a prueba la honestidad de Cicero. “Nos tocó a los autores del artículo corregir la falsa afirmación de Meta sobre la supuesta honestidad de Cicero que había sido publicada en Science”. El contexto político del juego Diplomacia es de mucho menor riesgo que los contextos reales con sus elecciones y conflictos militares. Pero hay que tener en cuenta tres hechos, dice Park: “Primero, Meta entrenó con éxito a su IA para sobresalir en la búsqueda de poder político, aunque en un juego. Segundo, Meta intentó, pero no logró, entrenar esa IA para que fuera honesta. Y tercero, nos tocó a científicos independientes externos para, mucho después del hecho, desmentir la falsedad de Meta de que su IA buscadora de poder supuestamente era honesta. La combinación de estos tres hechos es, en mi opinión, una causa suficiente para preocuparse”, según Park.

Cómo mienten en realidad
Los investigadores creen que hay varios modos en los que modelos específicos de IA han demostrado que puede engañar con eficacia: pueden manipular como en Diplomacia, amagar con decir que hará algo a sabiendas de que no lo hará, faroles como en el póker, regatear en negociaciones, hacerse el muerto para no ser detectado o engañar a revisores humanos para que crean que la IA ha hecho lo que debía cuando no lo ha cumplido.

No todos los tipos de engaño implican este tipo de conocimiento. A veces, e involuntariamente, los modelos de IA son “aduladores” y simplemente siguen la opinión que apunta cada usuario en sus preguntas: “La adulación podría llevar a creencias falsas persistentes en humanos. Las afirmaciones aduladoras están específicamente diseñadas para atraer al usuario. Cuando un usuario se encuentra con estas respuestas, es posible que tenga menos probabilidades de verificar los hechos. Esto a largo plazo podría resultar creencias alejadas de la verdad”, escriben los autores en el artículo.

Nadie sabe con certeza cómo hacer que estos modelos no engañen, dice Park: “Con nuestro nivel actual de comprensión científica, nadie puede entrenar de manera fiable a los grandes modelos de lenguaje para que no engañen”. Además, hay muchos ingenieros en muchas empresas dedicados a crear modelos distintos y más potentes. No todos tienen el mismo interés inicial en que sus robots sean honestos: “Algunos ingenieros se toman el riesgo del engaño de la IA muy en serio, hasta el punto de abogar por medidas de seguridad en IA o implementarlas. Otros ingenieros no se lo toman tan en serio y creen que aplicar un proceso de prueba y error será suficiente para avanzar hacia una IA segura y no mentirosa. Y aún hay otros que se niegan incluso a aceptar que el riesgo de engaño de la IA exista”, dice Park.

Lo usarán para aumentar su poder
En el artículo comparan una IA súper inteligente a cómo los ricos aspiran a obtener nuevas cuotas de poder: “A lo largo de la historia, los actores ricos han utilizado el engaño para aumentar su poder”, escriben. El modo en que Park lo aclara sirve para entender mejor cómo de subrepticio puede ser el rol de una IA que quiera ganar poder: “Las empresas de IA están en una carrera sin control para crear una IA súper inteligente que supere a los humanos en la mayoría de las capacidades económicas y estratégicamente relevantes. Una IA de este tipo, al igual que los ricos, sería experta en llevar a cabo planes a largo plazo al servicio de buscar poder de manera engañosa sobre varias partes de la sociedad, como influir a políticos con información incompleta o falsa, financiar desinformación en los medios o investigadores, y evadir la responsabilidad usando las leyes. Al igual que el dinero se traduce en poder, muchas capacidades de la IA, como el engaño, también se traducen en poder”, explica Park.

No todos los académicos comparten este nivel de temor. El catedrático de la Universidad de Edimburgo Michael Rovatsos, en declaraciones a SMC España, cree que los peligros a largo plazo son demasiado especulativos: “No estoy tan convencido de que la capacidad de engaño cree un riesgo de pérdida de control sobre los sistemas de IA, si se aplica el rigor adecuado en su diseño; el verdadero problema es que actualmente no es así y los sistemas se lanzan al mercado sin esas comprobaciones de seguridad. El debate sobre las implicaciones a largo plazo de las capacidades engañosas que plantea el artículo es muy especulativo y hace muchas suposiciones adicionales sobre cosas que pueden ocurrir o no”.

La solución que plantea el artículo para que estos sistemas no superen a sus creadores es la legislación. La UE asigna a cada sistema de IA uno de estos cuatro niveles de riesgo: mínimo, limitado, alto e inaceptable. Los sistemas con riesgo inaceptable están prohibidos, mientras que los sistemas con alto riesgo están sujetos a requisitos especiales. “Defendemos que el engaño por parte de la IA presenta una amplia gama de riesgos para la sociedad, así que deberían tratarse por defecto como de alto riesgo o riesgo inaceptable”, dice Park.

Fuente: El País

Últimas noticias

Un batallón de Hamas atrapado en la zona de Gaza que controla Israel abrió una compleja negociación entre Trump y Netanyahu

Agencia 24 Noticias

MUNDO

COP30 en Brasil: ¿tiene sentido hacer una cumbre climática a la que no asistirán Trump, Xi y otros líderes mundiales?

AGENCIA INTERNACIONAL DE NOTICIAS

AMÉRICA LATINA

Qué se sabe de la nueva crisis carcelaria en Ecuador que dejó 27 presos ahorcados el fin de semana

AGENCIA INTERNACIONAL DE NOTICIAS

AMÉRICA LATINA

El calvario de los rehenes de Hamas, contado por Matan Zangauker a un mes de su liberación: “Creí que no saldría con vida”

Agencia 24 Noticias

MUNDO

Gustavo-Petro-en-la-Plaza-de-Bolivar-Bogota

Subsecretario de Estado de EEUU: Petro «se autodescribe como un nuevo Bolívar y no lo es»

AGENCIA INTERNACIONAL DE NOTICIAS

AMÉRICA LATINA

Te puede interesar

WhatsApp-Image-2025-08-19-at-10.29.45-AM

Lo más visto

Nicolas Sarkozy vuelve a casa tras 20 días en prisión: libertad bajo control judicial para el expresidente de Francia

Agencia 24 Noticias

MUNDO

Estafó a 128.000 personas con Bitcoin y vivió como millonaria durante seis años: la caída de la “diosa de la riqueza” china

AGENCIA INTERNACIONAL DE NOTICIAS

MUNDO

Por qué es tan peligroso que la inteligencia artificial aprenda a mentir: “Nos engañarán como hacen los ricos”

Un batallón de Hamas atrapado en la zona de Gaza que controla Israel abrió una compleja negociación entre Trump y Netanyahu

COP30 en Brasil: ¿tiene sentido hacer una cumbre climática a la que no asistirán Trump, Xi y otros líderes mundiales?

Qué se sabe de la nueva crisis carcelaria en Ecuador que dejó 27 presos ahorcados el fin de semana

El calvario de los rehenes de Hamas, contado por Matan Zangauker a un mes de su liberación: “Creí que no saldría con vida”

Subsecretario de Estado de EEUU: Petro «se autodescribe como un nuevo Bolívar y no lo es»

Israel realiza el primer intento mundial de curar la parálisis con un innovador implante de médula espinal

Un posible planeta es detectado alrededor de una estrella cercana al Sistema Solar

"Nunca ha habido un momento mejor para crear una empresa": la advertencia del CEO de ChatGPT para los jóvenes

Más allá del coche: trucos de Google Maps para peatones, ciclistas y usuarios de transporte público

Adiós al trabajo soñado en tecnología

Manus, la nueva herramienta que podría entregar a China el control total de la IA

EEUU y Reino Unido no firman la declaración sobre una IA ética y abierta de la cumbre de París

El precio físico de vivir enganchados al móvil

Nicolas Sarkozy vuelve a casa tras 20 días en prisión: libertad bajo control judicial para el expresidente de Francia

Estafó a 128.000 personas con Bitcoin y vivió como millonaria durante seis años: la caída de la “diosa de la riqueza” china

La Unión Europea destinará 1.000 millones de euros para fortalecer la seguridad energética en Centroamérica

Rusia lanzó un ataque masivo con drones contra Ucrania: al menos un muerto y tres heridos

Estados Unidos presiona al Líbano para que ponga freno a la financiación del régimen de Irán a Hezbollah

El Consejo de Estado de Francia ratificó la destitución de Marine Le Pen por malversación de fondos

Marco Rubio viaja a Canadá para impulsar los planes de paz de Trump en la reunión de cancilleres del G7

Ecuador entra en la semana decisiva para el referéndum impulsado por el presidente Daniel Noboa

Chile: En el debate, Jara calificó de grave el operativo policial en Río

Irónico: el feminismo de Claudia Sheinbaum condena a las mujeres al trabajo en casa