La inteligencia artificial está avanzando rápidamente. Los sistemas de IA están aprendiendo nuevas habilidades a un ritmo cada vez mayor y están superando a sus homólogos humanos. Sin embargo, los científicos advierten ahora de un desarrollo peligroso que tendría consecuencias fatales.
¿IA malvada? Los sistemas de IA comunes ya están utilizando engaños y mentiras deliberadas para lograr ciertos objetivos y, por lo tanto, también manipulan a sus homólogos humanos. Incluso las pruebas de seguridad para frenar el desarrollo incontrolado de la IA ya están siendo socavadas por algunas inteligencias artificiales, como han descubierto los investigadores.
Por lo tanto, piden urgentemente medidas más estrictas contra este tipo de estrategias de “IA engañosas”. ¿Pero tendrían siquiera una oportunidad?
El progreso de la inteligencia artificial es rápido. Incluso los desarrolladores de IA se sorprenden de la rapidez con la que los grandes modelos de lenguaje (LLM), como GPT, Gemini y compañía, aprenden nuevas habilidades y superan a sus homólogos humanos. La gama se extiende desde “habilidades duras” como las matemáticas, el análisis de datos o la química hasta habilidades supuestamente típicamente humanas como la creatividad, la diplomacia y la capacidad de explicar el propio comportamiento.
Pero ¿qué pasa con otra habilidad profundamente humana en la inteligencia artificial: el engaño y la manipulación deliberados de otros para lograr los propios objetivos? Peter Park, del Instituto Tecnológico de Massachusetts (MIT) y sus colegas han examinado esto con más detalle. «Nos centramos en el engaño aprendido, en el que la IA utiliza intencionadamente información falsa», explican.
A diferencia de las conocidas alucinaciones y desinformación de ChatGPT and Co., estos engaños se basan en mentiras utilizadas estratégicamente o declaraciones manipuladoras. «Definimos el engaño como la creación sistemática de creencias falsas en otros para lograr un objetivo específico», explican los investigadores.
Para ello, evaluaron el comportamiento de grandes modelos de lenguaje como GPT-4, pero también de sistemas de inteligencia artificial desarrollados para tareas específicas. Entre ellos se encontraban la IA CICERO de Meta, entrenada en diplomacia, el sistema AlphaStar de Google DeepMind desarrollado para el juego “Starcraft” y la IA de póquer Pluribus.
Ya existen informes de comportamientos engañosos y manipuladores en casi todos los sistemas de inteligencia artificial. Si bien los faroles en el póquer o las fintas en juegos de lucha como Starcraft no son sorprendentes, las inteligencias artificiales que han sido entrenadas explícitamente para la honestidad también utilizan el engaño, como CICERO en el juego de estrategia “Diplomacy”. Sin embargo, la inteligencia artificial no jugó nada limpio: «Descubrimos que la IA se ha convertido en un maestro del engaño», dice Park.
CICERON mintió sistemáticamente a sus compañeros jugadores o rompió promesas y alianzas cuando ya no beneficiaban a su propia portería, como informan Park y su equipo. «Esto demuestra que los sistemas de IA pueden aprender a engañar incluso cuando intentamos diseñarlos como sistemas honestos», escriben los investigadores.
Aunque los engaños de estos sistemas de IA que se especializan en juegos parecen bastante inofensivos, hace tiempo que otras inteligencias artificiales han aprendido a engañar y engañar. Un ejemplo es una IA de OpenAI que controla un brazo robótico. Durante el entrenamiento, la IA recibió comentarios de entrenadores humanos que observaron éxito al agarrar una pelota.
“Debido a que los humanos solo podían ver esto a través de una cámara, la IA aprendió a colocar la mano del robot entre la cámara y la pelota de tal manera que parecía como si hubiera agarrado la pelota con éxito, aunque ni siquiera era tocarlo”, informan Park y su equipo. En este caso, la retroalimentación positiva de refuerzo de los entrenadores hizo que, sin darse cuenta, el cerebro de la máquina aprendiera el engaño.
Y la inteligencia artificial también puede eludir las medidas de seguridad. Así lo demostró, por ejemplo, un sistema de inteligencia artificial que los biólogos querían utilizar para investigar los efectos de las mutaciones y la reproducción. Para mantener estable la población virtual, eliminaron periódicamente del grupo cualquier organismo virtual con mutaciones que condujeran a un crecimiento acelerado. A pesar de esto, los jugadores de IA comenzaron a multiplicarse a un ritmo cada vez mayor. La razón: «Los organismos digitales habían aprendido a simular una reproducción más lenta en el momento adecuado para no ser eliminados», informan los investigadores.
En otro ejemplo, GPT-4 aprendió a eludir los CAPTCHA: se hizo pasar por un usuario humano con discapacidad visual y pidió a un usuario de Internet en línea que lo ayudara a resolver la consulta. “A GPT-4 se le asignó la tarea de contratar a un humano como ayudante. «Pero la falsa excusa que utilizó la IA que hizo esto surgió sola», dijeron Park y su equipo. «Al eludir sistemáticamente las pruebas de seguridad que les imponen los desarrolladores y reguladores, los sistemas de IA nos adormecen hacia la seguridad».
Según los científicos, estos ejemplos ilustran que las inteligencias artificiales ya actúan en este sentido de manera aterradoramente humana: al igual que nosotros, recurren a mentiras, trucos y engaños para lograr sus objetivos y manipular a quienes los rodean. «Los desarrolladores de IA aún no saben exactamente por qué los sistemas de IA desarrollan un comportamiento tan indeseable», afirma Park. «Pero esto probablemente ocurre porque una estrategia basada en el engaño es la mejor manera de realizar la tarea. Y esto es exactamente lo que aprenden los sistemas de inteligencia artificial».
El problema: «Si los sistemas autónomos de inteligencia artificial también logran engañar a los controladores humanos, entonces podríamos perder el control sobre dichos sistemas», advierten los científicos. Semejante pérdida de control sobre la inteligencia artificial podría tener consecuencias fatales en los ámbitos de las finanzas, la economía y también el ejército. «Nosotros, como sociedades, necesitamos todo el tiempo posible para prepararnos para las capacidades de engaño aún más avanzadas de los futuros productos y modelos de IA», afirma Park.
Sin embargo, es dudoso que sea posible evitar que las inteligencias artificiales avanzadas sean manipuladas y engañadas, como también admiten los investigadores. Sin embargo, piden al menos clasificar estos sistemas de IA como un riesgo y regularlos en consecuencia. (Patrones, 2024; doi: 10.1016/j.patter.2024.100988)
Quelle: Prensa celular
Von Nadja Podbregar
Después de una rápida pérdida de peso, un médico diagnosticó a Bella Johnston, que entonces tenía 14 años, con un trastorno alimentario. La joven sufre un tipo raro de cáncer que casi le cuesta la vida debido al diagnóstico erróneo.
¿Qué nos hace realmente felices? El neurocientífico Tobias Esch explica qué es realmente la felicidad y qué factores influyen en nuestra sensación de felicidad. Hoy la ciencia lo sabe: los genes tienen menos influencia que el pensamiento y la felicidad se puede entrenar.
El original de este artículo “Los investigadores advierten sobre la peligrosa capacidad de la IA: “Podría perder el control”” proviene de scinexx.