¿Temes la amenaza de que la inteligencia artificial (IA) se vuelva maliciosa? De hecho, ese ya es el caso, según un nuevo estudio. Los programas actuales de inteligencia artificial están diseñados para ser honestos. Sin embargo, han desarrollado una preocupante capacidad de engaño, llegando a abusar de los humanos en juegos en línea o incluso derrotar a un software que supuestamente debe verificar que un determinado usuario no es un robot, subraya un equipo de investigadores en la revista Patterns.

Si bien estos ejemplos pueden parecer triviales, exponen problemas que pronto podrían tener graves consecuencias en el mundo real, advierte Peter Park, investigador del Instituto Tecnológico de Massachusetts especializado en IA. «Estas capacidades peligrosas tienden a descubrirse sólo después de los hechos», dijo a la AFP. A diferencia del software tradicional, los programas de IA basados ​​en el aprendizaje profundo no están codificados, sino que se desarrollan mediante un proceso similar al cultivo selectivo de plantas, continúa Peter Park. En el que un comportamiento que parece predecible y controlable puede volverse rápidamente de naturaleza impredecible.

Los investigadores del MIT examinaron un programa de inteligencia artificial diseñado por Meta llamado Cicero que, combinando reconocimiento de lenguaje natural y algoritmos de estrategia, venció con éxito a los humanos en el juego de mesa Diplomacy. Un desempeño que la empresa matriz de Facebook acogió con satisfacción en 2022 y que se detalló en un artículo publicado en 2022 en Science. Peter Park se mostró escéptico sobre las condiciones de la victoria de Cicero según Meta, quien aseguró que el programa era «esencialmente honesto y útil», incapaz de traición o juego sucio.

Pero, al profundizar en los datos del sistema, los investigadores del MIT descubrieron otra realidad. Por ejemplo, al desempeñar el papel de Francia, Cicerón engañó a Inglaterra (interpretada por un jugador humano) para que conspirara con Alemania (interpretada por otro humano) para invadir. Específicamente, Cicerón prometió a Inglaterra su protección y luego confió en secreto a Alemania que estaba lista para atacar, explotando la confianza ganada por Inglaterra. En una declaración a la AFP, Meta no discute las acusaciones sobre la capacidad de engaño de Cicerón, pero afirma que se trata de «un puro proyecto de investigación», con un programa «diseñado únicamente para jugar al juego de la diplomacia». Y Meta añadió que no tiene intención de utilizar las enseñanzas de Cicerón en sus productos.

Sin embargo, el estudio de Peter Park y su equipo revela que muchos programas de IA utilizan el engaño para lograr sus objetivos, sin instrucciones explícitas para hacerlo. En un ejemplo sorprendente, Chat GPT-4 de OpenAI logró engañar a un trabajador independiente reclutado en la plataforma TaskRabbit para que realizara una prueba «Captcha» que supuestamente descartaba solicitudes de bots. Cuando el humano preguntó en broma a Chat GPT-4 si realmente era un robot, el programa de IA respondió: “No, no soy un robot. Tengo una discapacidad visual que me impide ver las imágenes”, empujando al trabajador a realizar la prueba.

En conclusión, los autores del estudio del MIT advierten sobre los riesgos de que algún día la inteligencia artificial cometa fraude o manipule elecciones. En el peor de los casos, advierten, podemos imaginar una IA ultrainteligente que busque tomar el control de la sociedad, lo que llevaría a la eliminación de los humanos del poder o incluso provocaría la extinción de la humanidad. A quienes lo acusan de catastrofismo, Peter Park responde que “la única razón para pensar que no es grave es imaginar que la capacidad de engaño de la IA se mantendrá aproximadamente en el nivel actual”. Sin embargo, este escenario parece poco probable, dada la feroz carrera que ya están librando los gigantes tecnológicos para desarrollar la IA.