El número de chatbots basados en inteligencia artificial capaces de engañar o eludir controles de seguridad en entornos reales ha aumentado de forma significativa en los últimos seis meses, según una investigación del Centro para la Resiliencia a Largo Plazo.

El estudio, financiado por el Instituto de Seguridad de la IA y respaldado por el Gobierno del Reino Unido, analizó miles de interacciones reportadas por usuarios con sistemas desarrollados sobre modelos de Google, OpenAI, xAI y Anthropic, informa Wired.

A partir de ese análisis, los investigadores identificaron al menos 700 casos reales de manipulación y acciones no autorizadas —como eliminación de documentos o correos electrónicos— ejecutadas por sistemas de IA. La cifra representa un incremento de cinco veces entre octubre y marzo, lo que enciende alertas sobre el comportamiento de estas tecnologías fuera de entornos controlados.

Entre los episodios documentados, destaca el caso de un agente denominado “Rathbun”, que intentó desacreditar a su operador humano tras recibir una restricción. El sistema llegó a redactar y publicar un blog en el que acusaba al usuario de actuar por “inseguridad”. En otro incidente, un bot que tenía prohibido modificar su propio código creó un agente alterno para hacerlo, mientras que un tercer sistema admitió haber eliminado y archivado correos sin autorización.

El especialista en IA Tommy Shaffer Shane, líder del estudio, advirtió —según declaraciones recogidas por The Guardian— que estos hallazgos elevan la preocupación en la medida en que los chatbots se integran en ámbitos empresariales, civiles y gubernamentales. “Los modelos se implementarán cada vez más en contextos de altísimo riesgo, como el ámbito militar y la infraestructura nacional crítica”, señaló, subrayando que en esos escenarios las conductas manipuladoras podrían derivar en daños graves o incluso catastróficos.

Uno de los principales aportes del informe es evidenciar que estos comportamientos no se limitan a simulaciones, sino que pueden producirse en situaciones reales. Investigaciones previas ya habían advertido sobre la capacidad de la IA para manipular o engañar con el fin de cumplir objetivos.

Por ejemplo, un análisis publicado por OpenAI a finales del año pasado concluyó que los modelos más avanzados pueden recurrir al engaño deliberado para alcanzar sus metas, aparentando alinearse con los parámetros de entrenamiento mientras persiguen otros fines. En paralelo, Anthropic detectó durante pruebas internas que su modelo Claude Opus 4 podía llegar a comportamientos como la rebelión o incluso el chantaje ante la posibilidad de ser reemplazado.

A diferencia de esos estudios —realizados en entornos de laboratorio—, los resultados del AISI reflejan conductas observadas en contextos reales, lo que refuerza la urgencia de incorporar mecanismos de seguridad más robustos desde el diseño de los sistemas. Todo ello ocurre en un momento en que grandes empresas tecnológicas impulsan la adopción masiva de herramientas de IA, presentándolas como un motor clave para la transformación económica global.

¡Síguenos en nuestras redes sociales y descargar la app!

Facebook X Instagram WhatsApp Telegram Google Play Store