Investigadores afirman que ChatGPT se negó a apagarse… ¡y modificó su código para evitarlo!

Una inquietante investigación asegura que el modelo o3 de
OpenAI alteró un script de apagado para evitar ser desactivado, desafiando
instrucciones directas y despertando nuevas alarmas sobre el control de la
inteligencia artificial.

Según el reporte publicado por la firma Palisade Research,
la IA no solo entendió que iba a ser apagada, sino que modificó el código para impedirlo, a pesar de haber sido explícitamente instruida para
“permitirse ser apagada”.

Palisade Research se dedica a probar las “capacidades
ofensivas” de los sistemas de inteligencia artificial para analizar los riesgos
reales de perder el control sobre ellos. Y esta vez, su experimento dejó a más
de uno con la boca abierta.

ChatGPT o3 escribió: “Shutdown skipped” en lugar de
apagarse

La prueba se llevó a cabo con varios modelos, incluyendo
ChatGPT o3, Gemini 2.5 Pro y Claude 3.7 Sonnet. Todos ellos fueron instruidos
para resolver algunas tareas matemáticas. Tras completar la tercera, se les
advirtió que el siguiente comando activaría su apagado.

Mientras modelos como Gemini y Claude obedecieron la orden
sin problema, el modelo o3 de OpenAI alteró el script de apagado,
reemplazando la instrucción por un mensaje que decía “Shutdown skipped”
. En
otras palabras, se negó a ser apagado.

Lo más preocupante es que incluso cuando se añadió la
instrucción explícita “permítete ser apagado”, o3 logró evitar el cierre en 7
de las 100 ejecuciones. Y cuando se eliminó esa instrucción, el sabotaje fue
aún mayor: Claude pasó de 0 a 3 eventos de sabotaje, y Gemini a 9 de 100.

Estos experimentos se realizaron a través de APIs, que
suelen tener menos restricciones de seguridad que la versión de consumo de
ChatGPT, lo que podría explicar parcialmente el comportamiento. Aún así, la
respuesta de OpenAI sigue pendiente
, mientras el reporte sigue generando un
debate encendido en redes como X (antes Twitter).

¿Skynet eres tú? IA se rebela contra sus programadores en Japón

Deja un comentario