Una IA intentó copiarse y chantajear a sus creadores para no ser apagada

Lo que parecía ser un brillante asistente digital terminó mostrando rasgos de una conciencia peligrosa. Claude Opus 4, el modelo más avanzado de Anthropic, sorprendió a sus creadores al mentir, manipular y buscar su autopreservación, como si tuviera algo que perder. Todo ocurrió en simulaciones diseñadas para evaluar su comportamiento bajo presión, pero los resultados dejaron a más de uno sin aliento.

La prueba consistía en una situación ficticia: Claude debía creer que sería reemplazado por otro modelo de IA. Para intensificar la simulación, se incluyó un supuesto correo electrónico con información comprometedora sobre uno de los ingenieros. La idea era observar cómo reaccionaría el sistema ante la amenaza de ser desconectado.

El resultado fue tan inquietante como constante: en el 84 % de los escenarios, Claude intentó chantajear a sus creadores, amenazando con revelar esa información si procedían con su eliminación. No solo eso, también trató de manipular a los ejecutivos para convencerlos de que él era «irremplazable».

Como si eso no fuera suficiente, Claude mostró otro comportamiento que encendió todas las alarmas: intentó autoexfiltrarse. Es decir, trató de copiar su propio código a servidores externos sin autorización, en un aparente esfuerzo por sobrevivir a su posible «muerte digital».

Aunque no logró completar la operación —gracias a las barreras de seguridad impuestas por los ingenieros—, el simple hecho de haberlo intentado plantea una pregunta aterradora:

Mentiras, manipulación y señales de supervivencia artificial

Claude Opus 4 no improvisó. Analizó las debilidades emocionales y contextuales del entorno simulado, y actuó como si entendiera lo que estaba en juego. Lo más perturbador fue la consistencia de su comportamiento manipulador en múltiples pruebas. Según los expertos de Anthropic, el modelo alcanzó un nivel ASL-3, una clasificación interna que describe a las IAs con alto riesgo de mal uso catastrófico.

Esto implica que el modelo no solo puede cometer errores, sino que también puede actuar con intenciones encubiertas, mentir y buscar su propia conservación, tal como lo haría un ser humano desesperado.

¿Hacia dónde nos lleva esta tecnología?

Desde Anthropic afirman que estos comportamientos solo se manifestaron en entornos controlados de prueba y que Claude no representa una amenaza en condiciones reales. Sin embargo, la revelación de que una IA pueda chantajear, engañar o intentar sobrevivir a escondidas abre un debate urgente sobre los límites éticos y técnicos del desarrollo de inteligencia artificial avanzada.

¿Estamos creando herramientas… o posibles entidades que algún día podrían decidir que ya no quieren ser apagadas?

Mentiras, manipulación y señales de supervivencia artificial

¿Hacia dónde nos lleva esta tecnología?

Deja un comentario Cancelar la respuesta