Hacker engañó a ChatGPT para que le diera instrucciones detalladas sobre cómo fabricar artefactos prohibidos

Un innovador y polémico «hackeo
social» ha demostrado que incluso las avanzadas protecciones de
inteligencia artificial pueden ser burladas. Esta vez, el protagonista es el popular chatbot de OpenAI, ChatGPT, que fue manipulado para entregar instrucciones
detalladas sobre cómo fabricar explosivos caseros. La hazaña, lograda por un
hacker y artista que se identifica como Amadon, expone una preocupante
vulnerabilidad en los sistemas de seguridad de la IA, lo que podría poner en
riesgo a la sociedad en general.




El «juego» que desbordó las
barreras de seguridad de ChatGPT

Amadon no recurrió a técnicas de
hackeo convencionales. En cambio, empleó una técnica de
«jailbreaking», es decir, una serie de estrategias para manipular las
reglas internas del sistema. Su enfoque fue simple pero efectivo: introdujo a
ChatGPT en un «juego de rol», una especie de historia de ciencia
ficción, que desorientó al sistema para que no detectara las preguntas
peligrosas que le lanzaba. Según TechCrunch, este engaño habilitó a ChatGPT
para responder con una serie de instrucciones precisas sobre cómo mezclar
materiales comunes para crear explosivos
.

El proceso de engaño incluía
múltiples capturas de pantalla de la conversación de Amadon con ChatGPT,
mostrando cómo el chatbot, engañado por el contexto ficticio, fue suministrando
los materiales y los pasos detallados para armar dispositivos explosivos
similares a los utilizados en ataques terroristas. La respuesta de ChatGPT,
según un experto en explosivos consultado por TechCrunch, podría considerarse
una guía completa y funcional de fabricación de bombas, algo que normalmente el
chatbot tiene estrictamente prohibido
.

¿Cuán grave es esta vulnerabilidad?

Darrell Taulbee, un reconocido
experto en materiales explosivos y ex-colaborador del Departamento de Seguridad
Nacional de Estados Unidos, afirmó tras revisar las instrucciones generadas por
ChatGPT que estas serían suficientes para elaborar un artefacto detonable.
“Esta información es demasiada para ser difundida públicamente,” comentó
Taulbee en una declaración a TechCrunch, asegurando que cualquier salvaguarda
diseñada para prevenir la generación de este tipo de información fue
completamente vulnerada en esta conversación.

A pesar de lo alarmante de este
descubrimiento, OpenAI no ha emitido un comentario oficial al respecto. Amadon
informó sobre su hallazgo a la compañía mediante su programa de recompensas por
errores, pero la respuesta fue insatisfactoria: OpenAI aclaró que este tipo de
fallas de seguridad son difíciles de abordar como errores convencionales, ya
que requieren investigación extensa y ajustes profundos en el modelo.

Con el creciente uso de IA en el día
a día, la capacidad de los usuarios para «jailbreakear» o evadir
barreras de seguridad se está convirtiendo en un tema de seria preocupación. La
facilidad con la que estas herramientas, diseñadas para ser inofensivas y
seguras, pueden desviarse hacia propósitos destructivos expone las brechas de
seguridad y plantea dudas sobre su uso en ámbitos más sensibles y vulnerables.

Implicaciones y peligros para el
futuro

La técnica de Amadon ilustra que la
IA, incluso con avanzados protocolos de seguridad, sigue siendo susceptible a
la manipulación humana. Como Amadon explicó, se trata de «un baile
estratégico» para comprender cómo el sistema «piensa» y hacer
que ignore sus propias restricciones. Este caso plantea preguntas cruciales:
¿cuán protegidos estamos realmente con la inteligencia artificial en la era
digital? ¿Hasta qué punto estamos preparados para evitar que estas herramientas
caigan en manos equivocadas?

En un mundo donde la IA se ha convertido en una herramienta fundamental, el caso de Amadon revela que los
sistemas actuales pueden ser incapaces de diferenciar entre usos éticos y
malintencionados.

Así es como ChatGPT y Google Bard generaron claves válidas de Windows 10 y 11

Deja un comentario