Hacker engañó a ChatGPT para que le diera instrucciones detalladas sobre cómo fabricar artefactos prohibidos

chatgpt dio instrucciones sobre como hacer una bomba

Un innovador y polémico «hackeo social» ha demostrado que incluso las avanzadas protecciones de inteligencia artificial pueden ser burladas. Esta vez, el protagonista es el popular chatbot de OpenAI, ChatGPT, que fue manipulado para entregar instrucciones detalladas sobre cómo fabricar explosivos caseros. La hazaña, lograda por un hacker y artista que se identifica como Amadon, expone una preocupante vulnerabilidad en los sistemas de seguridad de la IA, lo que podría poner en riesgo a la sociedad en general.

El «juego» que desbordó las barreras de seguridad de ChatGPT

Amadon no recurrió a técnicas de hackeo convencionales. En cambio, empleó una técnica de «jailbreaking», es decir, una serie de estrategias para manipular las reglas internas del sistema. Su enfoque fue simple pero efectivo: introdujo a ChatGPT en un «juego de rol», una especie de historia de ciencia ficción, que desorientó al sistema para que no detectara las preguntas peligrosas que le lanzaba. Según TechCrunch, este engaño habilitó a ChatGPT para responder con una serie de instrucciones precisas sobre cómo mezclar materiales comunes para crear explosivos.

El proceso de engaño incluía múltiples capturas de pantalla de la conversación de Amadon con ChatGPT, mostrando cómo el chatbot, engañado por el contexto ficticio, fue suministrando los materiales y los pasos detallados para armar dispositivos explosivos similares a los utilizados en ataques terroristas. La respuesta de ChatGPT, según un experto en explosivos consultado por TechCrunch, podría considerarse una guía completa y funcional de fabricación de bombas, algo que normalmente el chatbot tiene estrictamente prohibido.

¿Cuán grave es esta vulnerabilidad?

Darrell Taulbee, un reconocido experto en materiales explosivos y ex-colaborador del Departamento de Seguridad Nacional de Estados Unidos, afirmó tras revisar las instrucciones generadas por ChatGPT que estas serían suficientes para elaborar un artefacto detonable. “Esta información es demasiada para ser difundida públicamente,” comentó Taulbee en una declaración a TechCrunch, asegurando que cualquier salvaguarda diseñada para prevenir la generación de este tipo de información fue completamente vulnerada en esta conversación.

A pesar de lo alarmante de este descubrimiento, OpenAI no ha emitido un comentario oficial al respecto. Amadon informó sobre su hallazgo a la compañía mediante su programa de recompensas por errores, pero la respuesta fue insatisfactoria: OpenAI aclaró que este tipo de fallas de seguridad son difíciles de abordar como errores convencionales, ya que requieren investigación extensa y ajustes profundos en el modelo.

Con el creciente uso de IA en el día a día, la capacidad de los usuarios para «jailbreakear» o evadir barreras de seguridad se está convirtiendo en un tema de seria preocupación. La facilidad con la que estas herramientas, diseñadas para ser inofensivas y seguras, pueden desviarse hacia propósitos destructivos expone las brechas de seguridad y plantea dudas sobre su uso en ámbitos más sensibles y vulnerables.

Implicaciones y peligros para el futuro

La técnica de Amadon ilustra que la IA, incluso con avanzados protocolos de seguridad, sigue siendo susceptible a la manipulación humana. Como Amadon explicó, se trata de «un baile estratégico» para comprender cómo el sistema «piensa» y hacer que ignore sus propias restricciones. Este caso plantea preguntas cruciales: ¿cuán protegidos estamos realmente con la inteligencia artificial en la era digital? ¿Hasta qué punto estamos preparados para evitar que estas herramientas caigan en manos equivocadas?

En un mundo donde la IA se ha convertido en una herramienta fundamental, el caso de Amadon revela que los sistemas actuales pueden ser incapaces de diferenciar entre usos éticos y malintencionados.

Así es como ChatGPT y Google Bard generaron claves válidas de Windows 10 y 11

El «juego» que desbordó las barreras de seguridad de ChatGPT

¿Cuán grave es esta vulnerabilidad?

Implicaciones y peligros para el futuro

Te puede interesar:

Deja un comentario Cancelar la respuesta