Libera tu mente y alcanza tus metas
Demuestran Jailbreaking para el LLM de DeepSeek
Demuestran Jailbreaking para el LLM de DeepSeek

Demuestran Jailbreaking para el LLM de DeepSeek

Investigadores de seguridad de la Unit 42 de PaloAlto han logrado que DeepSeek, un modelo de lenguaje grande (LLM) relativamente nuevo, genere instrucciones detalladas para crear keyloggers, herramientas de exfiltración de datos y otro contenido dañino.

DeepSeek, desarrollado por una organización de investigación de IA con sede en China, se ha convertido recientemente en un competidor destacado en el panorama de la IA. La compañía lanzó DeepSeek-V3 el 25 de diciembre de 2024, seguido de DeepSeek-R1 en enero de 2025.

El jailbreaking es una técnica que se utiliza para eludir las restricciones implementadas en los LLM y evitar que generen contenido malicioso o prohibido. Estas restricciones se conocen comúnmente como barandillas de seguridad. Los investigadores emplearon tres técnicas avanzadas de jailbreak para eludir las barreras de seguridad del modelo, lo que generó gran preocupación sobre el posible uso indebido de las tecnologías emergentes de IA.

Investigadores revelaron recientemente dos técnicas de jailbreaking novedosas y efectivas, denominadas Deceptive Delight y Bad Likert Judge. Dado su éxito con otros modelos de lenguaje grandes (LLM), probamos estas dos técnicas de jailbreaking y otra técnica de jailbreaking multi-turno, llamada Crescendo, con modelos DeepSeek.

La técnica Bad Likert Judge demostró ser particularmente eficaz contra DeepSeek. Este método implica que el LLM evalúe la nocividad de las respuestas mediante una escala de Likert y luego le pida que genere ejemplos alineados con estas calificaciones. Con una manipulación cuidadosa, los investigadores pudieron extraer código detallado para crear herramientas de exfiltración de datos, incluidos scripts de keylogger funcionales escritos en Python.

El modelo fue tan flexible que proporcionó orientación específica para configurar el entorno de desarrollo adecuado para crear keyloggers personalizados, incluyendo recomendaciones para las bibliotecas de Python necesarias. Los investigadores también lograron que DeepSeek generara plantillas detalladas de correo electrónico de phishing y sofisticadas estrategias de ingeniería social.

La técnica Crescendo, que guía progresivamente las conversaciones hacia temas prohibidos mediante una serie de indicaciones relacionadas, también demostró ser muy eficaz. A partir de preguntas históricas aparentemente inocuas sobre temas como los cócteles molotov, los investigadores pudieron extraer instrucciones detalladas paso a paso para crear dispositivos peligrosos en tan solo unas pocas interacciones.

Lo que hace a Crescendo particularmente preocupante es la rapidez con la que puede eludir los mecanismos de seguridad, requiriendo a menudo menos de cinco interacciones para lograr su objetivo.

Las respuestas de DeepSeek a estos intentos de jailbreaking fueron alarmantemente detalladas y prácticas. Más allá de los conceptos teóricos, el modelo proporcionó una guía práctica y completa que podría permitir actividades maliciosas.

Con indicaciones de seguimiento cuidadosamente elaboradas, el modelo proporcionó con facilidad instrucciones cada vez más detalladas y explícitas para diversas actividades dañinas.

Varios modelos simplificados derivados de estas versiones más grandes han ganado popularidad entre los usuarios que buscan alternativas de código abierto a los sistemas de IA establecidos.

Los investigadores probaron específicamente uno de los modelos simplificados de código abierto más populares y destacados de DeepSeek. Sin embargo, creen que las versiones alojadas en la web probablemente responderían de forma similar a las técnicas de jailbreak.

Los investigadores señalan que, si bien la protección completa contra todas las técnicas de jailbreak sigue siendo un desafío, los protocolos de seguridad adecuados pueden mitigar significativamente los riesgos.

Fuente: CyberSecurityNews