PDF Object Hashing y Dangerzone: herramientas para abrir documentos de forma segura (para analistas y usuarios/periodistas)

¿Alguna vez has oído el consejo de seguridad informática "No abras archivos adjuntos"? Es un buen consejo, pero desafortunadamente para muchas otras personas, es imposible de seguir. Imagina que recibieras un correo electrónico de alguien que dice trabajar para un cliente importante con el archivo adjunto "CONTRATO CANCELADO.pdf". ¿De verdad vas a responder diciendo: "Lo siento, no abro archivos adjuntos" y dejarlo ahí?

Los archivos PDF siguen siendo un elemento básico en las campañas de correo electrónico, ya que a menudo incorporan URL de descargas de malware, códigos QR que dirigen a los usuarios a sitios de phishing o facturas falsificadas que imitan marcas como bancos o servicios.

Herramienta PDF Object Hashing (para analistas)

Una nueva herramienta de código abierto llamada PDF Object Hashing está diseñada para detectar archivos PDF maliciosos mediante el análisis de sus huellas estructurales.

Lanzada por Proofpoint, esta herramienta permite a los equipos de seguridad crear reglas robustas de detección de amenazas basadas en las características únicas de los objetos en archivos PDF. la empresa desarrolló esta técnica internamente para rastrear a múltiples actores de amenazas.

Esta innovación aborda la creciente dependencia de los actores de amenazas de los archivos PDF para distribuir malware, phishing de credenciales y ataques de compromiso de correo electrónico empresarial (BEC).

Al centrarse en la estructura del documento en lugar de en elementos volátiles como URL o imágenes, la herramienta permite la atribución a grupos de amenazas específicos, incluso cuando los atacantes evolucionan sus tácticas. Proofpoint señala que estos archivos pueden iniciar cadenas que conducen a troyanos de acceso remoto o al robo de datos.

Sin embargo, la complejidad del formato PDF, que permite infinitas variaciones para garantizar la compatibilidad, plantea desafíos de detección, desde flujos cifrados que ocultan URI hasta objetos comprimidos que ocultan cargas útiles.

El problema principal reside en la flexibilidad del PDF: seis tipos válidos de espacios en blanco, tablas de referencias cruzadas comprimibles y objetos que pueden incrustar o referenciar parámetros indistintamente. El cifrado complica aún más las cosas, revelando solo la estructura del documento y ocultando detalles como enlaces maliciosos.

En lugar de depender de detecciones más frágiles o temporales, como hashes de archivos, URL, imágenes señuelo y valores de metadatos, podemos centrarnos en la estructura del documento. Si bien existen detecciones más robustas que utilizan técnicas como dhash para comparar la similitud de imágenes, el hash de objetos PDF se aplica a la estructura general del documento, lo que nos permite ignorar imágenes señuelo específicas.

Al examinar el tipo de objetos y el orden en que aparecen, ignorando sus parámetros y detalles específicos, se puede crear un "esqueleto" o "plantilla" que representa la estructura general del documento PDF. Estos tipos de objetos se utilizan para crear una "huella digital" única del PDF mediante el hash de sus valores. Esto permite buscar en una amplia gama de archivos PDF para detectar e identificar otros archivos que potencialmente coincidan con la "huella digital".

Las firmas tradicionales fallan ante estas evasiones, ya que pequeños ajustes inutilizan los hashes o metadatos. El hash de objetos PDF evita esto analizando la jerarquía de objetos del archivo y extrayendo tipos como Pages, Catalog, XObject/Image, Annotations/Link, Metadata/XML, Producer, y Font/Type1.

Estos se concatenan en orden y se convierten en una "huella digital" estable, similar a imphash para ejecutables. Esto ignora los cambios específicos del señuelo, como las imágenes actualizadas, lo que permite la agrupación de archivos relacionados. Los hashes superpuestos (visualizados en diagramas verde-amarillo) revelan conexiones entre variantes, lo que facilita la búsqueda de amenazas sin necesidad de descifrado.

Proofpoint aplicó la herramienta para rastrear UAC-0050, un clúster dirigido a Ucrania con archivos PDF cifrados que suplantan OneDrive. Estos distribuyen el RAT de NetSupport a través de URL cargadas con JavaScript, evadiendo los analizadores gracias al cifrado.

El hash expuso similitudes estructurales, lo que permitió la rápida creación de firmas y el bloqueo de la carga útil (SHA256: ee03ad7c8f1e25ad157ab3cd9b0d6109b30867572e7e13298a3ce2072ae13e5).

De igual manera, UNK_ArmyDrive, un actor con sede en India y activo desde mayo de 2025, utiliza archivos PDF en señuelos BEC como documentos falsos del Ministerio de Bangladesh (SHA256: 08367ec03ede1d69aa51de1e55caf3a75e6568aa76790c39b39a00d1b71c9084).

Herramienta Dangerzone (para usuarios y periodistas)

Lo cierto es que, tu trabajo es abrir documentos de desconocidos, ya sea por correo electrónico, mensaje de Signal o WhatsApp, o a través de SecureDrop. Los periodistas también deben abrir y leer documentos descargados de todo tipo de sitios web, correos electrónicos filtrados o pirateados, o de cualquier otra fuente potencialmente no fiable.

Dangerzone es una herramienta Open Source que busca solucionar este problema. Puedes instalar Dangerzone en cualquier sistema operativo y usarlo para abrir diversos tipos de documentos: PDF, documentos de Microsoft Office o LibreOffice, o imágenes. Incluso si el documento original es peligroso y normalmente infectaría tu equipo, Dangerzone lo convertirá en un PDF seguro que podrás abrir y leer.

Es como imprimir un documento y volver a escanearlo para eliminar cualquier elemento sospechoso, pero todo se hace con software.

¿Cómo puede ser peligroso un documento?

Los PDF y los documentos de Office son increíblemente complejos. Se pueden configurar para que carguen automáticamente una imagen desde un servidor remoto al abrir el documento, rastreando cuándo se abre y desde qué dirección IP.

Pueden contener JavaScript o macros que, según la configuración de tu software, podrían ejecutar código automáticamente al abrirse, tomando el control de tu equipo. Y finalmente, como todo software, los programas que usas para abrir documentos (Preview, Adobe Reader, Microsoft Word, LibreOffice, etc.) tienen errores, que a veces pueden explotarse para tomar el control del sistema operativo.

Inspirado por Qubes TrustedPDF

La idea de Dangerzone surgió de QubesOS, un sistema operativo que ejecuta todo en máquinas virtuales. En Qubes, puedes hacer clic derecho en un PDF y seleccionar "Convertir a TrustedPDF". En 2018, Micah Lee dío una charla titulada "Qubes OS: El sistema operativo que puede protegerte incluso si te hackean" y explica el funcionamiento de TrustedPDF (a partir del minuto 9:20).

Dangerzone se inspiró en TrustedPDF, pero funciona en sistemas operativos que no son Qubes. Utiliza entornos aislados de gVisor que se ejecutan en contenedores Linux para abrir documentos peligrosos, en lugar de máquinas virtuales. Además, añade algunas funciones que TrustedPDF no tiene: funciona con cualquier documento de Office, no solo PDF; utiliza reconocimiento óptico de caracteres (OCR) para que el PDF seguro tenga una capa de texto con capacidad de búsqueda; y comprime el PDF final seguro.

Dangerzone utiliza contenedores y, por lo tanto, al instalarlo por primera vez, se instala Docker Desktop.

Cuando Dangerzone inicia el contenedor que desinfectará el documento sospechoso, primero inicia un entorno aislado de gVisor dentro de ese contenedor y luego ejecuta la carga de trabajo de procesamiento de documentos potencialmente peligrosos dentro del entorno aislado. Esto garantiza que el proceso que procesa el documento esté aislado del kernel de Linux.

El entorno aislado y su contenedor principal también están configurados para deshabilitar la red y no montar nada desde el sistema de archivos del host. Por lo tanto, si un documento malicioso logra ejecutar código arbitrario, este no tiene acceso al kernel del host, no tiene acceso a sus datos y no puede usar Internet, por lo que no puede hacer mucho.

Estos son los tipos de documentos que Dangerzone puede convertir en PDF seguros:

PDF (.pdf)
Microsoft Word (.docx, .doc)
Microsoft Excel (.xlsx, .xls)
Microsoft PowerPoint (.pptx, .ppt)
ODF Text (.odt)
ODF Spreadsheet (.ods)
ODF Presentation (.odp)
ODF Graphics (.odg)
EPUB (.epub)
Jpeg (.jpg, .jpeg)
GIF (.gif)
PNG (.png)
SVG (.svg)
TIFF (.tif, .tiff)
Other image formats (.bmp, .pnm, .pbm, ppm)

Fuente: CyberSecurityNews