Libera tu mente y alcanza tus metas
NVIDIA corrige seis vulnerabilidades críticas en Triton Inference Server
NVIDIA corrige seis vulnerabilidades críticas en Triton Inference Server

NVIDIA corrige seis vulnerabilidades críticas en Triton Inference Server

NVIDIA ha publicado la versión 25.07 de Triton Inference Server (Windows y Linux) para remediar seis fallos que, encadenados, permiten a atacantes no autenticados lograr ejecución remota de código, filtrar información sensible y manipular los modelos de IA cargados. Tres de ellos —CVE-2025-23319, -23320 y -23334— pueden explotarse sin credenciales; los otros tres (CVE-2025-23310, -23311 y -23317) completan el parche de agosto.

¿Qué ocurre exactamente?

CVECVSSMódulo afectadoResultado
233207.5Backend PythonFiltrado de identificadores de memoria compartida (IPC).
233345.9Backend PythonLectura fuera de límites → robo de datos.
233198.1Backend PythonEscritura fuera de límites → RCE / DoS / tampering.
23310 / 23311 / 233178.6–9.0Núcleo y gRPCRCE, DoS e info-leak adicionales.

Un atacante encadena 23320 para descubrir el nombre de la región IPC, usa 23334 para leer su contenido y culmina con 23319, obteniendo ejecución arbitraria con los privilegios del servicio.

Versiones afectadas y parche

ProductoVersiones vulnerablesVersión segura
Triton Inference Server≤ 25.0625.07 (4 ago 2025)

NVIDIA indica que no existe evidencia de explotación activa, pero urge a actualizar y seguir sus Secure Deployment Considerations.

Impacto potencial

  1. Robo de modelos y de los datos empleados para fine-tuning.
  2. Manipulación de inferencias: resultados alterados o respuestas maliciosas.
  3. Pivoting interno: uso de GPUs comprometidas para atacar otros nodos o minar criptomonedas.
  4. Interrupción del servicio (DoS) que afecte aplicaciones en producción.

Recomendaciones de Hispasec

  • Actualizar de inmediato a la versión 25.07 y reiniciar el servicio.
  • Revocar credenciales y tokens que estuvieran cargados en memoria antes del parche.
  • Aislar Triton tras un WAF o mTLS, limitando el acceso gRPC/HTTP a IP de confianza.
  • Deshabilitar el backend Python si no se necesita, o ejecutarlo en contenedores con límites estrictos de memoria compartida.
  • Reforzar la monitorización: solicitudes a modelos inexistentes o peticiones sobredimensionadas pueden indicar intentos de explotación.

Más información

La entrada NVIDIA corrige seis vulnerabilidades críticas en Triton Inference Server se publicó primero en Una Al Día.