AWS se cayó... sí, es lo poco que sabemos (Actualizado)

Una interrupción de AWS ha paralizado millones de sitios web, incluyendo Amazon.com, Prime Video, Perplexity AI, Canva y más.

La caída comenzó durante la madrugada del lunes y se concentró en servidores de la región de Virginia del Norte (Estados Unidos), una de las más críticas dentro del ecosistema de AWS. El suministro se restableció en horas de la tarde.

La interrupción ha afectado a consumidores de todas las regiones, incluyendo Estados Unidos y Europa y Latinoamérica y, en la página de AWS Health, Amazon está informando sobre el estado de situación que afecta a múltiples servicios. "Podemos confirmar un aumento en las tasas de error y latencia para múltiples servicios de AWS en la región US-EAST-1. Este problema también podría estar afectando la creación de casos a través del Centro de Soporte de AWS o la API de Soporte. Estamos trabajando activamente para mitigar el problema y comprender la causa raíz", señaló AWS.

~~Si bien Amazon (aún) no ha compartido la causa específica de la interrupción~~, las actualizaciones de estado indican que está relacionada con un problema de resolución de DNS para el punto final de la API de DynamoDB en la región US-EAST-1 de AWS en Virginia. VER ABAJO.

Según investigaciones en curso, el fallo se originó en la red interna de Elastic Compute Cloud (EC2), que permite a los usuarios crear aplicaciones basadas en la nube y gestionar los recursos informáticos pertinentes para hacerlas funcionar.

La interrupción tuvo un alcance global. Servicios como Netflix, Microsoft 365, YouTube, Facebook, Snapchat y Fortnite registraron fallas generalizadas. En algunos casos, los usuarios no podían iniciar sesión; en otros, se interrumpía la reproducción de videos o el funcionamiento de videollamadas.

En una publicación en X, Fortnite de Epic Games confirmó una importante interrupción del servicio, así como Perplexity cuya aplicación de chat está fuera de línea debido. La empresa de diseño gráfico Canva reconoció una interrupción del servicio que afectó la edición de imágenes y otras funciones.

Según Downdetector, 15 servicios importantes, incluyendo plataformas de entretenimiento como Roblox y Hulu, están o estuvieron fuera de línea debido a problemas con AWS.

El impacto también se sintió en América Latina, donde miles de usuarios reportaron dificultades para realizar pagos electrónicos o acceder a apps de uso cotidiano.

Tras casi 12 horas en la interrupción del servicio, el problema "fue mitigado por completo y la mayoría de las operaciones del servicio AWS funcionan con normalidad ahora en todo el mundo" indicó en una actualización la página web de mantenimiento y añadió que algunas operaciones, aún tienen inconvenientes que se irán recuperando en el transcurso de la jornada.

Punto único de fallo

ACTUALIZACIÓN 20/10. Resolución oficial de AWS: era el DNS.

Un único punto de fallo provocó la interrupción de Amazon que afectó a millones de personas. El incidente fue provocado por un defecto latente dentro del sistema automatizado de administración de DNS que provocó fallas en la resolución de puntos finales para DynamoDB.

Un administrador de DNS en una sola región de la extensa red de Amazon desencadenó un desastre de 16 horas. A su vez, el retraso en la propagación del estado de la red se extendió a un balanceador de carga de red del que dependen los servicios de AWS para su estabilidad.

Como resultado, los clientes de AWS experimentaron errores de conexión desde la región US-East-1. Las funciones de red de AWS afectadas incluyeron la creación y modificación de clústeres de Redshift, las invocaciones de Lambda y el lanzamiento de tareas de Fargate, como los flujos de trabajo administrados para Apache Airflow, las operaciones del ciclo de vida de Outposts y el Centro de soporte de AWS.

Por el momento, Amazon ha deshabilitado el Planificador de DNS de DynamoDB y la automatización del DNS en todo el mundo mientras trabaja para corregir la condición de carrera y añadir protecciones para evitar la aplicación de planes de DNS incorrectos. Los ingenieros también están realizando cambios en EC2 y su balanceador de carga de red.

Ookla describió un factor contribuyente que Amazon no mencionó: la concentración de clientes que enrutan su conectividad a través del punto final US-East-1 y la imposibilidad de enrutar dentro de la región: "El punto final US-EAST-1 afectado es el más antiguo y más utilizado de AWS. La concentración regional implica que incluso las aplicaciones globales suelen anclar allí los flujos de identidad, estado o metadatos. Cuando falla una dependencia regional, como ocurrió en este caso, los impactos se propagan a nivel mundial porque muchas pilas "globales" enrutan a través de Virginia en algún momento".

Las aplicaciones modernas encadenan servicios gestionados como almacenamiento, colas y funciones sin servidor. Si el DNS no puede resolver de forma fiable un punto final crítico (por ejemplo, la API de DynamoDB involucrada en este caso), los errores se propagan en cascada a través de las API ascendentes y causan fallos visibles en aplicaciones que los usuarios no asocian con AWS.

El evento sirve como advertencia para todos los servicios en la nube: más importante que prevenir condiciones de carrera y errores similares es eliminar los puntos únicos de fallo en el diseño de la red.

El camino a seguir no es cero fallos, sino fallos contenidos, logrados mediante diseños multirregionales, diversidad de dependencias y una preparación rigurosa ante incidentes, con una supervisión regulatoria que avance hacia el tratamiento de la nube como un componente sistémico de la resiliencia nacional y económica.