Libera tu mente y alcanza tus metas
AWS se cay贸… s铆, es lo poco que sabemos (Actualizado)
AWS se cay贸… s铆, es lo poco que sabemos (Actualizado)

AWS se cay贸… s铆, es lo poco que sabemos (Actualizado)

Una interrupci贸n de AWS ha paralizado millones de sitios web, incluyendo Amazon.com, Prime Video, Perplexity AI, Canva y m谩s.

La ca铆da comenz贸 durante la madrugada del lunes y se concentr贸 en servidores de la regi贸n de Virginia del Norte (Estados Unidos), una de las m谩s cr铆ticas dentro del ecosistema de AWS. El suministro se restableci贸 en horas de la tarde.

La interrupci贸n ha afectado a consumidores de todas las regiones, incluyendo Estados Unidos y Europa y Latinoam茅rica y, en la p谩gina de AWS Health, Amazon est谩 informando sobre el estado de situaci贸n que afecta a m煤ltiples servicios. "Podemos confirmar un aumento en las tasas de error y latencia para m煤ltiples servicios de AWS en la regi贸n US-EAST-1. Este problema tambi茅n podr铆a estar afectando la creaci贸n de casos a trav茅s del Centro de Soporte de AWS o la API de Soporte. Estamos trabajando activamente para mitigar el problema y comprender la causa ra铆z", se帽al贸 AWS.

Si bien Amazon (a煤n) no ha compartido la causa espec铆fica de la interrupci贸n, las actualizaciones de estado indican que est谩 relacionada con un problema de resoluci贸n de DNS para el punto final de la API de DynamoDB en la regi贸n US-EAST-1 de AWS en Virginia. VER ABAJO.

Seg煤n investigaciones en curso, el fallo se origin贸 en la red interna de Elastic Compute Cloud (EC2), que permite a los usuarios crear aplicaciones basadas en la nube y gestionar los recursos inform谩ticos pertinentes para hacerlas funcionar.

La interrupci贸n tuvo un alcance global. Servicios como Netflix, Microsoft 365, YouTube, Facebook, Snapchat y Fortnite registraron fallas generalizadas. En algunos casos, los usuarios no pod铆an iniciar sesi贸n; en otros, se interrump铆a la reproducci贸n de videos o el funcionamiento de videollamadas.

En una publicaci贸n en X, Fortnite de Epic Games confirm贸 una importante interrupci贸n del servicio, as铆 como Perplexity cuya aplicaci贸n de chat est谩 fuera de l铆nea debido. La empresa de dise帽o gr谩fico Canva reconoci贸 una interrupci贸n del servicio que afect贸 la edici贸n de im谩genes y otras funciones.

Seg煤n Downdetector, 15 servicios importantes, incluyendo plataformas de entretenimiento como Roblox y Hulu, est谩n o estuvieron fuera de l铆nea debido a problemas con AWS.

El impacto tambi茅n se sinti贸 en Am茅rica Latina, donde miles de usuarios reportaron dificultades para realizar pagos electr贸nicos o acceder a apps de uso cotidiano. 

Tras casi 12 horas en la interrupci贸n del servicio, el problema "fue mitigado por completo y la mayor铆a de las operaciones del servicio AWS funcionan con normalidad ahora en todo el mundo" indic贸 en una actualizaci贸n la p谩gina web de mantenimiento y a帽adi贸 que algunas operaciones, a煤n tienen inconvenientes que se ir谩n recuperando en el transcurso de la jornada.

Punto 煤nico de fallo

ACTUALIZACI脫N 20/10. Resoluci贸n oficial de AWS: era el DNS.

Un 煤nico punto de fallo provoc贸 la interrupci贸n de Amazon que afect贸 a millones de personas. El incidente fue provocado por un defecto latente dentro del sistema automatizado de administraci贸n de DNS que provoc贸 fallas en la resoluci贸n de puntos finales para DynamoDB.

Un administrador de DNS en una sola regi贸n de la extensa red de Amazon desencaden贸 un desastre de 16 horas. A su vez, el retraso en la propagaci贸n del estado de la red se extendi贸 a un balanceador de carga de red del que dependen los servicios de AWS para su estabilidad.

Como resultado, los clientes de AWS experimentaron errores de conexi贸n desde la regi贸n US-East-1. Las funciones de red de AWS afectadas incluyeron la creaci贸n y modificaci贸n de cl煤steres de Redshift, las invocaciones de Lambda y el lanzamiento de tareas de Fargate, como los flujos de trabajo administrados para Apache Airflow, las operaciones del ciclo de vida de Outposts y el Centro de soporte de AWS.

Por el momento, Amazon ha deshabilitado el Planificador de DNS de DynamoDB y la automatizaci贸n del DNS en todo el mundo mientras trabaja para corregir la condici贸n de carrera y a帽adir protecciones para evitar la aplicaci贸n de planes de DNS incorrectos. Los ingenieros tambi茅n est谩n realizando cambios en EC2 y su balanceador de carga de red.

Ookla describi贸 un factor contribuyente que Amazon no mencion贸: la concentraci贸n de clientes que enrutan su conectividad a trav茅s del punto final US-East-1 y la imposibilidad de enrutar dentro de la regi贸n: "El punto final US-EAST-1 afectado es el m谩s antiguo y m谩s utilizado de AWS. La concentraci贸n regional implica que incluso las aplicaciones globales suelen anclar all铆 los flujos de identidad, estado o metadatos. Cuando falla una dependencia regional, como ocurri贸 en este caso, los impactos se propagan a nivel mundial porque muchas pilas "globales" enrutan a trav茅s de Virginia en alg煤n momento".

Las aplicaciones modernas encadenan servicios gestionados como almacenamiento, colas y funciones sin servidor. Si el DNS no puede resolver de forma fiable un punto final cr铆tico (por ejemplo, la API de DynamoDB involucrada en este caso), los errores se propagan en cascada a trav茅s de las API ascendentes y causan fallos visibles en aplicaciones que los usuarios no asocian con AWS.

El evento sirve como advertencia para todos los servicios en la nube: m谩s importante que prevenir condiciones de carrera y errores similares es eliminar los puntos 煤nicos de fallo en el dise帽o de la red.

El camino a seguir no es cero fallos, sino fallos contenidos, logrados mediante dise帽os multirregionales, diversidad de dependencias y una preparaci贸n rigurosa ante incidentes, con una supervisi贸n regulatoria que avance hacia el tratamiento de la nube como un componente sist茅mico de la resiliencia nacional y econ贸mica.