Výpadek AWS: Jak výpadek cloudu Amazon ovlivnil globální internet

Dosavadní příběh: V pondělí (20. října 2025) začalo jedno z datových center Amazon Web Services (AWS), které se nachází na východním pobřeží USA, zažívat „zvýšenou chybovost a latence“. Do dalšího rána bylo v datových centrech AWS hlášeno několik problémů, z nichž mnohé se nacházejí v Severní Virginii. Postižený cluster datových center, US-East-1, je největší a nejaktivnější AWS. Narušení podle Downdetectoru stáhlo digitální služby více než 2 000 společností. Postiženy byly služby online služeb Amazon, Snapchat, Signal, ChatGPT, Perplexity, Canva, Roblox, Duolingo, Fortnite, Coinbase a Epic Games. Problém byl nakonec „plně vyřešen“ v 18:53 ET, uvedl AWS v blogovém příspěvku.
Jaký byl důvod incidentu?
V aktualizaci stavu AWS informovalo uživatele, že výpadek byl způsoben chybou DNS ovlivňující programovací rozhraní databázových aplikací DynamoDB v oblasti US-East-1. Po nějaké době Amazon doporučil uživatelům, kteří mají problémy s řešením koncových bodů služby DynamoDB v US-EAST-1, aby vyprázdnili své mezipaměti DNS.
Domain Name System (DNS) v podstatě funguje jako vyhledávací mechanismus, který převádí webovou adresu URL na její odpovídající IP adresu. Například IP adresa domény www.instagram.com je 57.144.150.34. Když DNS selže, neexistuje způsob, jak získat adresu, takže i když se zdá, že služba je pro uživatele provozující platformu funkční, nedochází k žádnému příchozímu provozu. Zvažte, zda se pokusit kontaktovat přítele, jehož telefonní číslo se neustále mění, a vy si žádné z těchto čísel neukládáte do paměti.
Databázovou službu DynamoDB používala společnost AWS k ukládání dat pro vlastní služby Amazonu, stejně jako několik dalších zákazníků, včetně maloobchodních prodejců Amazon, Amazon Alexa, Lyft, Snapchat a Signal atd.
Chyby DNS se staly častými v důsledku různých faktorů. Může k tomu dojít v případě, že se společnosti nepodařilo obnovit registraci nebo při chybné automatické aktualizaci nebo v nejběžnějších případech, kdy dojde ke změně poskytovatele služby DNS nebo aktualizaci adresy domény.
Ačkoli chyby DNS mohly být způsobeny škodlivými aktéry, tento konkrétní výpadek nebyl. Šlo o případ „dostupnosti“, řekli odborníci na kybernetickou bezpečnost, kdy se systém nemohl správně rozhodnout, ke kterému serveru se připojit, což vedlo k dominovému efektu.
Navzdory tomu, jak se centralizované cloudové systémy postupem času staly, je region AWS US-East-1 relativně nechvalně známý tím, že způsobuje masivní narušení. US-East-1, postavený v roce 2006, je také výchozím nastavením pro řadu služeb a uživatelů, protože šlo o první region AWS.
Některé globální služby AWS běží z US-East-1 v závislosti na jeho koncových bodech, mezi které patří mimo jiné DynamoDB Global Tables. To by mohlo znamenat, že služby používané i v Evropě mají prvky infrastruktury umístěné v USA-East-1 a mohou být náchylné k řetězové reakci.
Došlo v minulosti k výpadkům AWS?
Po dvou prominentních výpadcích v září a prosinci 2021 byli zákazníci zuřiví a označili US-East-1 za „systémové riziko“. Výpadek v prosinci je často uváděn jako nejzávažnější v historii AWS. Ukázalo se, jak křehké mohou být závislosti na cloudu. Tento výpadek, který trval téměř sedm hodin a stál společnosti S&P 150 milionů dolarů, byl způsoben překlepem v příkazu zadaném při ladění problému.
Po odporu Amazon potvrdil, že se přestavují nové architektury jak pro systém správy případů podpory AWS, aby zákazníci mohli chatovat s technickou podporou, tak pro řídicí panel zdraví. V červnu 2023 však region čelil dalšímu výpadku, který na přibližně čtyři hodiny odstavil 100 služeb, přičemž zákazníci se potýkali s opakujícím se problémem, že navzdory změnám nebyli schopni rychle kontaktovat podporu AWS.
Je pozoruhodné, že každá oblast AWS má minimálně tři různé zóny dostupnosti (AZ), které jsou všechny připojeny samostatně. A zatímco zákazníkům bylo doporučeno, aby umožnili jejich aplikacím a platformám běžet v různých zónách dostupnosti, aby měli pod kontrolou rizika dopadu, celý region byl náchylný k tomu, aby si vzal všechno s sebou.
Dojde v budoucnu k dalším podobným výpadkům?
Někteří odborníci předpověděli, že výpadky cloudu by se mohly zvýšit kvůli tlaku na zavádění schopností AI v podnicích, které vedou ke zvýšenému přijímání dat do cloudu, což zvyšuje zatížení hyperscalerů. (Globálnímu cloud computingu z velké části dominuje AWS, následuje Azure od Microsoftu a Google Cloud.)
Jak většina odborníků opakovaně varovala, výpadek je jasnou připomínkou toho, že přílišné spoléhání na tyto dominantní poskytovatele cloudu by mohlo globální online společnosti srazit na kolena.
Gergely Orosz, autor informačního bulletinu ‚The Pragmatic Engineer‘, vyjmenoval některé nepravděpodobné případy výpadku z tohoto výpadku, mezi něž patřil Postman, nástroj pro vývoj API, a Eight Sleep, společnost zabývající se posilováním spánku.
„V obou případech by věci měly fungovat lokálně! To zákazníci předpokládali a mělo to být možné. Ale vývojářské týmy zjevně zjistily, že je jednodušší převzít závislost na cloudu – a nepřipravovaly se na výpadek regionu AWS. Takže teď zákazníci vědí, že se jedná o cloudové produkty,“ uvedl v příspěvku X.
Amazon vydal zprávu s podrobným shrnutím 15hodinového výpadku, že dočasně deaktivuje DynamoDB DNS Planner a že přidá „dodatečné ochrany“, aby se v budoucnu zabránilo chybám DNS. Tým AWS bude také pracovat na vylepšení svého interního testování, aby hledal více takových problémů, které výpadek protáhly.
Publikováno – 24. října 2025 18:45 IST



