Le géant du cloud Amazon Web Services (AWS) a récemment été le théâtre d’une panne d’une ampleur exceptionnelle, perturbant l’accès à une multitude de services à travers le monde. Cet incident, survenu le 19 octobre 2025, a provoqué une réaction en chaîne qui a mis en lumière les fragilités de notre dépendance croissante aux infrastructures de cloud computing.
Les 3 infos à ne pas manquer
- Une défaillance dans le système de gestion DNS de DynamoDB a causé une interruption massive des services AWS.
- L’incident a affecté des dizaines de services et entreprises, dont Snapchat et Roblox, à l’échelle mondiale.
- La panne met en avant les risques liés à la concentration des services cloud sur des régions géographiques limitées.
Les causes de la panne AWS
La panne d’AWS a été déclenchée par un problème dans le système de gestion DNS de DynamoDB, un service de base de données crucial pour de nombreuses applications. Ce dysfonctionnement résulte d’un bug de synchronisation rarissime, où un exécuteur lent a appliqué un ancien plan tandis qu’un autre, plus rapide, a supprimé ces plans jugés obsolètes. Cela a conduit à l’effacement de l’adresse DNS de DynamoDB, rendant le service inaccessible.
La défaillance de DynamoDB a entraîné un effet domino, bloquant plusieurs services AWS essentiels tels que EC2 et les Network Load Balancers. Sans accès à la base de données, ces systèmes ont peu à peu perdu leur capacité à démarrer de nouveaux serveurs, aggravant la situation.
Impact global de l’incident
Le 19 octobre, à 23h48, l’incident a débuté et s’est étendu sur plus de 14 heures. Plus de 17 millions de signalements ont été recensés sur DownDetector, un service de suivi des pannes, soulignant l’ampleur mondiale de l’incident. Des entreprises telles que Snapchat et Roblox ont été sévèrement touchées, avec des millions de rapports d’erreurs.
Les États-Unis et le Royaume-Uni figurent parmi les pays les plus affectés, avec respectivement 6,3 millions et 1,5 million de signalements. La panne a également perturbé des services gouvernementaux et des objets connectés comme Ring et Alexa.
Conséquences pour les entreprises et enseignements
L’incident révèle la vulnérabilité des infrastructures cloud face à des défaillances localisées. La région US-EAST-1, l’une des plus anciennes et des plus utilisées d’AWS, a été identifiée comme un point de défaillance critique, avec des répercussions mondiales en cas de panne.
Pour prévenir de telles situations, Ookla, l’éditeur de DownDetector, suggère d’adopter des configurations multi-cloud pour les services critiques. Bien que coûteuse et complexe, cette stratégie pourrait améliorer la disponibilité en cas d’incidents généralisés. Une autre approche préconisée consiste à ralentir progressivement les services non essentiels pour protéger le cœur des activités.
Contexte et historique d’Amazon Web Services
Amazon Web Services, une filiale d’Amazon, a été lancé en 2006. Depuis, AWS est devenu l’un des principaux acteurs du cloud computing, offrant une gamme étendue de services allant de l’hébergement web à l’intelligence artificielle. Sa popularité tient à sa flexibilité, sa scalabilité et sa capacité à réduire les coûts pour les entreprises.
Malgré son succès, AWS n’est pas à l’abri des incidents techniques, comme l’a démontré cette panne. L’événement souligne l’importance de la résilience des infrastructures cloud et la nécessité d’une diversification géographique et technologique pour minimiser les impacts des défaillances futures.
