Il y a une semaine, une panne massive d'Amazon Web Services a paralysé une grande partie d'Internet. De Snapchat à Reddit en passant par Disney+, des services majeurs étaient inaccessibles. Amazon a publié son rapport : il ne s'agissait pas d'une attaque, mais d'un bug logiciel interne et d'une automatisation défaillante.
L'effet domino : la moitié d'Internet paralysée
Lundi matin, de nombreux utilisateurs ont cru à une panne de leur propre connexion avant de comprendre que le problème était bien plus large. En réalité, le cœur d'Internet était en rade. Des services essentiels comme Snapchat, Reddit, Venmo, Disney+, Fortnite ou encore Duolingo étaient lents ou totalement inaccessibles. Même les propres services d'Amazon, comme Alexa et Prime Video, ont été touchés. L'incident a paralysé des entreprises du monde entier. L'origine du problème a été rapidement identifiée : le centre de données US-EAST-1 d'Amazon en Virginie du Nord, le plus ancien et le plus grand du groupe, et malheureusement un habitué des pannes majeures.
Internet, c'est aussi ça : US-EAST-1
Pas une attaque, mais un bug d'automatisation
Dans son post-mortem détaillé, Amazon a confirmé qu'il ne s'agissait ni d'une cyberattaque ni d'une panne matérielle. Le véritable coupable est un bug logiciel rare dans un système d'automatisation interne. Ce système gère DynamoDB, une base de données fondamentale utilisée par presque tous les services AWS. Pour faire simple, le bug a provoqué l'effacement des enregistrements DNS de ce service critique. Le DNS fonctionne comme l'annuaire d'Internet : il traduit un nom de service (comme DynamoDB) en une adresse machine. Sans cet annuaire, les applications ne savaient littéralement plus où se connecter, et tout s'est effondré.
La panne en cascade qui a bloqué le système
Ce qui a rendu cette panne si grave, c'est l'effet domino. La défaillance du DNS de DynamoDB a entraîné d'autres systèmes essentiels dans sa chute. Les Network Load Balancers, qui agissent comme des aiguilleurs pour répartir le trafic et éviter les embouteillages, sont tombés en panne.
Ensuite, le service EC2, qui permet aux entreprises de lancer des serveurs virtuels (le cœur du cloud), n'a plus pu démarrer de nouvelles instances. Le système s'est retrouvé submergé, incapable de se réparer lui-même comme il aurait dû le faire. Il a fallu une intervention manuelle et près de 15 heures pour que tout revienne à la normale.
On en dit quoi ?
Amazon s'est platement excusé et a promis que l'automatisation fautive avait été désactivée dans le monde entier. Mais cet incident est aussi un rappel de la fragilité du web moderne. On parle souvent de cloud comme d'un concept décentralisé, mais la réalité est bien différente. L'infrastructure d'Internet repose en fait sur les épaules de trois géants : AWS, Microsoft Azure et Google Cloud.
Cette panne le prouve : il suffit qu'un seul service, dans un seul centre de données, ait un bug logiciel pour paralyser des millions d'utilisateurs et coûter des millions de dollars en revenus perdus aux entreprises. La centralisation a un coût, et c'est celui de la vulnérabilité partagée.