Des millions de personnes se sont retrouvées soudainement privées d’accès à leurs sites et applications habituels, lundi 20 octobre, en raison d’une interruption majeure du principal opérateur mondial du cloud. Retour sur cet événement d’une ampleur exceptionnelle.
Snapchat, Ring, Alexa, Roblox, Hulu, paralysés. Coinbase, Robinhood ou encore Perplexity également hors service. Même Amazon.com et Prime Video ont connu des interruptions partielles. Ce n’est pas une scène tirée d’un film, mais bien un aperçu de la journée chaotique vécue lundi 20 octobre par les utilisateurs et acteurs du numérique.
Ce matin-là, le monde a découvert une panne majeure d’Amazon Web Services (AWS), leader mondial du cloud avec une part de marché oscillant entre 30% et 31%, selon les dernières études des cabinets Synergy Research Group et Gartner.
Bien loin devant ses concurrents directs, Microsoft Azure (20-23%) et Google Cloud (environ 12%), AWS a vu son centre névralgique basé en Virginie tomber en panne dès 00h11, heure de la côte Est américaine, plongeant des milliers de services et sites web dans une obscurité numérique d’une ampleur exceptionnelle.
Anatomie d’une panne mondiale
Les ingénieurs d’Amazon ont en effet observé une hausse inhabituelle des erreurs sur l’un de leurs systèmes critiques : le point de départ d’un enchaînement de pannes à grande échelle.
Le nœud du problème résidait dans une défaillance du Domain Name System (DNS), maillon-clé qui fait office de répertoire global d’Internet en transformant les adresses web en coordonnées numériques lisibles par les machines. Quand cette opération échoue, plus aucun service n’est localisable, rendant impossible la connexion des utilisateurs.
« C’est comme si toutes les pancartes directionnelles d’une ville avaient été retirées simultanément. Les services étaient toujours opérationnels, mais impossible de les trouver sur le réseau« , expliquent les experts en cybersécurité.
Selon AWS, l’incident a été provoqué par une erreur interne dans un système de base de données qui a très vite contaminé l’ensemble du réseau, générant une onde de choc numérique et des perturbations mondiales.
Entre fragilité digitale et résilience en question
Face à l’ampleur du sinistre, les équipes d’AWS se sont mobilisées pour rétablir progressivement les services défaillants, mais la complexité de l’incident a mis en lumière la fragilité inhérente à la centralisation des infrastructures numériques actuelles.
Alors que nous percevons souvent le web comme un réseau décentralisé et résilient, la réalité est bien différente. Des experts du secteur y voient un avertissement sérieux, alors qu’une grande partie de l’infrastructure internet repose sur les services de quelques géants technologiques seulement.
« Ce type d’événement montre à quel point la dépendance à un fournisseur unique fragilise l’ensemble du système », souligne Marijus Briedis, CTO de NordVPN, cité par ZDNET. Pour Daniel Ramirez, responsable chez DownDetector, de telles pannes, bien que rares, tendent à se multiplier du fait de la concentration des données critiques chez un nombre limité d’acteurs du cloud.