Quanto accaduto ieri non ha precedenti, almeno non con la medesima portata: un down mondiale per risorse online che vanno da Amazon al New York Times, passando da alcuni dei principali siti di informazione nostrani, piattaforme di streaming e molto altro ancora. La causa è stata presto indentificata e la responsabilità attribuita a Fastly, che oggi interviene per spiegare in modo dettagliato cosa è successo: tutta colpa di un bug.
Abbiamo riscontrato un’interruzione globale provocata da un bug software non conosciuto, emerso l’8 giugno, attivato da un cambiamento di configurazione apportato da un cliente. Abbiamo individuato il problema in meno di un minuto, identificando e isolando ciò che lo ha innescato, poi disabilitando la configurazione. Entro 49 minuti, il 95% del nostro network è tornato a operare normalmente.
Down mondiale: Fastly spiega cosa è accaduto
Il comunicato si apre dunque collegando quanto accaduto a un problema di natura software e sottolineando la prontezza dell’intervento. Più nel dettaglio, l’intoppo è stato introdotto il 12 maggio, rimanendo per quasi un mese senza manifestarsi, uscendo poi allo scoperto in concomitanza con una precisa variazione delle configurazioni eseguita da un cliente di Fastly (non reso noto) in circostanze specifiche. Questa la ricostruzione della difficile giornata di ieri.
- 11:47 inizio dei problemi su scala globale;
- 11:48 interruzione globale identificata dal monitoraggio di Fastly;
- 11:58 pubblicazione dello status;
- 12:27 gli ingegneri di Fastly hanno identificato la configurazione del cliente;
- 12:36 inizio del ripristino per i servizi interessati;
- 13:00 ripristino completato per la maggior parte dei servizi
- 14:35 incidente risolto
- 14:44 pubblicazione dello status, risolto;
- 19:25 avvio della distribuzione per il bugfix.
Il bug è stato risolto, così da scongiurare il rischio di dover fare i conti con altri down di tale portata. Fastly chiude il comunicato scusandosi con i clienti e con tutti coloro che sono stati interessati dal problema.
Anche se l’interruzione si è verificata in condizioni specifiche, avremmo dovuto prevederla. Forniamo servizi di importanza critica e consideriamo ogni azione che può causare problemi con la massima priorità.
Il servizio fornito dalla società, con sede a San Francisco, è di tipo Content Delivery Network: di fatto consente di ospitare contenuti come immagini e video in server mirror ospitati da un’infrastruttura cloud distribuita in 26 paesi a livello globale, così da ottimizzare l’accesso alle risorse da parte degli utenti.