Il CEO Matthew Prince ha scritto un post sul blog ufficiale per spiegare cosa ha causato il down di Cloudflare del 18 novembre, la peggiore interruzione del servizio dal 2019 che ha impedito l’accesso a numerosi siti, tra cui X, ChatGPT e Spotify. Il CTO Dane Knecht aveva chiesto scusa ai clienti, anticipando la pubblicazione di maggiori dettagli sull’accaduto.
Problema al sistema di gestione dei bot
Cloudflare offre i suoi servizi (CDN, DNS, firewall, reverse proxy e protezione DDoS) al 20% dei siti Internet nel mondo. A partire dalle ore 12:28 di ieri, gli utenti hanno iniziato a vedere il famigerato errore 500 sui siti dei clienti dell’azienda californiana.
Il CEO sottolinea che non si è trattato di un attacco informatico (DDoS o simili). In seguito ad una modifica delle autorizzazioni di uno dei sistemi di database, le dimensioni del file utilizzato dal sistema di gestione dei bot sono raddoppiate. Questo file, che contiene l’elenco dei bot da bloccare, è stato quindi distribuito a tutte le macchine che compongono la rete di Cloudflare.
Il software eseguito sulle macchine che instradano il traffico non può gestire file con dimensione superiore ad un certo limite, quindi si è verificato l’interruzione del servizio. Il traffico è stato ripristinato alle 15:30, ma il problema è stato definitivamente risolto alle 18:06.
La modifica delle autorizzazioni è stata effettuata su un cluster di database ClickHouse. Il suddetto file viene generato ogni cinque minuti da una query. Inizialmente, i dati errati erano alternati a dati corretti, quindi sembrava un attacco DDoS. Successivamente l’intero cluster ha generato dati errati, causando l’interruzione del servizio.
Il ripristino è avvenuto quando è stata sospesa la generazione e distribuzione del file e inserita una precedente versione. Cloudflare ha già avviato l’implementazione di misure aggiuntive per evitare che un simile problema si verifichi in futuro. Il CEO ammette che il down di ieri è inaccettabile perché i sistemi di Cloudflare servono proprio a garantire l’accesso ai siti.


