Cloudflare alza il livello nella battaglia contro lo scraping dei dati da parte dell’intelligenza artificiale. Dopo aver lanciato nel 2023 strumenti per aiutare i gestori di siti web a bloccare i bot che estraggono contenuti per addestrare modelli di AI, l’azienda annuncia oggi una nuova mossa: bloccare automaticamente questi scraper per tutti i suoi clienti e introdurre un nuovo programma chiamato Pay per crawl, che permette agli editori di far pagare una tariffa alle aziende di AI per accedere ai contenuti dei loro siti.
Il problema dello scraping: quando i bot diventano un attacco
I web crawler esistono da decenni e sono alla base di servizi utilissimi come Google Search e l’Internet Archive. Tuttavia, l’esplosione dell’intelligenza artificiale ha generato una nuova ondata di bot progettati appositamente per raccogliere enormi quantità di dati online.
Questi software visitano i siti con un’intensità tale da mettere a dura prova i server, al punto da generare effetti simili a quelli di un attacco DDoS. Anche quando i siti riescono a reggere il carico, molti editori non vogliono che i loro contenuti vengano copiati gratuitamente, soprattutto testate giornalistiche che investono in contenuti originali e chiedono licenze d’uso.
“Stiamo cercando di difenderci con tutte le forze”, ha dichiarato Danielle Coffey, CEO della News Media Alliance, che rappresenta migliaia di testate in Nord America.
La risposta di Cloudflare: protezione automatica e tracciamento avanzato
Secondo Will Allen, responsabile AI e privacy di Cloudflare, oltre un milione di siti web hanno già attivato le protezioni anti-scraping dal 2023. Ora, queste difese potranno essere attivate di default, proteggendo milioni di portali in automatico.
La tecnologia di Cloudflare include un sistema avanzato che identifica anche i crawler “fantasma”, ovvero quelli non dichiarati esplicitamente dalle aziende di AI. Utilizzando machine learning, analisi comportamentale e fingerprinting, l’azienda è in grado di distinguere i bot legittimi da quelli usati per lo scraping AI.
Robots.txt? Non basta più
Molti editori cercano di proteggersi con il classico file robots.txt, che segnala ai bot quali pagine possono o non possono essere visitate. Ma il rispetto di questo standard è volontario, e molte aziende di intelligenza artificiale ignorano deliberatamente queste indicazioni.
Secondo Tollbit, piattaforma che aiuta gli editori a gestire licenze e accessi, nel solo mese di marzo 2025 ci sono stati oltre 26 milioni di casi in cui i bot hanno ignorato il file robots.txt.
Pay per crawl: verso un nuovo equilibrio tra editori e AI
Con il programma Pay per crawl, Cloudflare introduce una novità potenzialmente rivoluzionaria: dare agli editori la possibilità di chiedere un pagamento per ogni accesso dei bot di AI ai loro contenuti. Uno strumento che potrebbe cambiare gli equilibri del web.
“Fino a oggi, le aziende di AI hanno potuto accedere liberamente ai contenuti online. Ora dovranno negoziare e pagare. Le aziende che sapranno stipulare accordi con gli editori avranno un vantaggio competitivo enorme”, afferma Nicholas Thompson, CEO di The Atlantic ed ex direttore di Wired US.
Conclusione
La mossa di Cloudflare è un segnale forte: gli editori tornano ad avere il controllo sui propri contenuti digitali. In un’epoca in cui l’AI si nutre di testi, immagini e dati pubblicati online, strumenti come Pay per crawl rappresentano una prima forma concreta di regolazione.
Il futuro dell’AI sarà anche una partita tra chi riesce a negoziare l’accesso ai dati… e chi continuerà a cercare scorciatoie.