Perplexity vuole battere il record mondiale di denunce per violazione del copyright. La startup di san Francisco ha già ricevuto lettere di diffida da Condé Nast, New York Times e BBC. News Corp ha invece avviato un’azione legale. Cloudflare ha scoperto che Perplexity utilizza varie tecniche per nascondere le attività di scraping.
Crawler in modalità stealth
Cloudflare sottolinea che i crawler dovrebbero essere trasparenti, ovvero servire per uno scopo preciso e soprattutto rispettare le preferenze o direttive dei siti web. L’azienda di San Francisco ha scoperto che Perplexity non rispetta nessuna regola, quindi i suoi bot verranno eliminati dall’elenco di quelli verificati e bloccato.
Cloudflare ha ricevuto diverse segnalazioni dai clienti che avevano bloccato i crawler Perplexity-Bot
e Perplexity-User
nel file robots.txt
e tramite specifiche regole del Web Application Firewall. Nonostante ciò, i bot di Perplexity potevano ancora accedere ai contenuti.
Per verificare le attività di scraping sono stati acquistati due domini e aggiunto il blocco per qualsiasi bot nel file robots.txt
. Quando Cloudflare ha chiesto informazioni sui domini, il chatbot di Perplexity ha fornito tutti i dettagli sui contenuti. La startup californiana sfrutta vari trucchi per aggirare il blocco.
Il primo prevede l’uso di due crawler con diversi user-agent. Uno di essi è visibile, mentre l’altro è nascosto (stealth) e impersona Chrome per macOS. Entrambi i crawler effettuano lo scraping. Quello invisibile si attiva quando l’altro viene bloccato.
Il crawler stealth utilizza inoltre un intervallo di indirizzi IP diversi da quelli pubblicati sul sito di Perplexity. Quando Cloudflare ha aggiornato il file robots.txt
sono stati cambiati gli indirizzi IP per aggirare il blocco. Altri provider, tra cui OpenAI, rispettano invece le preferenze dei siti web.
Un portavoce di Perplexity ha dichiarato che il bot indicato non è della startup californiana. Cloudflare ha recentemente annunciato nuovi tool per bloccare i bot e il servizio Pay per Crawl.