La Wayback Machine era il nostro album di famiglia digitale, oggi rischia di diventare un salotto con la porta chiusa, per paura che l’intelligenza artificiale entri senza bussare.
C’era un’epoca, non così lontana, in cui il web sembrava una piazza. Entravi, curiosavi, tornavi indietro nel tempo con un clic, come sfogliare un quotidiano ingiallito in biblioteca. La Wayback Machine di Internet Archive era questo: una memoria pubblica, imperfetta ma preziosa, utile ai giornalisti, agli studiosi, ai cittadini, perfino a chi voleva solo ritrovare “com’era prima”.
Ora, però, diversi siti di notizie stanno alzando la saracinesca proprio contro Internet Archive. Il motivo dichiarato è chiaro e, in fondo, umano: evitare che l’IA usi gli archivi come “porta sul retro” per accedere a contenuti, anche paywalled, e trasformarli in materiale da addestramento o da riassunto automatico. (Nieman Lab)
Che cosa sta succedendo, in pratica
Internet Archive usa crawler per salvare “istantanee” delle pagine web. Quelle istantanee diventano consultabili via Wayback Machine. Ma con l’esplosione dei bot che raccolgono dati per i modelli di IA, alcuni editori hanno iniziato a guardare l’archivio non più come una biblioteca, bensì come un rubinetto lasciato aperto.
Secondo Nieman Lab, il punto di svolta è la paura che aziende o intermediari possano sfruttare l’Archive come scorciatoia per ottenere grandi volumi di testi, in modo più ordinato e continuativo rispetto alla navigazione pagina per pagina. In questo contesto, il New York Times ha confermato di star “hard blocking” i crawler di Internet Archive e di aver aggiunto un divieto anche nel proprio robots.txt. (Nieman Lab)
Il “web aperto” sta chiudendo davvero
Se per “web aperto” intendiamo un web dove tutto è liberamente indicizzabile, copiabile, riusabile, allora sì, la tendenza è verso più recinzioni. Non solo adesso: già a fine 2023 una quota significativa dei principali siti di news bloccava i crawler legati all’IA. Un factsheet del Reuters Institute (Oxford) stimava che il 48% dei siti news più usati in dieci Paesi bloccasse i crawler di OpenAI e il 24% quelli di Google legati all’IA, con differenze enormi tra nazioni. (ora.ox.ac.uk)
Ma se per “web aperto” intendiamo invece un web consultabile dagli esseri umani, allora la storia è più ambigua: i muri si alzano soprattutto contro le macchine, non contro le persone. Il problema è che oggi, spesso, sono proprio le macchine a fare da portineria per le persone. Se il traffico informativo passa sempre più da chatbot e riassunti, bloccare i bot può diventare, indirettamente, un modo per sparire dal radar.
Robots.txt, il cartello “non entrare”, e i buttafuori veri
Per anni abbiamo vissuto con una convenzione gentile: il robots.txt, una specie di cartello “qui non si entra” appeso alla porta. Solo che è, appunto, una convenzione. Cloudflare lo dice senza giri di parole: robots.txt esprime preferenze, non è un meccanismo di enforcement. (The Cloudflare Blog)
E infatti la risposta del mercato sta diventando più muscolare: blocchi a livello di infrastruttura, firewall, identificazione dei bot, perfino modelli “pay per crawl”. Cloudflare, ad esempio, ha annunciato il blocco di default dei crawler di IA per i nuovi clienti e la possibilità, per alcuni editori, di far pagare l’accesso ai bot. (The Verge)
È il passaggio dalla richiesta cortese al controllo d’accesso. Dal “per favore non copiare” al “serve un badge”.
Il paradosso di Internet Archive: salvare la storia, ma con quali regole
Qui la faccenda diventa quasi poetica, e un filo tragica: per proteggere il presente, rischiamo di bruciare l’archivio del passato. Internet Archive, già anni fa, spiegava che robots.txt è nato per i motori di ricerca, non per la conservazione storica, e che può finire per cancellare pezzi di memoria quando un sito cambia mano o viene “parcheggiato”. (blog.archive.org)
E poi c’è la questione, delicatissima, della responsabilità pubblica: se un articolo sparisce o viene modificato, l’archivio è spesso l’unico specchio che permette di verificare cosa fosse stato detto. Se lo specchio si appanna, il fact checking diventa più costoso, più lento, più fragile.
Non è solo “editori contro IA”, è un cambio di stagione
Un altro segnale è che non si parla più soltanto di giornali. Reddit, per esempio, ha annunciato limitazioni all’accesso della Wayback Machine, sostenendo che aziende di IA abbiano usato l’archivio per raccogliere dati, e citando anche temi di privacy e contenuti rimossi. (The Verge)
E mentre alcuni bot rispettano i cartelli, altri, secondo diverse segnalazioni nel settore, li aggirano. Reuters ha riportato preoccupazioni su agenti IA che bypasserebbero lo standard robots.txt, aumentando la pressione verso blocchi “duri” e accordi commerciali. (Reuters)
Una via d’uscita che non distrugga la memoria
Se vogliamo salvare la tradizione migliore del web, quella delle biblioteche e non dei bunker, servono compromessi intelligenti:
- Separare gli scopi dei crawler, in modo che un editore possa dire sì alla ricerca, no all’addestramento, e magari sì all’archiviazione pubblica. Cloudflare spinge molto su questa idea di “purpose separation”, specie nel caso dei crawler multiuso. (The Cloudflare Blog)
- Accordi chiari tra archivi e editori, con regole trasparenti, limiti, audit, e magari finestre temporali. L’archivio come biblioteca con registri, non come magazzino senza custode.
- Mercati di licensing sensati, dove chi crea contenuti venga pagato, senza trasformare ogni citazione in un pedaggio. Perché se tutto diventa a pagamento, vince solo chi ha già capitale, e il web torna feudale.
Domande frequenti
Internet Archive “ruba” contenuti?
In generale archivia pagine pubbliche per preservarle, ma il conflitto nasce quando quelle copie diventano sfruttabili come dataset o scorciatoie per aggirare restrizioni. (Nieman Lab)
La Wayback Machine smetterà di funzionare?
No, ma potrebbe risultare più “bucata” su alcuni domini importanti, proprio quelli che spesso servono per verifiche e ricerca storica. (Nieman Lab)
Robots.txt basta a proteggersi?
Spesso no: è un segnale, non una serratura. Per questo molti passano a blocchi tecnici lato server e CDN. (The Verge)
Perché questa stretta arriva adesso?
Perché i bot IA sono diventati un fattore economico: consumano contenuti, riducono traffico, cambiano il valore della distribuzione, e spingono verso modelli “a licenza”. (The Verge)
In fondo, la domanda non è se il web aperto stia chiudendo, ma che cosa stiamo chiamando “aperto”. Se aperto significa “senza regole”, la festa è finita. Se aperto significa “accessibile, verificabile, tramandabile”, allora siamo ancora in tempo, ma dobbiamo difendere la memoria come si difende un archivio comunale: con cura, regole chiare, e la consapevolezza che il passato, una volta perso, non lo ricostruisci con nessun prompt.
Hashtag: #InternetArchive #WaybackMachine #AIeGiornalismo #WebAperto
