Il Web che si richiude: quando i giornali bloccano Internet Archive per fermare l’IA

La Wayback Machine era il nostro album di famiglia digitale, oggi rischia di diventare un salotto con la porta chiusa, per paura che l’intelligenza artificiale entri senza bussare.

C’era un’epoca, non così lontana, in cui il web sembrava una piazza. Entravi, curiosavi, tornavi indietro nel tempo con un clic, come sfogliare un quotidiano ingiallito in biblioteca. La Wayback Machine di Internet Archive era questo: una memoria pubblica, imperfetta ma preziosa, utile ai giornalisti, agli studiosi, ai cittadini, perfino a chi voleva solo ritrovare “com’era prima”.

Ora, però, diversi siti di notizie stanno alzando la saracinesca proprio contro Internet Archive. Il motivo dichiarato è chiaro e, in fondo, umano: evitare che l’IA usi gli archivi come “porta sul retro” per accedere a contenuti, anche paywalled, e trasformarli in materiale da addestramento o da riassunto automatico. (Nieman Lab)

Che cosa sta succedendo, in pratica

Internet Archive usa crawler per salvare “istantanee” delle pagine web. Quelle istantanee diventano consultabili via Wayback Machine. Ma con l’esplosione dei bot che raccolgono dati per i modelli di IA, alcuni editori hanno iniziato a guardare l’archivio non più come una biblioteca, bensì come un rubinetto lasciato aperto.

Secondo Nieman Lab, il punto di svolta è la paura che aziende o intermediari possano sfruttare l’Archive come scorciatoia per ottenere grandi volumi di testi, in modo più ordinato e continuativo rispetto alla navigazione pagina per pagina. In questo contesto, il New York Times ha confermato di star “hard blocking” i crawler di Internet Archive e di aver aggiunto un divieto anche nel proprio robots.txt. (Nieman Lab)

Il “web aperto” sta chiudendo davvero

Se per “web aperto” intendiamo un web dove tutto è liberamente indicizzabile, copiabile, riusabile, allora sì, la tendenza è verso più recinzioni. Non solo adesso: già a fine 2023 una quota significativa dei principali siti di news bloccava i crawler legati all’IA. Un factsheet del Reuters Institute (Oxford) stimava che il 48% dei siti news più usati in dieci Paesi bloccasse i crawler di OpenAI e il 24% quelli di Google legati all’IA, con differenze enormi tra nazioni. (ora.ox.ac.uk)

Ma se per “web aperto” intendiamo invece un web consultabile dagli esseri umani, allora la storia è più ambigua: i muri si alzano soprattutto contro le macchine, non contro le persone. Il problema è che oggi, spesso, sono proprio le macchine a fare da portineria per le persone. Se il traffico informativo passa sempre più da chatbot e riassunti, bloccare i bot può diventare, indirettamente, un modo per sparire dal radar.

Robots.txt, il cartello “non entrare”, e i buttafuori veri

Per anni abbiamo vissuto con una convenzione gentile: il robots.txt, una specie di cartello “qui non si entra” appeso alla porta. Solo che è, appunto, una convenzione. Cloudflare lo dice senza giri di parole: robots.txt esprime preferenze, non è un meccanismo di enforcement. (The Cloudflare Blog)

E infatti la risposta del mercato sta diventando più muscolare: blocchi a livello di infrastruttura, firewall, identificazione dei bot, perfino modelli “pay per crawl”. Cloudflare, ad esempio, ha annunciato il blocco di default dei crawler di IA per i nuovi clienti e la possibilità, per alcuni editori, di far pagare l’accesso ai bot. (The Verge)

È il passaggio dalla richiesta cortese al controllo d’accesso. Dal “per favore non copiare” al “serve un badge”.

Il paradosso di Internet Archive: salvare la storia, ma con quali regole

Qui la faccenda diventa quasi poetica, e un filo tragica: per proteggere il presente, rischiamo di bruciare l’archivio del passato. Internet Archive, già anni fa, spiegava che robots.txt è nato per i motori di ricerca, non per la conservazione storica, e che può finire per cancellare pezzi di memoria quando un sito cambia mano o viene “parcheggiato”. (blog.archive.org)

E poi c’è la questione, delicatissima, della responsabilità pubblica: se un articolo sparisce o viene modificato, l’archivio è spesso l’unico specchio che permette di verificare cosa fosse stato detto. Se lo specchio si appanna, il fact checking diventa più costoso, più lento, più fragile.

Non è solo “editori contro IA”, è un cambio di stagione

Un altro segnale è che non si parla più soltanto di giornali. Reddit, per esempio, ha annunciato limitazioni all’accesso della Wayback Machine, sostenendo che aziende di IA abbiano usato l’archivio per raccogliere dati, e citando anche temi di privacy e contenuti rimossi. (The Verge)

E mentre alcuni bot rispettano i cartelli, altri, secondo diverse segnalazioni nel settore, li aggirano. Reuters ha riportato preoccupazioni su agenti IA che bypasserebbero lo standard robots.txt, aumentando la pressione verso blocchi “duri” e accordi commerciali. (Reuters)

Una via d’uscita che non distrugga la memoria

Se vogliamo salvare la tradizione migliore del web, quella delle biblioteche e non dei bunker, servono compromessi intelligenti:

Separare gli scopi dei crawler, in modo che un editore possa dire sì alla ricerca, no all’addestramento, e magari sì all’archiviazione pubblica. Cloudflare spinge molto su questa idea di “purpose separation”, specie nel caso dei crawler multiuso. (The Cloudflare Blog)
Accordi chiari tra archivi e editori, con regole trasparenti, limiti, audit, e magari finestre temporali. L’archivio come biblioteca con registri, non come magazzino senza custode.
Mercati di licensing sensati, dove chi crea contenuti venga pagato, senza trasformare ogni citazione in un pedaggio. Perché se tutto diventa a pagamento, vince solo chi ha già capitale, e il web torna feudale.

Domande frequenti

Internet Archive “ruba” contenuti?
In generale archivia pagine pubbliche per preservarle, ma il conflitto nasce quando quelle copie diventano sfruttabili come dataset o scorciatoie per aggirare restrizioni. (Nieman Lab)

La Wayback Machine smetterà di funzionare?
No, ma potrebbe risultare più “bucata” su alcuni domini importanti, proprio quelli che spesso servono per verifiche e ricerca storica. (Nieman Lab)

Robots.txt basta a proteggersi?
Spesso no: è un segnale, non una serratura. Per questo molti passano a blocchi tecnici lato server e CDN. (The Verge)

Perché questa stretta arriva adesso?
Perché i bot IA sono diventati un fattore economico: consumano contenuti, riducono traffico, cambiano il valore della distribuzione, e spingono verso modelli “a licenza”. (The Verge)

In fondo, la domanda non è se il web aperto stia chiudendo, ma che cosa stiamo chiamando “aperto”. Se aperto significa “senza regole”, la festa è finita. Se aperto significa “accessibile, verificabile, tramandabile”, allora siamo ancora in tempo, ma dobbiamo difendere la memoria come si difende un archivio comunale: con cura, regole chiare, e la consapevolezza che il passato, una volta perso, non lo ricostruisci con nessun prompt.

Hashtag: #InternetArchive #WaybackMachine #AIeGiornalismo #WebAperto

...

Il Web che si richiude: quando i giornali bloccano Internet Archive per fermare l’IA

DiRoberto Lambertini

La Wayback Machine era il nostro album di famiglia digitale, oggi rischia di diventare un salotto con la porta chiusa, per paura che l’intelligenza artificiale entri senza bussare.

Che cosa sta succedendo, in pratica

Il “web aperto” sta chiudendo davvero

Robots.txt, il cartello “non entrare”, e i buttafuori veri

Il paradosso di Internet Archive: salvare la storia, ma con quali regole

Non è solo “editori contro IA”, è un cambio di stagione

Una via d’uscita che non distrugga la memoria

Domande frequenti

Mi piace:

Di Roberto Lambertini

Articoli correlati

Dalla “For You” alla forchetta: come TikTok riscrive il nostro appetito

L’arte di farsi odiare in rete

“Top della spazzatura”: come riconoscere (e aggirare) i peggiori siti e profili social pieni di contenuti inutili

RispondiAnnulla risposta

You missed

Pre-workout: utile anche “durante” l’allenamento, o è solo marketing con la musica a tutto volume?

Il Web che si richiude: quando i giornali bloccano Internet Archive per fermare l’IA

Dimettere non è “mandare via”, quando la carenza di RSA blocca gli ospedali

Lassativi tutti i giorni, per mesi, per anni: perché può essere una cattiva idea