Anna’s Archive non è Pirateria, è la Raffineria dell’AI, tramite riciclaggio

Anna’s Archive non è un’operazione di pirateria romantica, ma un’infrastruttura industriale per il “Data Laundering”. Questo archivio gigantesco non serve tanto a chi scarica un singolo libro, quanto alle Big Tech che, dietro la facciata dell’attivismo, acquisiscono legalmente dataset immensi e di alta qualità per addestrare le proprie Intelligenze Artificiali, privatizzando di fatto la conoscenza collettiva e minacciando la classe media creativa.

Se pensate che la pirateria sia ancora una questione di ragazzini che scaricano un MP3 per non pagare il CD, siete rimasti al Web 1.0, e forse è il caso che qualcuno vi aggiorni. Quello che sta accadendo con Anna’s Archive non è la favola del “Robin Hood digitale” che ruba ai ricchi editori per dare al povero studente. È la cronaca di un’infrastruttura industriale che sta alimentando, dietro lauti pagamenti, la più grande e affamata rivoluzione tecnologica del nostro secolo: l’Intelligenza Artificiale.

Ho guardato i numeri. E, da addetto ai lavori, fanno una certa impressione.

L’anatomia del Leviatano digitale

Parliamoci chiaro: Anna’s Archive non è un sito, è un meta-motore di ricerca per le cosiddette Shadow Libraries, le biblioteche ombra. È un Giano Bifronte: da un lato offre “accesso alla conoscenza”, dall’altro cataloga e rende disponibile per il download massivo il più grande corpus di cultura umana mai assemblato. E quando dico grande, intendo cifre che sfidano l’immaginazione.

Il “colpo” a Spotify: Parliamo di circa 300 Terabyte di dati audio e metadati. Non sono semplici canzoni, sono 86 milioni di tracce audio (il 99.6% di tutto ciò che viene ascoltato sulla piattaforma) e i metadati di 256 milioni di brani. Un dataset perfettamente pulito, etichettato e pronto per essere dato in pasto a modelli generativi audio come Suno o Udio.
Le biblioteche: C’è Library Genesis (LibGen), con i suoi 208 TB e oltre 16 milioni di file, praticamente ogni libro mai digitalizzato. C’è il gigante cinese DuXiu, spesso ignorato in occidente, con 206 TB di scansioni di libri e documenti accademici. E poi Z-Library con altri 97 TB.
La scienza: E come dimenticare Sci-Hub, il tempio della conoscenza scientifica “liberata”, con quasi 100 TB che raccolgono circa 90 milioni di paper scientifici.

Il totale? Superiamo abbondantemente gli 800 Terabyte di dati. Quasi un Petabyte di cultura, arte e scienza umana. “Liberata”, si dice. Ma la vera domanda è: liberata per chi?

Il vero business: il “Data Laundering” per l’AI

Ecco il punto che, intellettualmente, mi disturba di più. Il problema non è il singolo utente che scarica il PDF perché la sua università non fornisce l’accesso. Quello è il dito. La luna è il meccanismo quasi industriale di “Data Laundering”, il riciclaggio di dati per le grandi aziende tecnologiche.

Le corporation che sviluppano AI (da OpenAI a Meta, da Anthropic a Google) hanno una fame insaziabile di dati di alta qualità. Se provassero a licenziare legalmente questa mole di informazioni, i costi sarebbero astronomici e le cause per violazione del copyright li seppellirebbero. Qui Anna’s Archive offre una soluzione geniale, quasi un gioco di prestigio legale.

Il meccanismo è subdolo e funziona su tre livelli:

Lo Scudo dell’Attivismo: Il progetto si ammanta di una nobile missione di “preservazione della cultura”. Questo crea una zona grigia morale e legale. Non sono pirati, sono “archivisti”.
La Donazione “Premium”: Ufficialmente, l’accesso è gratuito. Ma se sei un’azienda e hai bisogno di scaricare centinaia di Terabyte in modo rapido, efficiente e senza bloccare i server pubblici, esiste, guarda caso, un canale preferenziale per “donatori di alto livello”. Si parla di donazioni a cinque o sei zeri.
Il Lavaggio Giuridico: L’azienda X, a questo punto, non sta “scaricando materiale pirata”. Sta “acquisendo un dataset di ricerca da un archivio no-profit per la preservazione culturale”. Di fronte a un tribunale, la differenza è abissale. Anna’s Archive, gestita da anonimi, si assume il rischio legale della violazione del copyright, mentre l’azienda AI ottiene il modello addestrato, “pulito” e pronto per essere monetizzato. È la quintessenza della plausible deniability.

Le implicazioni nascoste: molto oltre il diritto d’autore

Questa operazione, che potremmo definire una forma di capitalismo di sorveglianza applicato alla pirateria, solleva questioni etiche che vanno ben oltre il semplice furto di proprietà intellettuale.

Primo, il paradosso della cultura libera a pagamento. Anna’s Archive sta di fatto monetizzando, tramite l’accesso prioritario, il rischio e il lavoro (spesso volontario) di migliaia di persone che per anni hanno scansionato e condiviso questi materiali.

Secondo, l’asimmetria geopolitica. Mentre le aziende occidentali si muovono con cautela, usando questi dati ma negandolo pubblicamente, le controparti cinesi, protette da leggi sul copyright molto più permissive per il training di AI, attingono a piene mani da questi archivi (specialmente da DuXiu e Sci-Hub) per colmare il gap tecnologico.

Infine, e questo è il punto più doloroso, la morte dell’artista medio. Il leak di Spotify è devastante non per Taylor Swift, ma per la “classe media” dei musicisti. Se un’intelligenza artificiale può generare musica indistinguibile dalla tua perché ha “ascoltato” e digerito l’intera tua discografia (ottenuta gratis tramite un archivio pirata), il tuo valore sul mercato crolla a zero. Non competi più con altri esseri umani, competi con un software che ha divorato la tua arte per poi replicarla all’infinito a costo marginale zero.

Conclusione: il dono avvelenato

Anna’s Archive non è una biblioteca. È una raffineria di petrolio per il motore dell’era dell’AI. È la manifestazione del peccato originale su cui si fonda gran parte della rivoluzione AI attuale: l’appropriazione non autorizzata della conoscenza e della creatività collettiva per alimentare algoritmi proprietari.

Noi guardiamo il dito, il download del singolo libro, e non vediamo la luna: la più grande privatizzazione del sapere umano mai avvenuta, operata non da uno stato ma da un pugno di aziende private. Loro dicono: “Preserviamo la conoscenza”. La realtà è: “Stiamo creando il mangime più economico possibile per le Intelligenze Artificiali che un giorno, forse, vi sostituiranno”.

E la cosa più triste? È che probabilmente, alla fine, li ringrazieremo pure, perché l’AI che useremo ogni giorno funzionerà magnificamente.

Sulu, ci porti fuori di qui. Ma per favore, la prossima volta controlliamo bene cosa abbiamo caricato nella stiva.