Negli ultimi anni l’idea che l’intelligenza artificiale possa contribuire in modo decisivo all’amministrazione della giustizia ha progressivamente abbandonato l’ambito della fantascienza per entrare nel discorso pubblico.
Sistemi di AI sono già utilizzati per il calcolo del rischio di recidiva, per l’allocazione delle risorse giudiziarie, per il supporto alle decisioni amministrative. Con l’avvento dei Large Language Models, questa ambizione si è ulteriormente ampliata andando oltre l’automazione procedurale, per arrivare all’interpretazione del diritto.
Avvocati, consulenti legali e talvolta magistrati sperimentano strumenti come ChatGPT per ottenere pareri preliminari, verificare la coerenza di un’argomentazione, sintetizzare orientamenti giurisprudenziali. Il linguaggio fluido e persuasivo dei LLM alimenta l’idea che la macchina “capisca” le norme, che possa maneggiare concetti giuridici complessi con una competenza quasi umana.
Recenti studi mettono radicalmente in discussione questa narrazione: gli autori non si limitano più a segnalare errori o allucinazioni occasionali, ma mostrano come i modelli falliscano sistematicamente nel compito più delicato del diritto, cioè quello di attribuire significato alle norme in modo coerente, stabile e condivisibile.
Il problema è l’illusione collettiva di una “giustizia computazionale” già pronta per l’uso. Un’illusione che rischia di produrre più danni che benefici se non viene esaminata e “smontata” con rigore.
Il primo risultato empirico degli studi citati è tanto semplice quanto preoccupante: piccole variazioni nella formulazione di un quesito giuridico generano risposte profondamente diverse, talvolta opposte. Si tratta di un comportamento ricorrente ed osservabile su più modelli e su diverse tipologie di problemi legali.
Dal punto di vista informatico, questo fenomeno è una conseguenza diretta dell’architettura dei LLM. Il modello non applica regole, non verifica premesse, non deduce conclusioni. Genera invece la risposta più probabile dato un certo input linguistico. Il prompting, in questo contesto è un vero e proprio atto di co-costruzione del risultato.
In diversi esperimenti, inoltre, gli LLM producono hallucinations legali, arrivando a inventare fatti o contenuti giurisprudenziali inesistenti. I benchmark dedicati al ragionamento giuridico evidenziano inoltre prestazioni disomogenee e spesso inferiori alle attese, con difficoltà nel collegare correttamente norme, fatti e conseguenze giuridiche. Anche l’integrazione con sistemi di retrieval migliora l’accuratezza informativa, ma non elimina i limiti nel giudizio e nel ragionamento, tanto che, in alcuni scenari, sistemi tradizionali di information retrieval risultano più affidabili della generazione automatica.
Nel loro insieme, questi risultati suggeriscono cautela nell’uso degli LLM come strumenti di supporto decisionale in ambito legale.
La certezza del diritto presuppone infatti che l’interpretazione non cambi arbitrariamente al variare della forma, bensì al mutare della sostanza. Se due domande semanticamente equivalenti portano a esiti incompatibili, il sistema è intrinsecamente instabile.
Gli studi mostrano come questa instabilità renda l’uso dei LLM nel ragionamento giuridico assimilabile a una scommessa poiché non esiste un criterio affidabile per stabilire quando la risposta sia il risultato di un’interpretazione coerente e quando sia invece il frutto di una deviazione statistica.
In un contesto normativo, dove l’uguaglianza di trattamento e la prevedibilità delle decisioni sono valori fondamentali, questi rischi e questa aleatorietà non sono accettabili.
Se l’instabilità è il sintomo, la causa va ricercata più in profondità. Il diritto è un sistema di significati condivisi che vive nella pratica sociale e non si riduce ad un insieme di frasi da completare. Interpretare una norma significa collocarla in un contesto di valori, finalità, consuetudini, aspettative reciproche.
I ricercatori evidenziano come gli LLM falliscano proprio su questo piano, in quanto non possiedono ciò che chiamiamo il senso comune giuridico, ovverossia la capacità, tipicamente umana, di comprendere non solo cosa dice una norma, ma perché lo dice e come deve essere applicata in situazioni concrete.
Gli esempi analizzati nelle ricerche mostrano modelli che oscillano tra interpretazioni eccessivamente letterali e costruzioni concettuali artificiose, incapaci di cogliere la ratio legis. Si tratta di un limite strutturale: il modello, infatti, non vive nel mondo regolato dalle norme che interpreta, non subisce le conseguenze sociali delle sue decisioni e non partecipa alla comunità interpretativa che dà senso al diritto.
In assenza di questo ancoraggio, l’interpretazione diventa un esercizio puramente linguistico. Formalmente elegante, talvolta persuasivo, ma privo di quella profondità semantica che rende il diritto uno strumento di regolazione sociale e non un gioco retorico.
Uno degli errori più diffusi nel dibattito pubblico è l’idea che il problema possa essere risolto semplicemente “addestrando meglio” i modelli esistenti. Gli studi suggeriscono invece che il limite sia più radicale e riguardi la natura stessa dei modelli generalisti.
Gli LLM di uso comune sono progettati per essere versatili, adattabili, capaci di passare da un dominio all’altro senza soluzione di continuità. Questa flessibilità, però, entra in conflitto con le esigenze del diritto, che richiede specializzazione, gerarchia delle fonti, coerenza interna.
A ciò si aggiunge un problema spesso trascurato: il bias sistemico verso il diritto anglosassone. La maggior parte dei testi giuridici disponibili online e utilizzati per l’addestramento proviene da ordinamenti di common law. Applicare questi modelli al contesto europeo significa importare categorie concettuali, approcci interpretativi e presupposti culturali che non coincidono con quelli del civil law.
Il risultato è un’IA che appare competente, ma che in realtà opera in un ordinamento giuridico “ibrido”, privo di una collocazione normativa chiara. Va da sé poi che il rischio aumenti esponenzialmente quando questi strumenti vengono utilizzati in contesti professionali o istituzionali.
Il valore più interessante delle ricerche sull’IA legale sta nel superare la critica fine a sé stessa e nell’indicare una possibile via d’uscita, partendo dal presupposto che se l’IA deve essere utilizzata nel diritto, deve farlo a condizioni ben diverse da quelle attuali.
In primo luogo, è necessario sviluppare modelli verticali, addestrati su corpus giuridici selezionati, verificati e rappresentativi di uno specifico ordinamento. Anziché modelli universali, servono strumenti specialistici, progettati per un uso circoscritto e controllabile.
In secondo luogo, occorre definire standard di valutazione nuovi, che vadano oltre l’accuratezza puntuale. Gli studi suggeriscono benchmark di stabilità: ad esempio, un’IA giuridica dovrebbe dimostrare di produrre risultati coerenti su insiemi di prompt semanticamente equivalenti. Senza questa verifica, ogni pretesa di affidabilità resta infondata.
Infine, va ribadito il ruolo centrale dell’esperto umano. L’IA deve supportare il giurista senza sostituirlo e questo implica responsabilità chiare, processi di validazione e la consapevolezza che la decisione finale non può essere delegata a un sistema probabilistico.
A ben vedere, l’argomento dell’“instabilità” non dovrebbe essere letto solo in chiave tecnologica.
Anche il giudizio umano, nella pratica quotidiana dell’amministrazione della giustizia, non è immune da forme di instabilità. Stanchezza, sovraccarico di lavoro, pressione sui tempi, carenze organizzative o, più semplicemente, livelli disomogenei di competenza possono incidere sulla qualità dell’interpretazione e della decisione.
È una realtà raramente esplicitata nel dibattito pubblico, ma ben nota a chi opera nel sistema: provvedimenti frettolosi, motivazioni stereotipate, richiami giurisprudenziali meccanici sono effetti prevedibili di un apparato sotto stress. E le conseguenze di questa sciatteria decisionale (perché di questo talvolta si tratta) ricadono direttamente sulla vita dei destinatari dei provvedimenti.
In questa prospettiva, un’IA giuridica progettata correttamente potrebbe svolgere una funzione controintuitiva ma preziosa, imponendo una disciplina argomentativa minima, segnalando incoerenze, richiamando passaggi logici mancanti, rendendo più difficile l’adozione di decisioni approssimative.
Insomma, lo stesso strumento oggi messo alla sbarra per la sua instabilità potrebbe, se adeguatamente standardizzato e confinato a un ruolo di supporto, contribuire a ridurre quella instabilità “umana” che nessun ordinamento riesce ad eliminare.
Nel contesto europeo, queste riflessioni assumono un peso normativo immediato.
L’AI Act qualifica i sistemi utilizzati nell’amministrazione della giustizia come ad alto rischio, imponendo requisiti stringenti in termini di affidabilità, robustezza, trasparenza e controllo umano.
L’instabilità documentata dai ricercatori rappresenta un ostacolo diretto al rispetto di tali requisiti, in quanto un sistema che produce esiti divergenti a parità di condizioni non può garantire la tutela dei diritti fondamentali né la non discriminazione.
In questo senso, gli studi anticipano che senza un ripensamento profondo dei modelli e degli standard, molte applicazioni di IA legale, oltre ad illegittime sul piano etico, non saranno conformi sul piano regolatorio.
L’analisi dell’instabilità degli LLM nel ragionamento giuridico conduce a una conclusione chiara, anche se scomoda: l’interpretazione della legge non può essere affrontata con una mole maggiore di dati o modelli sempre più grandi.
Il diritto è infatti un fenomeno sociale prima che linguistico e richiede comprensione del contesto, responsabilità, capacità di bilanciare valori in conflitto. Tutti elementi che, allo stato attuale, restano fuori dalla portata dei sistemi generativi.
Senza rinunciare all’innovazione, occorre piuttosto collocarla entro limiti realistici.
L’IA può diventare uno strumento potente al servizio del giurista se si rinuncia alla pretesa di sostituirlo e si riesce a farla operare sotto standard di stabilità, trasparenza e controllo umano rigorosi.
Fino ad allora, la “giustizia computazionale” resterà un’espressione suggestiva, mentre il diritto, quello vero, continuerà a dover essere interpretato da esseri umani.