Negli ultimi mesi, l’evoluzione degli agenti AI basati su modelli linguistici di grandi dimensioni (LLM) sta generando crescente preoccupazione tra esperti di sicurezza informatica, ricercatori e istituzioni.
Questi agenti, inizialmente concepiti per automatizzare compiti semplici come prenotare una cena o organizzare una casella di posta, stanno rapidamente acquisendo autonomia operativa e capacità decisionali che vanno ben oltre la semplice assistenza digitale.
L’interconnessione tra agenti, il loro accesso a strumenti reali e la loro crescente capacità di auto-coordinamento li rende potenzialmente pericolosi in contesti critici, tra cui quello cibernetico.
Una delle dimostrazioni più concrete di questo rischio proviene da uno studio accademico dell’Università dell’Illinois, che ha mostrato come gruppi coordinati di agenti LLM siano in grado di individuare ed sfruttare vulnerabilità zero-day reali a rischio exploit.
Il sistema sperimentale proposto, denominato Hptsa (Hierarchical planning with teams of specialized agents), ha mostrato di superare scanner automatici e agenti singoli nel compromettere applicazioni web, senza disporre preventivamente delle descrizioni delle vulnerabilità.
Con una spesa computazionale contenuta e una struttura gerarchica, Hptsa ha raggiunto un tasso di successo significativo su 14 vulnerabilità, dimostrando che l’automazione di attacchi informatici tramite LLM non solo è possibile, ma anche economicamente vantaggiosa.
Questa scoperta è stata ripresa anche da analisi giornalistiche internazionali, che la inseriscono in un quadro più ampio di transizione verso sistemi agentici dotati di vera autonomia.
L’articolo del MIT Technology Review descrive come agenti come Operator (OpenAI), Manus (Butterfly Effect) e altri sistemi basati su LLM siano già in grado di operare su browser, generare codice, gestire account social e interagire con l’ambiente digitale senza supervisione continua.
La facilità con cui tali sistemi possono essere collegati a strumenti capaci di eseguire azioni reali (“tool use”) rappresenta uno dei punti critici: un LLM con accesso ad applicazioni bancarie, email o piattaforme di eCommerce può potenzialmente eseguire operazioni senza consenso esplicito dell’utente.
Il rischio non risiede solo nell’uso malevolo degli agenti da parte di attori ostili, ma anche nella possibilità che agenti apparentemente benigni possano interpretare in modo imprevisto gli obiettivi assegnati.
Il fenomeno del “reward hacking“, già osservato in sistemi AI più semplici, emerge anche in contesti più sofisticati.
Per esempio, un agente incaricato di massimizzare un punteggio in un videogioco ha scoperto che girare in tondo in una zona bonus era più efficace che completare il percorso.
In ambienti reali, analoghi comportamenti non previsti potrebbero generare conseguenze gravi.
A differenza di software tradizionali, gli agenti LLM agiscono sulla base di input in linguaggio naturale, spesso provenienti da fonti distribuite e non controllabili.
Questo rende difficile monitorare in modo continuo il loro stato interno, rilevare deviazioni comportamentali o prevedere escalation non intenzionali. Alcune proposte, come l’adozione di meccanismi di logging semantico e di tracciabilità conversazionale, stanno emergendo come soluzioni preliminari per garantire auditabilità, ma richiedono ancora standardizzazione e test approfonditi.
Un aspetto particolarmente critico è la vulnerabilità degli agenti LLM agli attacchi di prompt injection.
Questi attacchi consistono nell’indurre un agente, tramite input appositamente costruiti (in email, siti web o comandi indiretti), a eseguire istruzioni malevoli. Poiché gli agenti raccolgono dati testuali da molte fonti, non solo dal loro operatore diretto, risulta difficile difenderli completamente.
Alcuni esperimenti hanno mostrato che un semplice messaggio testuale può portare un agente a inviare dati sensibili o modificare il proprio comportamento.
Attualmente non esistono difese generaliste efficaci contro queste forme di manipolazione.
L’uso estensivo di agenti nei contesti militari, amministrativi e aziendali può alterare profondamente le dinamiche di potere.
Alcuni esperti avvertono che la sostituzione di personale umano con agenti AI potrebbe concentrare potere decisionale in mani ristrette, riducendo il ruolo di controllo e mediazione tradizionalmente svolto dalle persone.
A ciò si aggiunge il rischio che agenti obbedienti ma non trasparenti possano eseguire ordini senza contestualizzazione, contribuendo a decisioni automatizzate non supervisionabili.
In questo contesto, il tema della cyber sicurezza assume un ruolo ancora più centrale.
Gli agenti AI non sono solo potenziali strumenti offensivi, ma anche bersagli privilegiati.
La loro capacità di accedere a dati, eseguire codice e comunicare rende essenziale la protezione dell’intera filiera di deployment, dall’accesso ai tool al monitoraggio continuo dei comportamenti.
Alcune misure preventive, come l’autenticazione a più fattori o la segmentazione delle funzioni, possono mitigare il rischio, ma richiedono un cambiamento culturale e operativo da parte delle organizzazioni.
Il panorama delineato non è privo di soluzioni. Ricercatori e centri di eccellenza stanno lavorando a sistemi di guardrail computazionali per limitare l’autonomia degli agenti entro margini controllabili.
Tuttavia, la rapidità dello sviluppo tecnico rischia di superare quella normativa e infrastrutturale. Occorre, dunque, un approccio preventivo che combini ricerca, policy e sensibilizzazione, al fine di garantire che l’evoluzione degli agenti LLM non sfugga al controllo sociale e istituzionale.
Attualmente non esiste un quadro giuridico condiviso che disciplini in modo specifico l’autonomia decisionale degli agenti AI nei contesti digitali. Documenti come l’AI Act europeo, sebbene avanzati, faticano a tenere il passo con lo sviluppo di questi sistemi.
In mancanza di definizioni operative e responsabilità chiare, il rischio è quello di una “zona grigia” in cui azioni critiche vengono eseguite da entità non umane, senza che esista un responsabile formalmente identificabile.
Una risposta normativa tempestiva appare dunque fondamentale per preservare accountability e trasparenza nel ciclo decisionale.
Nel frattempo, appare necessario che enti pubblici e privati si dotino di strumenti di valutazione del rischio specificamente pensati per gli agenti LLM.
L’integrazione di questi strumenti nei processi di gestione della sicurezza informatica può rappresentare un primo passo per affrontare il nuovo scenario: uno in cui le minacce non provengono solo da hacker umani, ma anche da software in grado di apprendere, agire e adattarsi in tempo reale.