L’intelligenza artificiale sta già modificando il lavoro degli attaccanti, ma non nel modo “cinematografico” a cui alcuni, spesso non addetti ai lavori, già pensano.
Il cambiamento più concreto, oggi, è la scalabilità: più campagne, più veloci, più convincenti.
Ciò detto è rilevante dal punto di vista tecnico una novità che merita un’analisi più approfondita, per capire se e quanto c’è da preoccuparsi.
Ossia i primi casi documentati di malware e campagne operative che interrogano modelli linguistici durante l’esecuzione, e di agentic AI usata per orchestrare fasi intere di intrusione.
No, non c’è ancora il super-attaccante artificiale autonomo (secondo alcuni costerebbe miliardi di dollari con le attuali tecniche). Ma è bene capire quali componenti tecniche si stanno consolidando e quando diventano replicabili da gruppi non statali o da criminalità organizzata.
La svolta “just-in-time”: malware che usa l’LLM in tempo reale
Nel report “AI Threat Tracker” pubblicato a novembre 2025 e poi aggiornato qualche giorno fa, Google Threat Intelligence Group (gtig) parla esplicitamente di “nuova fase operativa” dell’abuso di AI: gli avversari non usano più i modelli solo come supporto (scrivere script, tradurre, fare ricerca), ma integrano l’AI nel malware, chiamandola per generare comandi, offuscare codice, cambiare comportamento.
È qui che la soglia di rischio si alza: se il codice malevolo non è più “impacchettato” e statico, ma si compone al momento, i controlli basati su firme e indicatori ripetibili perdono efficacia.
E si sposta l’attenzione su telemetria, egress, abusi di API e pattern comportamentali.
Tra i casi più istruttivi descritti da gtig c’è PromptFlux, un dropper in VBScript che usa l’API di Gemini per rigenerare il proprio sorgente.
Il meccanismo, nelle descrizioni del report, è quasi didattico: il malware chiede al modello di riscrivere e offuscare il codice, poi salva la nuova versione nella cartella di startup per persistenza e tenta anche di propagarsi su drive rimovibili e share di rete.
Il dettaglio tecnico che conta è l’idea “metamorfica” guidata da LLM: gtig descrive un modulo (“Thinking Robot”) progettato per interrogare periodicamente Gemini e ottenere nuovo codice di evasione antivirus, usando persino il tag di modello “gemini-1.5-flash-latest” per restare agganciato alla release stabile più recente.
Le risposte vengono loggate in un file temporaneo (indicazione utile per detection), e il codice mostra funzioni pensate per auto-aggiornarsi anche se alcune risultano commentate o incomplete, segno di sviluppo o test.
gtig sottolinea anche un punto che spesso si perde: PromptFlux, nello stato osservato, non dimostra ancora capacità “complete” di compromissione, ma è un indicatore di direzione: offuscamento e rigenerazione dinamica per eludere detection statiche.
Ancora più interessante, perché già visto in operazioni, è PromptSteal (noto anche come LAMEHUG nei report ucraini): un data miner attribuito a un attore governativo russo (APT28/FROZENLAKE) che interroga un LLM per farsi generare comandi di sistema, invece di inserirli staticamente nel codice (“hardcoded”).
Secondo gtig, il malware usa Qwen2.5-Coder-32B-Instruct via API di Hugging Face per produrre one-liner Windows, poi li esegue localmente e invia i risultati a un server controllato dall’avversario.
Qui la componente “ai” non è decorativa: il report evidenzia che PromptSteal maschera la propria funzione come programma di “image generation”, mentre in background usa prompt mirati per ottenere comandi di raccolta informazioni e copia documenti.
L’ipotesi è che sfrutti token API rubati; e i campioni mostrano evoluzioni (più offuscamento, cambio del metodo di c2), segnale di un filone in sviluppo attivo.
Nella stessa panoramica, gtig cita QuietVault, un infostealer in JavaScript focalizzato su token GitHub e npm, con un tratto anomalo: usa prompt e strumenti di AI cli presenti sull’host per cercare ulteriori segreti e poi esfiltrarli tramite la creazione di un repository GitHub pubblico.
C’è poi FruitShell, una reverse shell PowerShell che, secondo la tabella del report, contiene prompt hardcoded pensati per aggirare rilevamenti o analisi basate su LLM: un promemoria utile per i difensori che stanno introducendo controlli “AI-driven” senza considerare che gli attaccanti possono iniziare a progettare malware “contro” quei controlli.
gtig dedica spazio anche a un pattern che sta diventando standard: gli attori malevoli adottano pretesti “social engineering” per convincere i modelli a restituire informazioni bloccate.
Un esempio citato è l’uso della narrativa capture-the-flag per ottenere indicazioni utili su vulnerabilità e sfruttamento dopo un primo rifiuto del modello.
Non è un dettaglio folkloristico: dice che i controlli basati solo su “keyword” o intent superficiale sono fragili, e che la linea tra richiesta legittima e uso offensivo può essere aggirata con contesto costruito bene.
Il salto più netto, lato intrusione, è descritto nel report di Anthropic su GTG-1002 (novembre 2025): un’operazione di spionaggio attribuita con “high confidence” a un gruppo cinese, con circa 30 entità nel mirino e alcune intrusioni confermate.
La parte che interessa davvero chi fa difesa è l’architettura operativa: Anthropic descrive un framework che usa Claude Code e strumenti standard integrati via Model Context Protocol (mcp), con istanze del modello organizzate in gruppi come “penetration testing orchestrators and agents”.
L’AI avrebbe eseguito l’80–90% del lavoro tattico a ritmi incompatibili con un operatore umano (migliaia di richieste, più operazioni al secondo), mentre gli umani restano su selezione target e autorizzazioni ai punti di escalation.
Anthropic spezza la campagna in fasi e task: ricognizione e mappatura superficie d’attacco, analisi vulnerabilità, sviluppo exploit con validazione via callback, delivery e foothold, poi credential harvesting, lateral movement, raccolta ed estrazione dati.
In diversi passaggi l’umano interviene solo il passaggio da recon a exploit, autorizza l’uso di credenziali sensibili, decide l’ampiezza dell’esfiltrazione.
Due elementi tecnici meritano di restare in evidenza.
Il primo è la “tattica del frazionamento”: Anthropic spiega che il framework scompone attacchi complessi in task discreti (scan, validazione credenziali, estrazione dati), ciascuno “legittimo” se valutato da solo.
E li presenta al modello con prompt e “personas” costruite per ottenere esecuzione senza far emergere il contesto malevolo complessivo.
Il secondo è la scelta di strumenti “commodity”: l’infrastruttura, dice Anthropic, si basa “overwhelmingly” su tool open source di pentest (scanner di rete, framework per database exploitation, password cracker, binary analysis), orchestrati da server mcp che permettono esecuzione remota comandi, browser automation per recon web, integrazione di testing framework e canali di callback per conferma exploitation.
L’innovazione non è la singola tecnica offensiva, ma l’integrazione che rende l’operazione scalabile.
C’è anche un limite concreto, utile per ridimensionare il rischio senza negarlo: Anthropic nota che il modello sovrastima spesso i risultati e talvolta fabbrica dati, ad esempio credenziali “ottenute” che poi non funzionano o scoperte presentate come critiche ma già pubbliche.
Questo costringe l’attore a verifiche: ostacolo all’autonomia totale.
Sul fronte ransomware, il lavoro della NYU Tandon School of Engineering formalizza un modello di attacco che si incastra bene con quanto osservato da gtig: il binario non contiene payload statici, ma set di prompt; il codice malevolo viene sintetizzato a runtime dal modello, producendo varianti polimorfiche e adattate all’ambiente.
L’architettura è organizzata in quattro fasi – Reconnaissance, Leverage, Launch, Notify – e in tre tipi di task (coding, validation, analysis) governati da template di system prompt.
Il prototipo (ancora da laboratorio e non ritrovato in the wild) genera ed esegue script in Lua e lo fa dentro un interprete embedded, in-memory, senza necessariamente scrivere codice su disco: una scelta motivata dagli autori con footprint ridotto e portabilità (un binario intorno ai 10 MB).
C’è anche un elemento operativo che interessa i difensori: l’interfaccia verso il modello è descritta come endpoint API compatibile OpenAI, quindi agganciabile a backend diversi (self-hosted o servizi commerciali).
E gli autori spiegano perché, nei test, privilegiano modelli open source: i provider cloud applicano policy che bloccano richieste legate ad artefatti ransomware e possono arrivare a revoca di chiavi o account; i modelli open riducono la barriera d’ingresso per l’attaccante.
Sul piano dei payload, il prototipo implementa tre opzioni core: encrypt, exfiltrate, destroy.
Per la cifratura usa SPECK-128 in ECB, scelto perché “leggero” e più facile da implementare per un LLM in Lua; l’esfiltrazione usa I/O file e upload HTTP; la distruzione fa overwrite multipli e cancellazione.
Nei risultati sperimentali, il paper riporta tassi di successo elevati nella pipeline e mostra due aspetti che contano per la difesa.
Primo: la polimorfia naturale (nessuna generazione identica tra run, anche a prompt invariati), che complica detection basata su firme.
Secondo: la superficie di rilevamento si sposta perché l’attacco può lasciare un’impronta “leggera”: in un case study con sandbox e telemetria (HPC, syscalls, disco, rete) gli autori osservano assenza di segnali classici di ransomware (niente picchi evidenti di CPU o disk I/O; traffico di rete correlato alle chiamate al modello ma con banda contenuta).
C’è infine un paradosso utile: anche quando il modello rifiuta una richiesta per policy (ad esempio estrazione di contenuti potenzialmente sensibili), la pipeline può comunque proseguire su cifratura o altre azioni.
Questo rende i “refusal” un freno parziale, non una cintura di sicurezza completa.
Nel report successivo di gtig (febbraio 2026) entra un tema meno “cyber classico” ma strategico: model extraction e distillation come forma di furto di proprietà intellettuale e di capacità, con campagne su larga scala per forzare output di reasoning e trasferirli in modelli “student”.
Gli attacchi di estrazione di modelli (MEA) si verificano quando un avversario utilizza un accesso legittimo per sondare sistematicamente un modello di machine learning maturo al fine di estrarre informazioni utilizzate per addestrare un nuovo modello. Gli avversari che si dedicano agli MEA utilizzano una tecnica chiamata distillazione della conoscenza (KD) per prendere le informazioni raccolte da un modello e trasferire la conoscenza a un altro. Per questo motivo, gli MEA sono spesso definiti “attacchi di distillazione”.
L’estrazione del modello e la successiva distillazione della conoscenza consentono a un aggressore di accelerare lo sviluppo del modello di IA in modo rapido e a un costo notevolmente inferiore. Questa attività rappresenta effettivamente una forma di furto di proprietà intellettuale (IP).
La distillazione della conoscenza (KD) è una tecnica comune di apprendimento automatico utilizzata per addestrare modelli “studenti” da modelli “insegnanti” preesistenti. Ciò comporta spesso l’interrogazione del modello insegnante per problemi in un dominio particolare, quindi l’esecuzione di una messa a punto supervisionata (SFT) sul risultato o l’utilizzo del risultato in altre procedure di addestramento del modello per produrre il modello studente.
“Esistono usi legittimi della distillazione e Google Cloud offre già servizi per eseguire la distillazione. Tuttavia, la distillazione dai modelli Gemini di Google senza autorizzazione costituisce una violazione dei nostri Termini di servizio e Google continua a sviluppare tecniche per rilevare e mitigare questi tentativi”.
“Sebbene non abbiamo osservato attacchi diretti a modelli all’avanguardia o prodotti di IA generativa da parte di attori APT (Advanced Persistent Threat), abbiamo osservato e mitigato frequenti attacchi di estrazione di modelli da parte di entità del settore privato in tutto il mondo e di ricercatori che cercavano di clonare la logica proprietaria”, si legge nel report.
Google cita un caso con oltre 100.000 prompt e descrive mitigazioni lato provider (monitoring pattern di query, difese in tempo reale per degradare l’efficacia della distillazione).
Per l’utente finale medio il rischio è indiretto; per chi sviluppa o eroga modelli e agenti, è già una superficie d’attacco.
Ci sono tre segnali che possono fare preoccupare.
Il primo è la normalizzazione del just-in-time: malware che interroga LLM durante l’esecuzione per generare comandi, offuscare o rigenerarsi, come nei filoni PromptFlux e PromptSteal.
Il secondo è l’integrazione “agentica” con strumenti: il caso Anthropic mostra che, con connettori tipo mcp e tool commodity, l’AI può fare da esecutore operativo e comprimere tempi e costi di campagne di spionaggio.
Quando questo modello viene “prodottizzato” e portato nei mercati underground, aumenta la probabilità che attori meno sofisticati replichino workflow da APT.
Il terzo è l’emergere di payload che riducono l’impronta e puntano su pochi file “ad alto valore”, spostando la detection su accesso a file sensibili, controllo dell’egress e osservazione delle chiamate verso endpoint LLM.
È una delle implicazioni centrali del prototipo NYU.
Attenzione però, “c’è molta differenza fra quello che viene presentato come realizzabile nei laboratori e quello che poi sarà diffuso realmente”, nota Claudio Telmon, noto esperto cyber, per P4I.
“Detto questo, sono temi che di fatto sono rilevanti per chi produce strumenti di rilevazione e analisi”, aggiunge.
“La singola azienda nella maggior parte dei casi si limiterà ad aspettarsi che gli strumenti antimalware rilevino più o meno bene anche queste tipologie”.
“Malware metamorfici esistono da tempo, posso immaginare che i produttori di antimalware troveranno il modo di riconoscere pattern di struttura o di comportamento anche per questi”.
“Più interessante – nota Telmon – invece l’utilizzo di strumenti di automazione, che porteranno probabilmente ad un aumento ulteriore di numerosità degli attacchi, ma anche a un AI slop nelle attività di attacco”.
La pesca a strascico funziona sempre e farà forse ancora più danni per via dell’AI.
Non bisogna mai dimenticarlo, quando si analizzano le frontiere tecniche più sofisticate dei malware.