Malware con AI: ma quanto c’è da preoccuparsi? Facciamo chiarezza

Malware con AI: ma quanto c’è da preoccuparsi? Facciamo chiarezza
好的，我现在要帮用户总结一篇文章的内容，控制在100字以内。首先，我需要仔细阅读用户提供的文章内容，理解其主要观点和关键信息。文章主要讨论了人工智能（AI）在网络安全领域的应用，特别是恶意软件和网络攻击方面。文中提到了一些具体的案例，比如PromptFlux、PromptSteal、QuietVault和FruitShell，这些恶意软件利用了AI模型来生成代码、隐藏行为以及绕过安全检测。此外，文章还讨论了AI在攻击中的集成使用，如通过模型上下文协议（mcp）和开源工具来协调攻击活动，以及AI在勒索软件中的应用，如动态生成有效载荷。接下来，我需要将这些关键点浓缩到100字以内。要确保涵盖AI在恶意软件中的具体应用、案例名称、攻击手段的变化以及对未来的潜在影响。同时，语言要简洁明了，避免使用过于专业的术语。最后，检查字数是否符合要求，并确保内容准确传达文章的核心信息。 </think> 人工智能正在改变网络攻击方式，恶意软件利用大型语言模型动态生成代码、隐藏行为并绕过检测。案例包括PromptFlux通过Gemini生成变种代码、PromptSteal使用API生成系统命令、QuietVault利用AI工具窃取敏感信息等。攻击者还整合开源工具和AI代理协调复杂入侵活动。这些技术使网络威胁更具动态性和隐蔽性。 2026-2-13 12:18:12 Author: www.cybersecurity360.it(查看原文) 阅读量:6 收藏

L’intelligenza artificiale sta già modificando il lavoro degli attaccanti, ma non nel modo “cinematografico” a cui alcuni, spesso non addetti ai lavori, già pensano.

Il cambiamento più concreto, oggi, è la scalabilità: più campagne, più veloci, più convincenti.

Ciò detto è rilevante dal punto di vista tecnico una novità che merita un’analisi più approfondita, per capire se e quanto c’è da preoccuparsi.

Ossia i primi casi documentati di malware e campagne operative che interrogano modelli linguistici durante l’esecuzione, e di agentic AI usata per orchestrare fasi intere di intrusione.

No, non c’è ancora il super-attaccante artificiale autonomo (secondo alcuni costerebbe miliardi di dollari con le attuali tecniche). Ma è bene capire quali componenti tecniche si stanno consolidando e quando diventano replicabili da gruppi non statali o da criminalità organizzata.

AI e attacchi cyber: la svolta just-in-time nel malware

La svolta “just-in-time”: malware che usa l’LLM in tempo reale

Nel report “AI Threat Tracker” pubblicato a novembre 2025 e poi aggiornato qualche giorno fa, Google Threat Intelligence Group (gtig) parla esplicitamente di “nuova fase operativa” dell’abuso di AI: gli avversari non usano più i modelli solo come supporto (scrivere script, tradurre, fare ricerca), ma integrano l’AI nel malware, chiamandola per generare comandi, offuscare codice, cambiare comportamento.

È qui che la soglia di rischio si alza: se il codice malevolo non è più “impacchettato” e statico, ma si compone al momento, i controlli basati su firme e indicatori ripetibili perdono efficacia.

E si sposta l’attenzione su telemetria, egress, abusi di API e pattern comportamentali.

PromptFlux e la metamorfosi del codice guidata da LLM

Tra i casi più istruttivi descritti da gtig c’è PromptFlux, un dropper in VBScript che usa l’API di Gemini per rigenerare il proprio sorgente.

Il dropper VBScript che si riscrive via Gemini

Il meccanismo, nelle descrizioni del report, è quasi didattico: il malware chiede al modello di riscrivere e offuscare il codice, poi salva la nuova versione nella cartella di startup per persistenza e tenta anche di propagarsi su drive rimovibili e share di rete.

Il dettaglio tecnico che conta è l’idea “metamorfica” guidata da LLM: gtig descrive un modulo (“Thinking Robot”) progettato per interrogare periodicamente Gemini e ottenere nuovo codice di evasione antivirus, usando persino il tag di modello “gemini-1.5-flash-latest” per restare agganciato alla release stabile più recente.

Le risposte vengono loggate in un file temporaneo (indicazione utile per detection), e il codice mostra funzioni pensate per auto-aggiornarsi anche se alcune risultano commentate o incomplete, segno di sviluppo o test.

gtig sottolinea anche un punto che spesso si perde: PromptFlux, nello stato osservato, non dimostra ancora capacità “complete” di compromissione, ma è un indicatore di direzione: offuscamento e rigenerazione dinamica per eludere detection statiche.

AI e attacchi cyber: comandi generati al volo e token rubati

Ancora più interessante, perché già visto in operazioni, è PromptSteal (noto anche come LAMEHUG nei report ucraini): un data miner attribuito a un attore governativo russo (APT28/FROZENLAKE) che interroga un LLM per farsi generare comandi di sistema, invece di inserirli staticamente nel codice (“hardcoded”).

PromptSteal e l’esecuzione “alla cieca” di one-liner Windows

Secondo gtig, il malware usa Qwen2.5-Coder-32B-Instruct via API di Hugging Face per produrre one-liner Windows, poi li esegue localmente e invia i risultati a un server controllato dall’avversario.

Qui la componente “ai” non è decorativa: il report evidenzia che PromptSteal maschera la propria funzione come programma di “image generation”, mentre in background usa prompt mirati per ottenere comandi di raccolta informazioni e copia documenti.

L’ipotesi è che sfrutti token API rubati; e i campioni mostrano evoluzioni (più offuscamento, cambio del metodo di c2), segnale di un filone in sviluppo attivo.

QuietVault e FruitShell: prompt hardcoded e furto di segreti

Nella stessa panoramica, gtig cita QuietVault, un infostealer in JavaScript focalizzato su token GitHub e npm, con un tratto anomalo: usa prompt e strumenti di AI cli presenti sull’host per cercare ulteriori segreti e poi esfiltrarli tramite la creazione di un repository GitHub pubblico.

C’è poi FruitShell, una reverse shell PowerShell che, secondo la tabella del report, contiene prompt hardcoded pensati per aggirare rilevamenti o analisi basate su LLM: un promemoria utile per i difensori che stanno introducendo controlli “AI-driven” senza considerare che gli attaccanti possono iniziare a progettare malware “contro” quei controlli.

I bypass dei guardrail e i pretesti credibili

gtig dedica spazio anche a un pattern che sta diventando standard: gli attori malevoli adottano pretesti “social engineering” per convincere i modelli a restituire informazioni bloccate.

Un esempio citato è l’uso della narrativa capture-the-flag per ottenere indicazioni utili su vulnerabilità e sfruttamento dopo un primo rifiuto del modello.

Non è un dettaglio folkloristico: dice che i controlli basati solo su “keyword” o intent superficiale sono fragili, e che la linea tra richiesta legittima e uso offensivo può essere aggirata con contesto costruito bene.

La campagna GTG-1002 e l’orchestrazione agentica con tool commodity

Il salto più netto, lato intrusione, è descritto nel report di Anthropic su GTG-1002 (novembre 2025): un’operazione di spionaggio attribuita con “high confidence” a un gruppo cinese, con circa 30 entità nel mirino e alcune intrusioni confermate.

Framework, mcp e task scomposti in fasi operative

La parte che interessa davvero chi fa difesa è l’architettura operativa: Anthropic descrive un framework che usa Claude Code e strumenti standard integrati via Model Context Protocol (mcp), con istanze del modello organizzate in gruppi come “penetration testing orchestrators and agents”.

L’AI avrebbe eseguito l’80–90% del lavoro tattico a ritmi incompatibili con un operatore umano (migliaia di richieste, più operazioni al secondo), mentre gli umani restano su selezione target e autorizzazioni ai punti di escalation.

Anthropic spezza la campagna in fasi e task: ricognizione e mappatura superficie d’attacco, analisi vulnerabilità, sviluppo exploit con validazione via callback, delivery e foothold, poi credential harvesting, lateral movement, raccolta ed estrazione dati.

In diversi passaggi l’umano interviene solo il passaggio da recon a exploit, autorizza l’uso di credenziali sensibili, decide l’ampiezza dell’esfiltrazione.

Due elementi tecnici meritano di restare in evidenza.

Il primo è la “tattica del frazionamento”: Anthropic spiega che il framework scompone attacchi complessi in task discreti (scan, validazione credenziali, estrazione dati), ciascuno “legittimo” se valutato da solo.

E li presenta al modello con prompt e “personas” costruite per ottenere esecuzione senza far emergere il contesto malevolo complessivo.

Il secondo è la scelta di strumenti “commodity”: l’infrastruttura, dice Anthropic, si basa “overwhelmingly” su tool open source di pentest (scanner di rete, framework per database exploitation, password cracker, binary analysis), orchestrati da server mcp che permettono esecuzione remota comandi, browser automation per recon web, integrazione di testing framework e canali di callback per conferma exploitation.

L’innovazione non è la singola tecnica offensiva, ma l’integrazione che rende l’operazione scalabile.

C’è anche un limite concreto, utile per ridimensionare il rischio senza negarlo: Anthropic nota che il modello sovrastima spesso i risultati e talvolta fabbrica dati, ad esempio credenziali “ottenute” che poi non funzionano o scoperte presentate come critiche ma già pubbliche.

Questo costringe l’attore a verifiche: ostacolo all’autonomia totale.

AI e attacchi cyber: dal ransomware auto-composing alla distillazione

Sul fronte ransomware, il lavoro della NYU Tandon School of Engineering formalizza un modello di attacco che si incastra bene con quanto osservato da gtig: il binario non contiene payload statici, ma set di prompt; il codice malevolo viene sintetizzato a runtime dal modello, producendo varianti polimorfiche e adattate all’ambiente.

Quattro fasi operative e pipeline governata da system prompt

L’architettura è organizzata in quattro fasi – Reconnaissance, Leverage, Launch, Notify – e in tre tipi di task (coding, validation, analysis) governati da template di system prompt.

Il prototipo (ancora da laboratorio e non ritrovato in the wild) genera ed esegue script in Lua e lo fa dentro un interprete embedded, in-memory, senza necessariamente scrivere codice su disco: una scelta motivata dagli autori con footprint ridotto e portabilità (un binario intorno ai 10 MB).

C’è anche un elemento operativo che interessa i difensori: l’interfaccia verso il modello è descritta come endpoint API compatibile OpenAI, quindi agganciabile a backend diversi (self-hosted o servizi commerciali).

E gli autori spiegano perché, nei test, privilegiano modelli open source: i provider cloud applicano policy che bloccano richieste legate ad artefatti ransomware e possono arrivare a revoca di chiavi o account; i modelli open riducono la barriera d’ingresso per l’attaccante.

Payload core e scelte “leggere” su cifratura, esfiltrazione, distruzione

Sul piano dei payload, il prototipo implementa tre opzioni core: encrypt, exfiltrate, destroy.

Per la cifratura usa SPECK-128 in ECB, scelto perché “leggero” e più facile da implementare per un LLM in Lua; l’esfiltrazione usa I/O file e upload HTTP; la distruzione fa overwrite multipli e cancellazione.

Nei risultati sperimentali, il paper riporta tassi di successo elevati nella pipeline e mostra due aspetti che contano per la difesa.

Primo: la polimorfia naturale (nessuna generazione identica tra run, anche a prompt invariati), che complica detection basata su firme.

Secondo: la superficie di rilevamento si sposta perché l’attacco può lasciare un’impronta “leggera”: in un case study con sandbox e telemetria (HPC, syscalls, disco, rete) gli autori osservano assenza di segnali classici di ransomware (niente picchi evidenti di CPU o disk I/O; traffico di rete correlato alle chiamate al modello ma con banda contenuta).

C’è infine un paradosso utile: anche quando il modello rifiuta una richiesta per policy (ad esempio estrazione di contenuti potenzialmente sensibili), la pipeline può comunque proseguire su cifratura o altre azioni.

Questo rende i “refusal” un freno parziale, non una cintura di sicurezza completa.

L’altra faccia dell’AI per malware: distillazione e furto di capacità dai modelli

Nel report successivo di gtig (febbraio 2026) entra un tema meno “cyber classico” ma strategico: model extraction e distillation come forma di furto di proprietà intellettuale e di capacità, con campagne su larga scala per forzare output di reasoning e trasferirli in modelli “student”.

Gli attacchi di estrazione di modelli (MEA) si verificano quando un avversario utilizza un accesso legittimo per sondare sistematicamente un modello di machine learning maturo al fine di estrarre informazioni utilizzate per addestrare un nuovo modello. Gli avversari che si dedicano agli MEA utilizzano una tecnica chiamata distillazione della conoscenza (KD) per prendere le informazioni raccolte da un modello e trasferire la conoscenza a un altro. Per questo motivo, gli MEA sono spesso definiti “attacchi di distillazione”.

L’estrazione del modello e la successiva distillazione della conoscenza consentono a un aggressore di accelerare lo sviluppo del modello di IA in modo rapido e a un costo notevolmente inferiore. Questa attività rappresenta effettivamente una forma di furto di proprietà intellettuale (IP).

La distillazione della conoscenza (KD) è una tecnica comune di apprendimento automatico utilizzata per addestrare modelli “studenti” da modelli “insegnanti” preesistenti. Ciò comporta spesso l’interrogazione del modello insegnante per problemi in un dominio particolare, quindi l’esecuzione di una messa a punto supervisionata (SFT) sul risultato o l’utilizzo del risultato in altre procedure di addestramento del modello per produrre il modello studente.

“Esistono usi legittimi della distillazione e Google Cloud offre già servizi per eseguire la distillazione. Tuttavia, la distillazione dai modelli Gemini di Google senza autorizzazione costituisce una violazione dei nostri Termini di servizio e Google continua a sviluppare tecniche per rilevare e mitigare questi tentativi”.

“Sebbene non abbiamo osservato attacchi diretti a modelli all’avanguardia o prodotti di IA generativa da parte di attori APT (Advanced Persistent Threat), abbiamo osservato e mitigato frequenti attacchi di estrazione di modelli da parte di entità del settore privato in tutto il mondo e di ricercatori che cercavano di clonare la logica proprietaria”, si legge nel report.

Google cita un caso con oltre 100.000 prompt e descrive mitigazioni lato provider (monitoring pattern di query, difese in tempo reale per degradare l’efficacia della distillazione).

Per l’utente finale medio il rischio è indiretto; per chi sviluppa o eroga modelli e agenti, è già una superficie d’attacco.

Malware con intelligenza artificiale, i segnali più preoccupanti e cosa guardare davvero

Ci sono tre segnali che possono fare preoccupare.

Il primo è la normalizzazione del just-in-time: malware che interroga LLM durante l’esecuzione per generare comandi, offuscare o rigenerarsi, come nei filoni PromptFlux e PromptSteal.

Il secondo è l’integrazione “agentica” con strumenti: il caso Anthropic mostra che, con connettori tipo mcp e tool commodity, l’AI può fare da esecutore operativo e comprimere tempi e costi di campagne di spionaggio.

Quando questo modello viene “prodottizzato” e portato nei mercati underground, aumenta la probabilità che attori meno sofisticati replichino workflow da APT.

Il terzo è l’emergere di payload che riducono l’impronta e puntano su pochi file “ad alto valore”, spostando la detection su accesso a file sensibili, controllo dell’egress e osservazione delle chiamate verso endpoint LLM.

È una delle implicazioni centrali del prototipo NYU.

Il commento di Telmon (P4I)

Attenzione però, “c’è molta differenza fra quello che viene presentato come realizzabile nei laboratori e quello che poi sarà diffuso realmente”, nota Claudio Telmon, noto esperto cyber, per P4I.

“Detto questo, sono temi che di fatto sono rilevanti per chi produce strumenti di rilevazione e analisi”, aggiunge.

“La singola azienda nella maggior parte dei casi si limiterà ad aspettarsi che gli strumenti antimalware rilevino più o meno bene anche queste tipologie”.

“Malware metamorfici esistono da tempo, posso immaginare che i produttori di antimalware troveranno il modo di riconoscere pattern di struttura o di comportamento anche per questi”.

“Più interessante – nota Telmon – invece l’utilizzo di strumenti di automazione, che porteranno probabilmente ad un aumento ulteriore di numerosità degli attacchi, ma anche a un AI slop nelle attività di attacco”.

La pesca a strascico funziona sempre e farà forse ancora più danni per via dell’AI.

Non bisogna mai dimenticarlo, quando si analizzano le frontiere tecniche più sofisticate dei malware.

文章来源: https://www.cybersecurity360.it/nuove-minacce/malware-con-ai-ma-quanto-ce-da-preoccuparsi-facciamo-chiarezza/
如有侵权请联系:admin#unsafe.sh