Distillation attack: Anthropic accusa AI lab cinesi | F-Hack

Negli ultimi giorni Anthropic ha reso pubblica una delle accuse più gravi mai mosse nel settore dell’intelligenza artificiale: tre importanti laboratori cinesi avrebbero condotto campagne coordinate di distillazione illecita contro i modelli della famiglia Claude, arrivando a oltre 13 milioni di interazioni complessive.

Secondo Anthropic, l’obiettivo era trasferire rapidamente capacità avanzate, soprattutto nel ragionamento, nel coding agentico e nell’uso di strumenti, aggirando sia i costi di addestramento sia le misure di sicurezza integrate nei modelli statunitensi di frontiera.

Cos’è la distillazione (e perché qui è un problema)

La distillazione è una tecnica legittima e diffusa: un modello “studente” apprende dai risultati di un modello più grande (“insegnante”) per ottenere versioni più economiche e veloci.

Il problema nasce quando:

viene applicata a modelli di un concorrente senza autorizzazione;
avviene su scala industriale;
mira non solo agli output finali, ma anche ai processi di ragionamento (chain-of-thought).

In questo scenario, la distillazione consente un trasferimento accelerato di capacità a una frazione del costo e del tempo necessari per svilupparle da zero.

Anthropic sottolinea inoltre un rischio chiave: i modelli distillati non ereditano le stesse salvaguardie di sicurezza, esponendo tali capacità a usi malevoli, dalla cyberwarfare alla sorveglianza di massa, fino ad ambiti sensibili come il bioengineering.

I tre attori coinvolti

Anthropic afferma di aver attribuito le campagne con alto livello di confidenza, grazie a correlazioni IP, metadata delle richieste, fingerprint infrastrutturali e conferme da partner industriali.

DeepSeek

Scala: oltre 150.000 interazioni
Target:
- ragionamento avanzato
- grading basato su rubriche (per addestrare reward model)
- risposte “sicure” su temi politicamente sensibili
Tecniche: traffico sincronizzato, metodi di pagamento condivisi, prompt progettati per estrarre il ragionamento passo-passo
Entity: DeepSeek

Moonshot AI (modelli Kimi)

Scala: oltre 3,4 milioni di interazioni
Target:
- agentic reasoning
- tool use
- coding e data analysis
- computer vision e computer-use agents
Tecniche: centinaia di account fraudolenti, più fasi operative; nelle ultime, focus esplicito sulla ricostruzione delle tracce di ragionamento
Entity: Moonshot AI

MiniMax

Scala: oltre 13 milioni di interazioni (la campagna più grande)
Target: agentic coding e orchestrazione di tool
Tecniche: operazione ancora attiva al momento del rilevamento; reazione estremamente rapida ai nuovi rilasci di Claude (pivot in meno di 24 ore)
Entity: MiniMax

In almeno un caso, i metadata delle richieste avrebbero combaciato con profili pubblici di ricercatori senior dei laboratori coinvolti.

Come sono state aggirate le restrizioni

Anthropic non offre accesso commerciale a Claude in Cina. Le aziende avrebbero quindi utilizzato:

servizi proxy di terze parti che rivendono accessi API;
reti di account fraudolenti che mescolano traffico legittimo e traffico di distillazione.

Questo approccio rende il rilevamento molto più complesso, perché l’attività malevola si “nasconde” in mezzo a richieste normali.

Le contromisure annunciate

Anthropic ha dichiarato di stare investendo in:

classifier per l’estrazione del chain-of-thought;
behavioral fingerprinting per identificare attività coordinate;
maggiore verifica sugli account educativi e di ricerca, spesso sfruttati in questi schemi.

In parallelo, l’azienda sta condividendo indicatori tecnici con altri AI lab, cloud provider e autorità, sottolineando che nessun attore può risolvere il problema da solo.

Implicazioni geopolitiche e industriali

Anthropic ha ribadito il proprio supporto ai controlli statunitensi sull’export di chip avanzati, sostenendo che i distillation attack ne rafforzano la logica: limitare l’accesso all’hardware riduce sia l’addestramento diretto sia la capacità di estrazione massiva di dati.

La rivelazione arriva a poche settimane da un avvertimento simile di OpenAI al Congresso USA: anche in quel caso, DeepSeek sarebbe stata coinvolta in campagne di distillazione contro i modelli GPT, tramite decine di migliaia di account falsi e reti proxy definite “hydra clusters”.

Perché questa vicenda conta anche per la sicurezza informatica

Dal punto di vista della cybersecurity, il caso evidenzia che:

le API AI sono un nuovo perimetro d’attacco;
l’abuso non avviene tramite exploit tradizionali, ma tramite uso formalmente valido e massivo dei sistemi;
la protezione richiede analisi comportamentale, correlazione e cooperazione inter-azienda, non solo controlli di accesso.

La distillazione illecita non è solo una violazione contrattuale: è un problema sistemico di sicurezza, con impatti su difesa, intelligence e stabilità tecnologica globale.

Il caso Anthropic segna un precedente importante: per la prima volta, un grande AI lab descrive pubblicamente operazioni di estrazione di capacità su scala industriale, attribuite con precisione a specifici attori.

Per il settore, il messaggio è chiaro:

la sicurezza dei modelli AI non riguarda solo ciò che producono, ma anche come vengono osservati, interrogati e copiati.

E questo apre una nuova fase della competizione, e del conflitto, nell’ecosistema dell’intelligenza artificiale globale.

Cos’è la distillazione (e perché qui è un problema)

I tre attori coinvolti

DeepSeek

Moonshot AI (modelli Kimi)

MiniMax

Come sono state aggirate le restrizioni

Le contromisure annunciate

Implicazioni geopolitiche e industriali

Perché questa vicenda conta anche per la sicurezza informatica

> Articoli Correlati

Vercel breach 2026: anatomia di un attacco supply chain via OAuth

Un solo sticker Telegram può hackerarti: la vulnerabilità RCE senza patch e senza un clic

Meta elimina la crittografia end-to-end su Instagram: privacy a rischio?