Negli ultimi giorni Anthropic ha reso pubblica una delle accuse più gravi mai mosse nel settore dell’intelligenza artificiale: tre importanti laboratori cinesi avrebbero condotto campagne coordinate di distillazione illecita contro i modelli della famiglia Claude, arrivando a oltre 13 milioni di interazioni complessive.
Secondo Anthropic, l’obiettivo era trasferire rapidamente capacità avanzate, soprattutto nel ragionamento, nel coding agentico e nell’uso di strumenti, aggirando sia i costi di addestramento sia le misure di sicurezza integrate nei modelli statunitensi di frontiera.
Cos’è la distillazione (e perché qui è un problema)
La distillazione è una tecnica legittima e diffusa: un modello “studente” apprende dai risultati di un modello più grande (“insegnante”) per ottenere versioni più economiche e veloci.
Il problema nasce quando:
- viene applicata a modelli di un concorrente senza autorizzazione;
- avviene su scala industriale;
- mira non solo agli output finali, ma anche ai processi di ragionamento (chain-of-thought).
In questo scenario, la distillazione consente un trasferimento accelerato di capacità a una frazione del costo e del tempo necessari per svilupparle da zero.
Anthropic sottolinea inoltre un rischio chiave: i modelli distillati non ereditano le stesse salvaguardie di sicurezza, esponendo tali capacità a usi malevoli, dalla cyberwarfare alla sorveglianza di massa, fino ad ambiti sensibili come il bioengineering.
I tre attori coinvolti
Anthropic afferma di aver attribuito le campagne con alto livello di confidenza, grazie a correlazioni IP, metadata delle richieste, fingerprint infrastrutturali e conferme da partner industriali.
DeepSeek
- Scala: oltre 150.000 interazioni
- Target:
- ragionamento avanzato
- grading basato su rubriche (per addestrare reward model)
- risposte “sicure” su temi politicamente sensibili
- Tecniche: traffico sincronizzato, metodi di pagamento condivisi, prompt progettati per estrarre il ragionamento passo-passo
- Entity: DeepSeek
Moonshot AI (modelli Kimi)
- Scala: oltre 3,4 milioni di interazioni
- Target:
- agentic reasoning
- tool use
- coding e data analysis
- computer vision e computer-use agents
- Tecniche: centinaia di account fraudolenti, più fasi operative; nelle ultime, focus esplicito sulla ricostruzione delle tracce di ragionamento
- Entity: Moonshot AI
MiniMax
- Scala: oltre 13 milioni di interazioni (la campagna più grande)
- Target: agentic coding e orchestrazione di tool
- Tecniche: operazione ancora attiva al momento del rilevamento; reazione estremamente rapida ai nuovi rilasci di Claude (pivot in meno di 24 ore)
- Entity: MiniMax
In almeno un caso, i metadata delle richieste avrebbero combaciato con profili pubblici di ricercatori senior dei laboratori coinvolti.
Come sono state aggirate le restrizioni
Anthropic non offre accesso commerciale a Claude in Cina. Le aziende avrebbero quindi utilizzato:
- servizi proxy di terze parti che rivendono accessi API;
- reti di account fraudolenti che mescolano traffico legittimo e traffico di distillazione.
Questo approccio rende il rilevamento molto più complesso, perché l’attività malevola si “nasconde” in mezzo a richieste normali.
Le contromisure annunciate
Anthropic ha dichiarato di stare investendo in:
- classifier per l’estrazione del chain-of-thought;
- behavioral fingerprinting per identificare attività coordinate;
- maggiore verifica sugli account educativi e di ricerca, spesso sfruttati in questi schemi.
In parallelo, l’azienda sta condividendo indicatori tecnici con altri AI lab, cloud provider e autorità, sottolineando che nessun attore può risolvere il problema da solo.
Implicazioni geopolitiche e industriali
Anthropic ha ribadito il proprio supporto ai controlli statunitensi sull’export di chip avanzati, sostenendo che i distillation attack ne rafforzano la logica: limitare l’accesso all’hardware riduce sia l’addestramento diretto sia la capacità di estrazione massiva di dati.
La rivelazione arriva a poche settimane da un avvertimento simile di OpenAI al Congresso USA: anche in quel caso, DeepSeek sarebbe stata coinvolta in campagne di distillazione contro i modelli GPT, tramite decine di migliaia di account falsi e reti proxy definite “hydra clusters”.
Perché questa vicenda conta anche per la sicurezza informatica
Dal punto di vista della cybersecurity, il caso evidenzia che:
- le API AI sono un nuovo perimetro d’attacco;
- l’abuso non avviene tramite exploit tradizionali, ma tramite uso formalmente valido e massivo dei sistemi;
- la protezione richiede analisi comportamentale, correlazione e cooperazione inter-azienda, non solo controlli di accesso.
La distillazione illecita non è solo una violazione contrattuale: è un problema sistemico di sicurezza, con impatti su difesa, intelligence e stabilità tecnologica globale.
Il caso Anthropic segna un precedente importante: per la prima volta, un grande AI lab descrive pubblicamente operazioni di estrazione di capacità su scala industriale, attribuite con precisione a specifici attori.
Per il settore, il messaggio è chiaro:
la sicurezza dei modelli AI non riguarda solo ciò che producono, ma anche come vengono osservati, interrogati e copiati.
E questo apre una nuova fase della competizione, e del conflitto, nell’ecosistema dell’intelligenza artificiale globale.