Negli ultimi giorni Anthropic ha reso pubblica una delle accuse più gravi mai mosse nel settore dell’intelligenza artificiale: tre importanti laboratori cinesi avrebbero condotto campagne coordinate di distillazione illecita contro i modelli della famiglia Claude, arrivando a oltre 13 milioni di interazioni complessive.

Secondo Anthropic, l’obiettivo era trasferire rapidamente capacità avanzate, soprattutto nel ragionamento, nel coding agentico e nell’uso di strumenti, aggirando sia i costi di addestramento sia le misure di sicurezza integrate nei modelli statunitensi di frontiera.


Cos’è la distillazione (e perché qui è un problema)

La distillazione è una tecnica legittima e diffusa: un modello “studente” apprende dai risultati di un modello più grande (“insegnante”) per ottenere versioni più economiche e veloci.

Il problema nasce quando:

  • viene applicata a modelli di un concorrente senza autorizzazione;
  • avviene su scala industriale;
  • mira non solo agli output finali, ma anche ai processi di ragionamento (chain-of-thought).

In questo scenario, la distillazione consente un trasferimento accelerato di capacità a una frazione del costo e del tempo necessari per svilupparle da zero.

Anthropic sottolinea inoltre un rischio chiave: i modelli distillati non ereditano le stesse salvaguardie di sicurezza, esponendo tali capacità a usi malevoli, dalla cyberwarfare alla sorveglianza di massa, fino ad ambiti sensibili come il bioengineering.


I tre attori coinvolti

Anthropic afferma di aver attribuito le campagne con alto livello di confidenza, grazie a correlazioni IP, metadata delle richieste, fingerprint infrastrutturali e conferme da partner industriali.

DeepSeek

  • Scala: oltre 150.000 interazioni
  • Target:
    • ragionamento avanzato
    • grading basato su rubriche (per addestrare reward model)
    • risposte “sicure” su temi politicamente sensibili
  • Tecniche: traffico sincronizzato, metodi di pagamento condivisi, prompt progettati per estrarre il ragionamento passo-passo
  • Entity: DeepSeek

Moonshot AI (modelli Kimi)

  • Scala: oltre 3,4 milioni di interazioni
  • Target:
    • agentic reasoning
    • tool use
    • coding e data analysis
    • computer vision e computer-use agents
  • Tecniche: centinaia di account fraudolenti, più fasi operative; nelle ultime, focus esplicito sulla ricostruzione delle tracce di ragionamento
  • Entity: Moonshot AI

MiniMax

  • Scala: oltre 13 milioni di interazioni (la campagna più grande)
  • Target: agentic coding e orchestrazione di tool
  • Tecniche: operazione ancora attiva al momento del rilevamento; reazione estremamente rapida ai nuovi rilasci di Claude (pivot in meno di 24 ore)
  • Entity: MiniMax

In almeno un caso, i metadata delle richieste avrebbero combaciato con profili pubblici di ricercatori senior dei laboratori coinvolti.


Come sono state aggirate le restrizioni

Anthropic non offre accesso commerciale a Claude in Cina. Le aziende avrebbero quindi utilizzato:

  • servizi proxy di terze parti che rivendono accessi API;
  • reti di account fraudolenti che mescolano traffico legittimo e traffico di distillazione.

Questo approccio rende il rilevamento molto più complesso, perché l’attività malevola si “nasconde” in mezzo a richieste normali.


Le contromisure annunciate

Anthropic ha dichiarato di stare investendo in:

  • classifier per l’estrazione del chain-of-thought;
  • behavioral fingerprinting per identificare attività coordinate;
  • maggiore verifica sugli account educativi e di ricerca, spesso sfruttati in questi schemi.

In parallelo, l’azienda sta condividendo indicatori tecnici con altri AI lab, cloud provider e autorità, sottolineando che nessun attore può risolvere il problema da solo.


Implicazioni geopolitiche e industriali

Anthropic ha ribadito il proprio supporto ai controlli statunitensi sull’export di chip avanzati, sostenendo che i distillation attack ne rafforzano la logica: limitare l’accesso all’hardware riduce sia l’addestramento diretto sia la capacità di estrazione massiva di dati.

La rivelazione arriva a poche settimane da un avvertimento simile di OpenAI al Congresso USA: anche in quel caso, DeepSeek sarebbe stata coinvolta in campagne di distillazione contro i modelli GPT, tramite decine di migliaia di account falsi e reti proxy definite “hydra clusters”.


Perché questa vicenda conta anche per la sicurezza informatica

Dal punto di vista della cybersecurity, il caso evidenzia che:

  • le API AI sono un nuovo perimetro d’attacco;
  • l’abuso non avviene tramite exploit tradizionali, ma tramite uso formalmente valido e massivo dei sistemi;
  • la protezione richiede analisi comportamentale, correlazione e cooperazione inter-azienda, non solo controlli di accesso.

La distillazione illecita non è solo una violazione contrattuale: è un problema sistemico di sicurezza, con impatti su difesa, intelligence e stabilità tecnologica globale.


Il caso Anthropic segna un precedente importante: per la prima volta, un grande AI lab descrive pubblicamente operazioni di estrazione di capacità su scala industriale, attribuite con precisione a specifici attori.

Per il settore, il messaggio è chiaro:

la sicurezza dei modelli AI non riguarda solo ciò che producono, ma anche come vengono osservati, interrogati e copiati.

E questo apre una nuova fase della competizione, e del conflitto, nell’ecosistema dell’intelligenza artificiale globale.