// data & ai · giornale tecnico MILANO ● LIVE 00:00:00

I modelli open-weight raggiungono i closed sui benchmark di ragionamento

Tre laboratori indipendenti pubblicano pesi liberi che pareggiano i risultati dei sistemi proprietari sui test di matematica e codice. Cambia l’equilibrio del settore.

scrabble tiles forming deepmind and gemini

Tre laboratori indipendenti pubblicano pesi liberi che pareggiano i risultati dei sistemi proprietari sui test di matematica e codice. Cambia l'equilibrio del settore.

Per anni la narrazione è stata netta: i modelli migliori restano chiusi, addestrati con budget che solo poche aziende possono permettersi. Questa settimana quella narrazione ha incontrato il primo controesempio difficile da liquidare.

Cosa è successo

Tre gruppi di ricerca, in tre continenti diversi, hanno rilasciato pesi liberamente scaricabili che — sui benchmark pubblici di matematica e generazione di codice — si collocano entro il margine di errore dei sistemi proprietari di riferimento. Non è un singolo risultato fortunato: i numeri reggono su più esecuzioni indipendenti.

Non è più una questione di «se», ma di «quanto in fretta». L’accesso ai pesi cambia chi può costruire sopra questi modelli.

— una ricercatrice coinvolta in uno dei rilasci

Perché conta per chi costruisce

Pesi liberi significano fine-tuning sui propri dati senza inviarli a terzi, deploy on-premise per ragioni di compliance, e costi di inferenza prevedibili. Per molte organizzazioni europee, questi tre punti pesano più di qualche punto percentuale di accuratezza.

  • Controllo del dato: nessun invio verso API esterne in fase di training.
  • Costi: l’inferenza self-hosted diventa una voce di capex prevedibile.
  • Auditabilità: i pesi sono ispezionabili, versionabili, riproducibili.

I limiti che restano

I benchmark non sono il prodotto. Restano aperte le domande su robustezza nel mondo reale, sicurezza dei contenuti e costo totale di gestione di un’infrastruttura di serving. Ma la barriera psicologica — «il meglio è inevitabilmente chiuso» — è caduta.

Nei prossimi mesi seguiremo chi porta questi pesi in produzione e con quali risultati. Se lavori a una migrazione del genere, scrivici.