Come si valuta un agente che non si limita a rispondere, ma compie azioni? Confrontare il testo prodotto non basta: conta cosa è successo nel sistema. Un paper su arXiv affronta il problema con Agent-Diff, un benchmark pensato per misurare gli effetti, non le parole.
L’idea
Agent-Diff valuta agenti LLM su task reali con le API di software di produttività, eseguendo codice e misurando il risultato tramite un "state-diff contract": un contratto che separa il processo dall’esito. Il successo di un task non è definito da come l’agente è arrivato alla soluzione, ma dal fatto che il cambiamento atteso nello stato dell’ambiente si sia effettivamente verificato.
Perché conta
È la metrica giusta per gli agenti. Un agente può seguire un percorso diverso da quello previsto e arrivare comunque al risultato corretto — oppure produrre una risposta convincente senza che nulla sia davvero cambiato. Valutare il diff dello stato cattura ciò che conta davvero: l’effetto sul mondo, non l’eloquenza della spiegazione.
Per chi costruisce agenti destinati a operare su sistemi reali, questo tipo di benchmark è prezioso: misura l’affidabilità in termini di azioni andate a buon fine, che è esattamente ciò che serve sapere prima di mandare un agente in produzione.
In sintesi
Agent-Diff sposta la valutazione degli agenti dal "cosa hanno detto" al "cosa hanno cambiato". Un approccio sano in un campo dove è facile farsi ingannare da risposte solo apparentemente corrette.
