Le allucinazioni — affermazioni plausibili ma false — restano il problema più fastidioso degli LLM. Un paper su arXiv affronta la questione da un’angolazione interessante: se una risposta è vera, dovrebbe restare coerente anche riformulando la domanda.
L’approccio
Il metodo, chiamato Consistency-Constrained Hallucination Detector (CCHD), imposta l’addestramento del detector come un problema di ottimizzazione vincolata. Due i vincoli chiave: la coerenza tra parafrasi (la stessa domanda, riformulata, dovrebbe portare alla stessa valutazione di fattualità) e la conservazione delle etichette. Con backbone come DeBERTa e Flan-T5, CCHD supera in modo consistente baseline solidi sui benchmark standard di fattualità.
Perché conta
Rilevare le allucinazioni in modo accurato e scalabile è la precondizione per usare gli LLM dove la correttezza conta: documenti, supporto, analisi. L’intuizione della coerenza tra parafrasi è elegante perché non richiede una fonte esterna di verità per ogni risposta: sfrutta una proprietà che le affermazioni vere tendono ad avere e quelle inventate no.
Per chi mette modelli in produzione, un detector affidabile è il guardrail che permette di filtrare o segnalare le risposte a rischio prima che arrivino all’utente.
In sintesi
CCHD non elimina le allucinazioni, ma le rende più facili da intercettare in modo sistematico. Un contributo concreto al problema di fondo dell’affidabilità degli LLM.
Fonte: Constrained Paraphrase Consistency for LLM Hallucination Detection — arXiv:2606.08158
