// data & ai · giornale tecnico MILANO ● LIVE 00:00:00

Rilevare le allucinazioni degli LLM con la coerenza tra parafrasi

Un paper arXiv propone CCHD: un detector di allucinazioni addestrato come problema di ottimizzazione vincolata, con vincoli di coerenza tra parafrasi. Batte i baseline sui benchmark di fattualità.

Le allucinazioni — affermazioni plausibili ma false — restano il problema più fastidioso degli LLM. Un paper su arXiv affronta la questione da un’angolazione interessante: se una risposta è vera, dovrebbe restare coerente anche riformulando la domanda.

L’approccio

Il metodo, chiamato Consistency-Constrained Hallucination Detector (CCHD), imposta l’addestramento del detector come un problema di ottimizzazione vincolata. Due i vincoli chiave: la coerenza tra parafrasi (la stessa domanda, riformulata, dovrebbe portare alla stessa valutazione di fattualità) e la conservazione delle etichette. Con backbone come DeBERTa e Flan-T5, CCHD supera in modo consistente baseline solidi sui benchmark standard di fattualità.

Perché conta

Rilevare le allucinazioni in modo accurato e scalabile è la precondizione per usare gli LLM dove la correttezza conta: documenti, supporto, analisi. L’intuizione della coerenza tra parafrasi è elegante perché non richiede una fonte esterna di verità per ogni risposta: sfrutta una proprietà che le affermazioni vere tendono ad avere e quelle inventate no.

Per chi mette modelli in produzione, un detector affidabile è il guardrail che permette di filtrare o segnalare le risposte a rischio prima che arrivino all’utente.

In sintesi

CCHD non elimina le allucinazioni, ma le rende più facili da intercettare in modo sistematico. Un contributo concreto al problema di fondo dell’affidabilità degli LLM.

Fonte: Constrained Paraphrase Consistency for LLM Hallucination Detection — arXiv:2606.08158