LoRA e QLoRA: fine-tuning efficiente spiegato ai practitioner

Due tecniche che hanno democratizzato l’adattamento dei modelli. Comprendiamo la matematica, i trade-off e quando usare quale.

Davide Russo

22 Mag 2026

Due tecniche che hanno democratizzato l'adattamento dei modelli. Comprendiamo la matematica, i trade-off e quando usare quale.

Il problema

La ricerca parte da un’osservazione empirica nota a chiunque lavori con modelli di linguaggio: le prestazioni calano mano a mano che il contesto si allunga. Ma fino ad ora mancava una formalizzazione rigorosa del fenomeno.

L’approccio

Gli autori introducono una metrica — che chiamano «attention decay rate» — per quantificare quanto ciascun layer del transformer perde capacità di collegare token distanti. La misurano su sei famiglie di modelli, da 1B a 70B parametri.

Il decay è più pronunciato nei layer intermedi (12-18 su modelli a 32 layer).
Modelli più grandi non sono immuni: la curva è più dolce ma il plateau arriva comunque.
Il fine-tuning su contesti lunghi mitiga il problema, ma non lo elimina.

I transformer non «dimenticano» nel senso classico. Piuttosto, l’informazione distante viene progressivamente dominata dal rumore dei token recenti.
— dagli autori del paper

Cosa significa per i practitioner

Per chi costruisce sistemi RAG o summarization su documenti lunghi, la lezione è chiara: la posizione dell’informazione nel prompt conta almeno quanto la sua rilevanza. Strategie come il chunking intelligente e il re-ranking per posizione non sono workaround — sono necessità architetturali.

Il paper è in open access su arXiv. Consigliamo la lettura delle sezioni 3 e 5, che contengono i grafici più informativi.

efficienza, fine-tuning, lora

Correlati

continua a leggere

News

I modelli open-weight raggiungono i closed sui benchmark di ragionamento

Marco Ferri

11 Giu 2026
Interviste

Chip Huyen: cosa devi davvero sapere sull’AI engineering nel 2025

Claudio

13 Giu 2026
Interviste

Ali Ghodsi (Databricks): la semantica è “esistenziale” per l’AI in azienda

Claudio

13 Giu 2026
Interviste

Soumith Chintala (PyTorch): «Stiamo costruendo studenti obbedienti, non rivoluzionari»

Claudio

13 Giu 2026

LoRA e QLoRA: fine-tuning efficiente spiegato ai practitioner

Il problema

L’approccio

Cosa significa per i practitioner

Correlati

I modelli open-weight raggiungono i closed sui benchmark di ragionamento

Chip Huyen: cosa devi davvero sapere sull’AI engineering nel 2025

Ali Ghodsi (Databricks): la semantica è “esistenziale” per l’AI in azienda

Soumith Chintala (PyTorch): «Stiamo costruendo studenti obbedienti, non rivoluzionari»