Categoria: Paper
Ricerca e letteratura, spiegata
risultati
-

Spiegazione: perché i transformer dimenticano il contesto lungo
Un paper recente formalizza il calo di attenzione oltre la finestra di addestramento. Riassumiamo i risultati senza la…
-
Distillazione: modelli piccoli che imparano dai grandi, spiegato bene
Come trasferire capacità da un modello da 400B a uno da 7B mantenendo l’85% delle prestazioni. I tre…
-
Attenzione sparsa: il paper che potrebbe dimezzare i costi di inferenza
Un nuovo meccanismo di attenzione riduce la complessità quadratica a quasi-lineare senza perdere qualità. Spieghiamo come funziona.
-
LoRA e QLoRA: fine-tuning efficiente spiegato ai practitioner
Due tecniche che hanno democratizzato l’adattamento dei modelli. Comprendiamo la matematica, i trade-off e quando usare quale.