Tag: efficienza
risultati
-
Attenzione sparsa: il paper che potrebbe dimezzare i costi di inferenza
Un nuovo meccanismo di attenzione riduce la complessità quadratica a quasi-lineare senza perdere qualità. Spieghiamo come funziona.
-
LoRA e QLoRA: fine-tuning efficiente spiegato ai practitioner
Due tecniche che hanno democratizzato l’adattamento dei modelli. Comprendiamo la matematica, i trade-off e quando usare quale.