La quantizzazione fa risparmiare memoria, ma ha un costo nascosto: a un certo punto i pesi compressi vanno riportati ad alta precisione per fare i calcoli. Su acceleratori moderni questo passaggio — la dequantizzazione — è diventato un collo di bottiglia. Un paper su arXiv prova a eliminarlo.
L’idea
Il framework, chiamato Multi-Scale Dequant (MSD), cambia il paradigma. Invece di "sollevare" i pesi a bassa precisione fino al BF16 prima della moltiplicazione, MSD scompone le attivazioni BF16 ad alta precisione in più componenti a bassa precisione, che possono essere moltiplicate direttamente con i pesi quantizzati. Si passa così dalla conversione di precisione a un’approssimazione multi-scala.
Perché conta
È un’ottimizzazione che vive nello strato più basso dello stack, ma con effetti concreti su chi serve modelli su larga scala: meno tempo speso a convertire formati significa più throughput e costi di inferenza più bassi. In un momento in cui la spesa per l’inferenza è una voce di bilancio sempre più pesante, questi guadagni a livello di kernel contano.
Per i team ML che gestiscono serving in produzione, è il tipo di tecnica che non cambia il modello ma migliora l’economia con cui lo si esegue.
In sintesi
MSD attacca un problema preciso e poco discusso: non quanto comprimi, ma quanto ti costa decomprimere. Un contributo tecnico rilevante per l’efficienza dell’inferenza.
