// data & ai · giornale tecnico MILANO ● LIVE 00:00:00

Multi-Scale Dequant: togliere il collo di bottiglia della dequantizzazione

Un paper arXiv affronta il collo di bottiglia della dequantizzazione nell’inferenza LLM: invece di riportare i pesi a BF16, MSD scompone le attivazioni in componenti a bassa precisione moltiplicabili direttamente.

La quantizzazione fa risparmiare memoria, ma ha un costo nascosto: a un certo punto i pesi compressi vanno riportati ad alta precisione per fare i calcoli. Su acceleratori moderni questo passaggio — la dequantizzazione — è diventato un collo di bottiglia. Un paper su arXiv prova a eliminarlo.

L’idea

Il framework, chiamato Multi-Scale Dequant (MSD), cambia il paradigma. Invece di "sollevare" i pesi a bassa precisione fino al BF16 prima della moltiplicazione, MSD scompone le attivazioni BF16 ad alta precisione in più componenti a bassa precisione, che possono essere moltiplicate direttamente con i pesi quantizzati. Si passa così dalla conversione di precisione a un’approssimazione multi-scala.

Perché conta

È un’ottimizzazione che vive nello strato più basso dello stack, ma con effetti concreti su chi serve modelli su larga scala: meno tempo speso a convertire formati significa più throughput e costi di inferenza più bassi. In un momento in cui la spesa per l’inferenza è una voce di bilancio sempre più pesante, questi guadagni a livello di kernel contano.

Per i team ML che gestiscono serving in produzione, è il tipo di tecnica che non cambia il modello ma migliora l’economia con cui lo si esegue.

In sintesi

MSD attacca un problema preciso e poco discusso: non quanto comprimi, ma quanto ti costa decomprimere. Un contributo tecnico rilevante per l’efficienza dell’inferenza.

Fonte: Multi-Scale Dequant: Eliminating Dequantization Bottleneck via Activation Decomposition for Efficient LLM Inference — arXiv:2605.13915