// data & ai · giornale tecnico MILANO ● LIVE 00:00:00

Polars vs Pandas nel 2026: benchmark aggiornato

Abbiamo rieseguito i test su dataset reali da 1M a 500M di righe. Polars è maturato, ma ci sono casi in cui Pandas vince ancora.

Abbiamo rieseguito i test su dataset reali da 1M a 500M di righe. Polars è maturato, ma ci sono casi in cui Pandas vince ancora.

Cosa abbiamo testato

Abbiamo selezionato cinque soluzioni rappresentative del mercato attuale e le abbiamo messe alla prova su tre scenari realistici: ingestion batch, query analitiche complesse, e retrieval semantico con embedding.

  • Scenario A: caricamento di 10M di vettori da 768 dimensioni.
  • Scenario B: query top-k con filtri metadata su 100M di documenti.
  • Scenario C: aggiornamento continuo a 5000 upsert/secondo.

Risultati

Le differenze di latenza p99 sono significative: il gap tra il primo e l’ultimo classificato è di 12x sullo scenario B. Ma la latenza non è l’unica variabile. Il costo operativo mensile varia da 180€ a 2.400€ a parità di dataset.

Il database migliore è quello che non devi gestire tu, se puoi permettertelo. Altrimenti, scegli quello con la community più attiva.

— un DevOps che ha cambiato tre volte

Le nostre raccomandazioni

Per dataset sotto i 10M di documenti: un buon indice full-text con BM25 copre l’80% dei casi d’uso. Per il resto, il rapporto qualità-prezzo premia le soluzioni ibride che combinano ricerca vettoriale e keyword in un unico motore.

I benchmark completi, con il codice per riprodurli, sono nel nostro repository pubblico.

Correlati

continua a leggere