La nuova architettura multi-progetto di dbt promette autonomia ai team. Abbiamo provato a implementarla in un'organizzazione con 8 domini.
Cosa abbiamo testato
Abbiamo selezionato cinque soluzioni rappresentative del mercato attuale e le abbiamo messe alla prova su tre scenari realistici: ingestion batch, query analitiche complesse, e retrieval semantico con embedding.
- Scenario A: caricamento di 10M di vettori da 768 dimensioni.
- Scenario B: query top-k con filtri metadata su 100M di documenti.
- Scenario C: aggiornamento continuo a 5000 upsert/secondo.
Risultati
Le differenze di latenza p99 sono significative: il gap tra il primo e l’ultimo classificato è di 12x sullo scenario B. Ma la latenza non è l’unica variabile. Il costo operativo mensile varia da 180€ a 2.400€ a parità di dataset.
Il database migliore è quello che non devi gestire tu, se puoi permettertelo. Altrimenti, scegli quello con la community più attiva.
— un DevOps che ha cambiato tre volte
Le nostre raccomandazioni
Per dataset sotto i 10M di documenti: un buon indice full-text con BM25 copre l’80% dei casi d’uso. Per il resto, il rapporto qualità-prezzo premia le soluzioni ibride che combinano ricerca vettoriale e keyword in un unico motore.
I benchmark completi, con il codice per riprodurli, sono nel nostro repository pubblico.
