Autore: Claudio
risultati
-
Text-to-Big SQL: quanto sono bravi gli agenti LLM quando i dati sono enormi?
Un paper arXiv valuta gli agenti LLM sul text-to-SQL in contesti big data, dove i benchmark classici ignorano…
-
Agent-Diff: valutare gli agenti LLM su task reali con il diff dello stato
Un paper arXiv presenta Agent-Diff: benchmark per agenti LLM su task di API enterprise, che misura il successo…
-
Foundation model per le serie temporali: funzionano davvero in produzione?
Un paper arXiv valuta la viabilità operativa dei foundation model per il forecasting di serie temporali: promettono previsioni…
-
DataMaster: e se a fare data engineering fosse un agente autonomo?
Un paper arXiv studia il data engineering autonomo: un agente che, a parità di algoritmo, migliora un sistema…
-
Filtered ANN: cercare nei vettori rispettando i filtri sui metadati
Un paper arXiv analizza il Filtered ANN search nei vector database: combinare ricerca semantica e vincoli sui metadati.…
-
Multi-Scale Dequant: togliere il collo di bottiglia della dequantizzazione
Un paper arXiv affronta il collo di bottiglia della dequantizzazione nell’inferenza LLM: invece di riportare i pesi a…
-
Oltre il text-to-SQL: agenti LLM che parlano con le API analitiche governate
Un paper arXiv sostiene che in azienda il text-to-SQL non basta: le pipeline analitiche passano da API governate.…
-
Dalla memoria all’esperienza: come evolve la memoria degli agenti LLM
Una survey arXiv organizza i meccanismi di memoria degli agenti LLM in tre stadi evolutivi: Storage, Reflection ed…
-
Rilevare le allucinazioni degli LLM con la coerenza tra parafrasi
Un paper arXiv propone CCHD: un detector di allucinazioni addestrato come problema di ottimizzazione vincolata, con vincoli di…
-
A-RAG: agentic RAG che dà al modello le chiavi della ricerca
Un paper arXiv presenta A-RAG: invece di un retrieval rigido a monte, espone al modello tre strumenti (keyword,…