ai_extract è ora GA su Databricks: estrazione strutturata dai documenti con una funzione SQL

Databricks porta ai_extract in general availability su AWS, Azure e GCP: estrazione di dati strutturati da testo e documenti definendo solo uno schema.

Claudio

13 Giu 2026

Estrarre dati strutturati da testo non strutturato è sempre stato un lavoro ingrato: un prompt diverso per ogni tipo di documento, parsing fragile, nessuna garanzia sui risultati. Databricks prova a chiudere il problema dichiarando ai_extract generally available su tutti e tre i cloud (AWS, Azure e GCP).

Cosa fa

ai_extract è una funzione che prende un documento o un testo, riceve uno schema definito da te e restituisce dati strutturati pronti per le tabelle Delta. Non è un semplice wrapper attorno a un modello: supporta oggetti annidati, array, validazione dei tipi, citazioni e confidence score. In pratica sai da dove arriva ogni valore estratto e con quale livello di certezza.

Perché conta

Per chi costruisce pipeline di ingestione da sorgenti non strutturate cambia il punto di partenza. Niente più architetture custom per ogni caso d’uso: definisci lo schema, chiami la funzione, ottieni l’output pronto per la trasformazione successiva. La parte di estrazione, di solito la più fragile, diventa una chiamata SQL governata e tracciabile dentro il lakehouse.

C’è anche una UI no-code, chiamata Information Extraction, per costruire, validare e iterare sugli extraction agent senza scrivere codice. Utile per prototipare e per coinvolgere chi lavora sui dati ma non vive nell’IDE.

In sintesi

La direzione è chiara: le funzioni AI native in SQL stanno diventando parte dell’infrastruttura dati, non un add-on sperimentale. ai_extract rende l’estrazione da documenti un’operazione ripetibile e verificabile, e questo è esattamente ciò che serve per portarla in produzione.

Fonte: ai_extract is now generally available — Databricks Release Notes

data engineering, document processing, llm, Unity Catalog

Correlati

continua a leggere

News

I modelli open-weight raggiungono i closed sui benchmark di ragionamento

Marco Ferri

11 Giu 2026
Interviste

Chip Huyen: cosa devi davvero sapere sull’AI engineering nel 2025

Claudio

13 Giu 2026
Interviste

Ali Ghodsi (Databricks): la semantica è “esistenziale” per l’AI in azienda

Claudio

13 Giu 2026
Interviste

Soumith Chintala (PyTorch): «Stiamo costruendo studenti obbedienti, non rivoluzionari»

Claudio

13 Giu 2026

ai_extract è ora GA su Databricks: estrazione strutturata dai documenti con una funzione SQL

Cosa fa

Perché conta

In sintesi

Correlati

I modelli open-weight raggiungono i closed sui benchmark di ragionamento

Chip Huyen: cosa devi davvero sapere sull’AI engineering nel 2025

Ali Ghodsi (Databricks): la semantica è “esistenziale” per l’AI in azienda

Soumith Chintala (PyTorch): «Stiamo costruendo studenti obbedienti, non rivoluzionari»