Estrarre dati strutturati da testo non strutturato è sempre stato un lavoro ingrato: un prompt diverso per ogni tipo di documento, parsing fragile, nessuna garanzia sui risultati. Databricks prova a chiudere il problema dichiarando ai_extract generally available su tutti e tre i cloud (AWS, Azure e GCP).
Cosa fa
ai_extract è una funzione che prende un documento o un testo, riceve uno schema definito da te e restituisce dati strutturati pronti per le tabelle Delta. Non è un semplice wrapper attorno a un modello: supporta oggetti annidati, array, validazione dei tipi, citazioni e confidence score. In pratica sai da dove arriva ogni valore estratto e con quale livello di certezza.
Perché conta
Per chi costruisce pipeline di ingestione da sorgenti non strutturate cambia il punto di partenza. Niente più architetture custom per ogni caso d’uso: definisci lo schema, chiami la funzione, ottieni l’output pronto per la trasformazione successiva. La parte di estrazione, di solito la più fragile, diventa una chiamata SQL governata e tracciabile dentro il lakehouse.
C’è anche una UI no-code, chiamata Information Extraction, per costruire, validare e iterare sugli extraction agent senza scrivere codice. Utile per prototipare e per coinvolgere chi lavora sui dati ma non vive nell’IDE.
In sintesi
La direzione è chiara: le funzioni AI native in SQL stanno diventando parte dell’infrastruttura dati, non un add-on sperimentale. ai_extract rende l’estrazione da documenti un’operazione ripetibile e verificabile, e questo è esattamente ciò che serve per portarla in produzione.
Fonte: ai_extract is now generally available — Databricks Release Notes
