// data & ai · giornale tecnico MILANO ● LIVE 00:00:00

DataMaster: e se a fare data engineering fosse un agente autonomo?

Un paper arXiv studia il data engineering autonomo: un agente che, a parità di algoritmo, migliora un sistema ML ottimizzando solo i dati — scoperta, selezione, pulizia e trasformazione.

Modelli, ricette di training e budget di calcolo si stanno standardizzando. Quello che fa ancora la differenza nei sistemi di machine learning, sempre più spesso, sono i dati. Eppure il data engineering resta in gran parte manuale e artigianale. Un paper su arXiv propone di automatizzarlo con un agente.

L’idea

Il lavoro studia il "data engineering autonomo condizionato dal task": un agente che, tenendo fisso l’algoritmo di apprendimento, migliora il sistema lavorando solo sul lato dati. Questo include la scoperta di dataset esterni, la selezione e composizione dei dati, la pulizia e la trasformazione. In pratica, l’agente fa ciò che oggi un data engineer fa a mano — cercare dati, adattarli alle pipeline, validarli a valle, imparare dai tentativi precedenti — ma in modo iterativo e automatico.

Perché conta

È un cambio di prospettiva. Per anni l’ottimizzazione si è concentrata sul modello; questo filone dice che il margine di miglioramento, ormai, sta soprattutto nei dati. Automatizzare la parte più ripetitiva e meno glamour del lavoro — trovare e preparare i dati giusti — potrebbe liberare tempo prezioso e rendere riproducibile ciò che oggi dipende dall’esperienza individuale.

Per i team dati non è una minaccia ma uno strumento: l’agente si occupa del lavoro meccanico, le persone delle decisioni che contano.

In sintesi

DataMaster esplora un’idea potente: trattare il dato, non il modello, come la leva principale di miglioramento, e affidarne la cura a un agente. Un filone da seguire.

Fonte: DataMaster: Towards Autonomous Data Engineering for Machine Learning — arXiv:2605.10906