Modelli, ricette di training e budget di calcolo si stanno standardizzando. Quello che fa ancora la differenza nei sistemi di machine learning, sempre più spesso, sono i dati. Eppure il data engineering resta in gran parte manuale e artigianale. Un paper su arXiv propone di automatizzarlo con un agente.
L’idea
Il lavoro studia il "data engineering autonomo condizionato dal task": un agente che, tenendo fisso l’algoritmo di apprendimento, migliora il sistema lavorando solo sul lato dati. Questo include la scoperta di dataset esterni, la selezione e composizione dei dati, la pulizia e la trasformazione. In pratica, l’agente fa ciò che oggi un data engineer fa a mano — cercare dati, adattarli alle pipeline, validarli a valle, imparare dai tentativi precedenti — ma in modo iterativo e automatico.
Perché conta
È un cambio di prospettiva. Per anni l’ottimizzazione si è concentrata sul modello; questo filone dice che il margine di miglioramento, ormai, sta soprattutto nei dati. Automatizzare la parte più ripetitiva e meno glamour del lavoro — trovare e preparare i dati giusti — potrebbe liberare tempo prezioso e rendere riproducibile ciò che oggi dipende dall’esperienza individuale.
Per i team dati non è una minaccia ma uno strumento: l’agente si occupa del lavoro meccanico, le persone delle decisioni che contano.
In sintesi
DataMaster esplora un’idea potente: trattare il dato, non il modello, come la leva principale di miglioramento, e affidarne la cura a un agente. Un filone da seguire.
Fonte: DataMaster: Towards Autonomous Data Engineering for Machine Learning — arXiv:2605.10906
