Pochi strumenti hanno plasmato il lavoro quotidiano di chi analizza dati quanto pandas. Il suo creatore, Wes McKinney, in un’intervista al podcast Tech on the Rocks ripercorre il filo che dal 2008 porta fino ad Apache Arrow e al futuro dell’infrastruttura dati.
Da pandas ad Arrow
McKinney racconta come, partendo dalla costruzione di pandas, sia arrivato a ripensare il modo in cui rappresentiamo e spostiamo i dati colonnari. Il punto chiave è perché Arrow sia fondamentalmente diverso dai formati di file come Parquet e ORC: non è un formato di archiviazione, ma uno standard di rappresentazione in memoria che permette ai sistemi di scambiarsi dati senza continue conversioni costose.
Lo stato dell’ecosistema
Nelle sue conversazioni recenti, McKinney colloca pandas accanto a strumenti come Polars, DuckDB e Arrow, riconoscendo che pandas resta prezioso per il lavoro su dati di piccola e media dimensione, mentre l’ecosistema si è arricchito di alternative più adatte ad altri scenari. Riflette anche sulla sostenibilità dell’open source — tema che conosce bene — e su come gli agenti di coding AI stiano cambiando il mestiere dell’ingegnere del software.
Perché ascoltarlo
McKinney è una voce rara: ha vissuto da dentro l’evoluzione dello stack dati degli ultimi quindici anni. La sua lettura aiuta a capire perché Arrow sta diventando l’infrastruttura silenziosa su cui poggiano sempre più strumenti, e perché la rappresentazione dei dati conta tanto quanto gli algoritmi che ci girano sopra.
Fonte: From pandas to Arrow: Wes McKinney on the Future of Data Infrastructure — Tech on the Rocks
