Transparent Streaming workflows with StreamFlow and CAPIO

Tecnologia sviluppata: Sistema di orchestrazione di workflow scientifici su risorse eterogenee (Cloud e HPC) con integrazione streaming dati.

I dettagli del progetto

Sintesi del progetto

Il progetto rende più rapida l’esecuzione di workflow scientifici complessi permettendo alle fasi successive di partire appena i dati necessari sono disponibili, invece di attendere la generazione completa dei file. La logica resta trasparente per chi usa la pipeline, ottenendo accelerazione senza necessità di modificare il codice.

Obiettivo

L’obiettivo è permettere a ricercatori e sviluppatori di sfruttare al meglio le potenzialità delle architetture moderne, nelle quali coesistono componenti Cloud, nodi HPC, sistemi GPU e, nel prossimo futuro, anche acceleratori quantistici. La piattaforma punta a democratizzare l’uso di workflow scalabili e ad alte prestazioni, rendendo più fluido il passaggio da pipeline tradizionali basate su file a workflow streaming, nei quali i task possono avviarsi non appena i dati diventano disponibili.

Problemi e necessità

La crescita dei volumi di dati scientifici rende impraticabili workflow sequenziali basati su file, che obbligano i task a completarsi prima di avviare i successivi. Inoltre, i workflow moderni devono poter girare su infrastrutture diverse per composizione, ubicazione e gestione, mantenendo portabilità e performance. La sfida è implementare tecniche di streaming e ottimizzazione input e output (I/O) senza costringere gli utenti a modificare pipeline esistenti.

Soluzioni sviluppate

Il progetto ha esteso il linguaggio per workflow standard (Common Workflow Language – CWL) introducendo la definizione di semantiche di streaming per le dipendenze dei dati, integrando un sistema di orchestrazione per l’elaborazione dei workflow su infrastrutture di calcolo differenti (StreamFlow) e un sistema di gestione dello streaming dei dati per l’ottimizzazione dell’input e output (CAPIO). L’approccio è stato validato su casi reali, come la pipeline astrofisica VisIVO, ottenendo accelerazioni tra il 15% e il 50%. La metodologia è già applicata a workflow di astrofisica, geoscienze e intelligenza artificiale.

Impatti

L’iniziativa contribuisce ad accelerare la ricerca scientifica in settori dove il tempo di esecuzione delle pipeline è un fattore critico. Miglioramenti nelle prestazioni abilitano previsioni meteorologiche più accurate e ad alta risoluzione, accelerano i cicli di scoperta farmaceutica, migliorano il monitoraggio sismico e rendono possibile analizzare dataset cosmologici sempre più vasti. La portabilità dei workflow favorisce inoltre la riproducibilità degli esperimenti, la riusabilità dei componenti software e una distribuzione più efficiente dei carichi sulle infrastrutture nazionali.

Settori di applicazione

Il sistema sviluppato supporta la Ricerca Fondamentale e il settore Spaziale nell’implementazione di workflow scientifici su grandi dati, il campo delle scienze Climatiche e Ambientali nelle elaborazioni dati e simulazione, il campo dell’Intelligenza Artificiale nella gestione di pipeline distribuite e del federated learning, nonché gli ambiti industriali che necessitano di processi replicabili su infrastrutture miste.

Collabora con ICSC

Hai un progetto, una competenza o una visione che può contribuire alla trasformazione digitale del Paese?

Siamo sempre alla ricerca di nuovi partner per ampliare il nostro impatto.

institutional-logos