Sintesi del progetto
Il progetto introduce un nuovo modo di analizzare grandi dataset, come quelli prodotti nel campo della Fisica delle Alte energie, superando i limiti delle elaborazioni tradizionali basate sull’accumulazione di una quantità elevata di dati (flussi batch) per l’ottimizzazione delle risorse di calcolo. L’obiettivo è consentire agli utenti di lavorare sui dati in modo rapido e iterativo, riducendo i tempi di attesa tra una fase di analisi e la successiva, anche quando i volumi di dati sono molto elevati.
Obiettivo
Il progetto si propone di rendere l’analisi dei Big Data più fluida e accessibile, permettendo a ricercatori e utenti appartenenti al settore industriale di ottenere risultati in tempi brevi e di adattare l’analisi mentre è in corso, senza dover ripetere lunghi cicli di elaborazione. La piattaforma permette infatti di rendere trasparente l’accesso a risorse eterogenee — Cloud, Data Center distribuiti, Calcolo ad alto Rendimento (High Throughput Computing – HTC) — favorendo workflow iterativi e veloci, riducendo drasticamente i tempi delle analisi e abilitando applicazioni future in settori extra scientifici.
Problemi e necessità
L’evoluzione dei dataset scientifici e industriali ha reso insufficienti i modelli basati sulla gestione dei flussi batch. È infatti oggi necessario abilitare cicli di analisi rapidi per testare ipotesi, aggiornare parametri e visualizzare risultati. L’assenza di strumenti interattivi impedisce di esplorare efficientemente strutture complesse nei dati. La necessità di accedere a risorse distribuite, diverse per natura e architettura, aggiunge ulteriore complessità.
Soluzioni sviluppate
Il progetto ha realizzato un prototipo di piattaforma di analisi (Analysis Facility) già operativa caratterizzata da una forte integrazione tra dispositivi interattivi (notebook) e strumenti open source che consentono la distribuzione dei workflow su infrastrutture distribuite quali Cloud, risorse HTC, e DataLake decentralizzato. In questo modo, l’utente è in grado di accede ai dati e alle capacità di calcolo in modo uniforme, senza doversi occupare della complessità infrastrutturale. La piattaforma ha consentito una considerevole accelerazione dei workflow complessi di esperimenti di Fisica delle Alte Energie come CMS e ATLAS del CERN.
Impatti
La piattaforma abilita analisi molto più rapide, aumentando l’efficienza del ciclo scientifico e riducendo consumi e costi grazie all’uso di tecnologie eterogenee, acceleratori e strategie ottimizzate di gestione dati. Il paradigma quasi interattivo facilita l’adozione di tecniche avanzate come Machine Learning e flussi di lavoro orientati all’AI, riducendo i colli di bottiglia computazionali.
Settori di applicazione
Grazie alla sua flessibilità, la piattaforma può essere utilizzata da Università, Centri di ricerca, Aziende e Pubbliche Amministrazioni per analisi di Big Data in ambito Industriale, Sanitario, Energetico, Finanziario e Ambientale. Le tecnologie adottate sono inoltre replicabili in contesti educativi e formativi per migliorare le competenze digitali e introdurre nuovi modelli di data processing a studenti, professionisti e data scientist.