Quasi interactive analysis of big data with high throughput

Artificial Intelligence Computing and Storage Infrastructure Fundamental Research Software

Tecnologia sviluppata: Piattaforma per l’analisi ad alto rendimento (Highthroughput) di grandi volumi di dati basata su calcolo distribuito, strumenti open source e integrazione di risorse HPC e Cloud

I dettagli del progetto

Sintesi del progetto

Il progetto introduce un nuovo modo di analizzare grandi dataset, come quelli prodotti nel campo della Fisica delle Alte energie, superando i limiti delle elaborazioni tradizionali basate sull’accumulazione di una quantità elevata di dati (flussi batch) per l’ottimizzazione delle risorse di calcolo. L’obiettivo è consentire agli utenti di lavorare sui dati in modo rapido e iterativo, riducendo i tempi di attesa tra una fase di analisi e la successiva, anche quando i volumi di dati sono molto elevati.

Obiettivo

Il progetto si propone di rendere l’analisi dei Big Data più fluida e accessibile, permettendo a ricercatori e utenti appartenenti al settore industriale di ottenere risultati in tempi brevi e di adattare l’analisi mentre è in corso, senza dover ripetere lunghi cicli di elaborazione. La piattaforma permette infatti di rendere trasparente l’accesso a risorse eterogenee — Cloud, Data Center distribuiti, Calcolo ad alto Rendimento (High Throughput Computing – HTC) — favorendo workflow iterativi e veloci, riducendo drasticamente i tempi delle analisi e abilitando applicazioni future in settori extra scientifici.

Problemi e necessità

L’evoluzione dei dataset scientifici e industriali ha reso insufficienti i modelli basati sulla gestione dei flussi batch. È infatti oggi necessario abilitare cicli di analisi rapidi per testare ipotesi, aggiornare parametri e visualizzare risultati. L’assenza di strumenti interattivi impedisce di esplorare efficientemente strutture complesse nei dati. La necessità di accedere a risorse distribuite, diverse per natura e architettura, aggiunge ulteriore complessità.

Soluzioni sviluppate

Il progetto ha realizzato un prototipo di piattaforma di analisi (Analysis Facility) già operativa caratterizzata da una forte integrazione tra dispositivi interattivi (notebook) e strumenti open source che consentono la distribuzione dei workflow su infrastrutture distribuite quali Cloud, risorse HTC, e DataLake decentralizzato. In questo modo, l’utente è in grado di accede ai dati e alle capacità di calcolo in modo uniforme, senza doversi occupare della complessità infrastrutturale. La piattaforma ha consentito una considerevole accelerazione dei workflow complessi di esperimenti di Fisica delle Alte Energie come CMS e ATLAS del CERN.

Impatti

La piattaforma abilita analisi molto più rapide, aumentando l’efficienza del ciclo scientifico e riducendo consumi e costi grazie all’uso di tecnologie eterogenee, acceleratori e strategie ottimizzate di gestione dati. Il paradigma quasi interattivo facilita l’adozione di tecniche avanzate come Machine Learning e flussi di lavoro orientati all’AI, riducendo i colli di bottiglia computazionali.

Settori di applicazione

Grazie alla sua flessibilità, la piattaforma può essere utilizzata da Università, Centri di ricerca, Aziende e Pubbliche Amministrazioni per analisi di Big Data in ambito Industriale, Sanitario, Energetico, Finanziario e Ambientale. Le tecnologie adottate sono inoltre replicabili in contesti educativi e formativi per migliorare le competenze digitali e introdurre nuovi modelli di data processing a studenti, professionisti e data scientist.