WP4 – Genome bioinformatic pipelines for GPU-based HPC infrastructures

Tecnologia sviluppata: Analisi scalabili di dati relativi al sequenziamento dell’espressione genica di singole cellule (single-cell RNA-seq) ottimizzate per infrastrutture GPU e sistemi HPC

I dettagli del progetto

Sintesi del progetto

Il progetto nasce dalla crescente diffusione degli studi prodotti dalle nuove tecniche di sequenziamento dell’espressione genica di singole cellule (single-cell RNA-seq), che oggi possono produrre dati enormi, con dati relativi a centinaia di migliaia o milioni di cellule. Analizzare dataset così grandi diventa difficile e richiede strumenti più veloci, più stabili e in grado di funzionare su sistemi di calcolo avanzati. L’obiettivo del progetto è capire quali siano le tecnologie più adatta per affrontare e migliorare le analisi, sfruttando le potenzialità delle GPU e delle infrastrutture HPC.

Obiettivo

Il progetto mira a rendere l’analisi di dataset che riuniscono le informazioni genetiche relative alle singole cellule (single-cell) più rapida e accessibile. Il progetto vuole fornire indicazioni chiare su quali strumenti usare, quali passaggi influenzano di più la qualità dei risultati e come sfruttare al meglio l’hardware disponibile, al fine di aiutare ricercatori e laboratori a lavorare con dataset sempre più complessi senza perdere accuratezza o tempo.

Problemi e necessità

Gli esperimenti single-cell generano quantità di dati sempre maggiori, che metodi tradizionali basati su CPU non riescono sempre a gestire in tempi utili. Inoltre, alcune scelte analitiche, come il tipo di tecnica di analisi adottata o la selezione dei geni più variabili, possono cambiare in modo significativo il risultato finale. Serve quindi un confronto diretto tra i diversi approcci per capire quali siano più efficienti e affidabili.

Soluzioni sviluppate

Il progetto ha confrontato diversi strumenti molto usati per l’analisi single-cell, valutando tempi di esecuzione, memoria richiesta e accuratezza. I test hanno mostrato come le pipeline basate su GPU permettano di velocizzare l’analisi anche di quindici volte rispetto ai metodi standard, mantenendo risultati affidabili. È stato inoltre possibile capire quali scelte analitiche rendono l’analisi più stabile e quali influenzano maggiormente la precisione del clustering. Queste informazioni sono state trasformate in linee guida pratiche per la comunità.

Impatti

Il lavoro svolto aiuta i ricercatori a interpretare più facilmente i dati single-cell, che sono fondamentali per capire meglio come funzionano i tessuti, come si sviluppano le malattie e quali terapie possono essere più efficaci. Analisi più rapide permetteranno inoltre di ottenere risposte in meno tempo e con maggiore stabilità, favorendo progressi nella ricerca biomedica e nella medicina di precisione. A lungo termine, questi miglioramenti potranno contribuire a diagnosi migliori e a nuove strategie terapeutiche.

Settori di applicazione

Le linee guida e le tecniche sviluppate possono essere adottate da Università, Centri di Ricerca, Ospedali e Aziende Biotech. La metodologia è replicabile perché si basa su strumenti open-source e passaggi analitici standard. Inoltre, lo stesso approccio può essere usato anche per altri tipi di dati genomici o per dataset molto grandi in altri ambiti della ricerca.