Sintesi del progetto
DISCORSIVO, attraverso lo sfruttamento degli LLM, vuole fornire risposte nell’ambito della ricerca osservativa al problema riguardante l’analisi di volumi di dati ormai troppo vasti per essere gestiti con metodi tradizionali. La soluzione sviluppata utilizza un framework di Retrieval Augmented Generation fondato su un corpus continuamente aggiornato di articoli scientifici da arXiv.org, garantendo risposte tracciabili e basate su fonti peer-reviewed.
Obiettivi
Il progetto mira a sviluppare un assistente AI per la ricerca astrofisica capace di interrogare grandi insiemi di letteratura e fornire risposte accurate corredate da riferimenti verificabili attraverso la un’interfaccia semplice e intuitiva per gli utenti e l’integrazione della pipeline con piattaforme visuali esterne.
Problemi e necessità
Il ritmo di crescita della letteratura scientifica e dei dataset astrofisici rende impossibile affidarsi esclusivamente alla lettura manuale. Strumenti AI non controllati possono introdurre errori o allucinazioni, rendendo necessarie soluzioni che uniscano automazione e rigore scientifico, garantendo trasparenza e affidabilità delle informazioni restituite.
Soluzioni sviluppate
DISCORSIVO integra un LLM con un vector database facilmente interrogabile. Le informazioni rilevanti vengono recuperate da un corpus scientifico aggiornato e restituite all’utente tramite RAG, insieme all’elenco delle fonti. È stato sviluppato un prototipo pienamente funzionante, dotato di chatbot e API, validato su compiti sia generativi sia di information retrieval. Lo strumento è già in grado di restituire risposte robuste e verificabili.
Impatti
DISCORSIVO può migliorare significativamente l’efficienza del lavoro dei ricercatori, accelerando l’accesso a conoscenze complesse e facilitando la scoperta di pattern e anomalie nei dati. Contribuisce inoltre alla formazione di professionisti e studenti, fornendo un supporto affidabile nella consultazione della letteratura.
Settori di applicazione
Oltre all’astrofisica, DISCORSIVO è applicabile a qualsiasi campo scientifico basato su grandi quantità di dati e bibliografia: Intelligenza Artificiale, Education and Training, Software, Data-intensive research, Space science, grazie alla sua architettura modulare e replicabile.