Gestion des données de simulation

Programme provisoire en cours de finalisation

10h-10h15 : Introduction à la journée

10h15-10h45 : Construire un catalogue de données de simulations de dynamique moléculaire : quand la science ouverte rencontre l'intelligence artificielle

Pierre Poulain, Laboratoire de Biochimie Théorique, Université Paris Cité & CNRS

La dynamique moléculaire est une technique de simulation incontournable pour étudier les propriétés mécaniques des systèmes moléculaires, avec des applications majeures en science des matériaux, en biologie structurale et dans la conception de médicaments.

Les simulations générées représentent des données scientifiques à forte valeur ajoutée, tant par l’expertise requise pour leur paramétrage et leur interprétation que par les ressources de calcul intensif nécessaires à leur production. Avec l’essor de la science ouverte, un nombre croissant de chercheurs et chercheuses partagent leurs jeux de données de dynamique moléculaire dans des entrepôts de données généralistes ou plus spécialisés. Cependant, la pauvreté et l’hétérogénéité des métadonnées associées à ces données de simulation limitent considérablement leur découvrabilité, leur interopérabilité et leur réutilisation.

Dans cette intervention, je dresserai un état des lieux des entrepôts de données utilisés en dynamique moléculaire. Je présenterai également MDverse, le catalogue de données de simulations de dynamique moléculaire que nous développons dans le cadre du projet européen LUMEN. Enfin, j’aborderai les stratégies d’annotation et d’enrichissement des métadonnées que nous mettons en oeuvre afin de faciliter la réutilisation de ces jeux de données.

10h45 - 11h15 : Challenges in Data Generation, Analysis, and Sharing for Scale-Adaptive Multi-Physics Computational Fluid Dynamics

Vincent Moureau, CORIA, CNRS

Over the last decades, Computational Fluid Dynamics (CFD) has demonstrated its value in the simulation of a wide range of flows, becoming an essential tool both for advancing the understanding of underlying physical phenomena and for supporting the design of increasingly complex engineering systems. The emergence of modern massively parallel supercomputers has enabled the simulation of multi-scale and multi-physics flows with unprecedented levels of scale separation. In this context, scale-adaptive methods, in which mesh resolution and numerical schemes are dynamically adapted in space and time, offer an efficient way to maximize the use of computational resources. However, such approaches also introduce significant challenges related to numerical methods on dynamic tetrahedral meshes, data generation and management, large-scale data analysis, and workflow orchestration for massive simulations on supercomputing platforms.
This presentation will discuss these challenges through examples drawn from turbulent combustion and two-phase flow simulations. Particular attention will also be given to the storage, accessibility, and sharing of large simulation databases within the scientific community.

11h15 - 11h45: Planetary Dynamo Simulation Explorer: a filterable and visualisable web-based, community-driven catalogue,

Julien Aubert, IPGP, Romain Claveau, Nicolas Gillet, Nathanaël Schaeffer, ISTerre

11h45-12h15 : Damien Chapon, CEA-Irfu

Titre à venir

12h15-14h : Pause buffet

14h - 14h30 : Gestion de données massives en modélisation du climat : défis et solutions pour le prochain rapport du GIEC

Guillaume Levavasseur, Institut Pierre-Simon Laplace, Sorbonne Université

14h30 - 15h : Vers une solution d’un démonstrateur de données issues du calcul HPC

Jean-Marc Larré*, Christophe Marteau, Nicolas Renon, CALMIP Université de Toulouse

Les projets exploitants les ressources du calculateur HPC du MésoCentre CALMIP nous questionnent sur les solutions que nous proposons pour rendre leurs résultats accessibles et ouverts. Ce qui par ailleurs peut s’avérer indispensable à l’obtention du financement du projet, notamment Européens.
Nous disposons d’un entrepôt de données basé sur Dataverse mais ce n’est souvent pas suffisant pour communiquer des résultats. Les données brutes doivent être mise en forme et repasser par un ou plusieurs traitements à multi-paramètres d’entrées. Ces traitements ou chaines de traitements de mise en forme doivent être accessibles pour être joués et rejoués autant de fois que nécessaire et le plus simplement possible.
Suite au travail de reprise et refactoring du portail existant Callisto 1 (https://callisto.calmip.univ-toulouse.fr/), nos réflexions et nos travaux en cours se portent sur l’intégration du moteur de workflow AIIDA qui se trouvera au cœur du système. AIIDA permet en quelques mots de définir et reproduire des traitements complexes déportés sur un calculateur et piocher des données sur un entrepôt. Nous évoquerons la plus-value que nous apportons au sein de CALMIP dont notamment l’IHM utilisateur qui coiffe l’ensemble, et les perspectives d’une génération automatique de Workflow à travers l’enrichissement du DataVerse par Ontologie (basé sur Callisto1).

15h - 15h30: Philipe Elbaz-Vincent, Université Grenoble Alpes / Institut Fourier

Titre à venir

15h30 - 16h : Guillaume Anciaux, EPFL

Titre à venir

16h - 17h : Table ronde, animation Emmanuel Chaljub (ISTerre, Université Grenoble Alpes)

Participants (en cours de finalisation) : Karim Ramage (Directeur technique Data Terra), Pierre Poulain, Vincent Moureau, Sabine Crépé-Renaudin (IN2P3)

L'objectif de cette table ronde est d'aborder de façon croisée les problématiques liées aux données de simulation :

thesaurus, vocabulaire, ontologie autour des données de simulation
Infrastructure, services
Gestion, partage, réutilisation, Plan de Gestion des Données
Lien données - codes - reproductibilité
Quelles données conserver, combien de temps
Croisement données de simulation et données d’observation ou d’expérimentation
...