Infrastructure de Recherche AnaEE

L’étude du fonctionnement des écosystèmes nécessite des approches multidisciplinaires et mobilise de nombreuses équipes de recherche. Les données produites sont généralement variées et peu ou mal standardisées. Dans ce contexte, le développement de l’interopérabilité sémantique devient un enjeu majeur pour le partage et la réutilisation des données.

Fort de cet enjeu, l’Infrastructure de Recherche AnaEE ( Analyse et Expérimentation sur les Écosystèmes ) a mis en œuvre des moyens conséquents pour essayer d’améliorer l’usage de l’approche sémantique et favoriser son développement au sein la communauté scientifique.

C’est dans ce cadre que deux outils informatiques (dits pipelines) ont été développés :

1/ Le premier est constitué d’un enchaînement automatisé d’outils open source, dédié d’une part à la production de données sémantiques à partir de différentes sources de données hétérogènes ( BDR, Csv.. ) ; et d’autre part à la simplification du processus d’annotation sémantique : processus de modélisation basé sur les graphes et l’utilisation de vocabulaires communs ( thésaurus et ontologies ) qui peut nécessiter un investissement et un coût important.

2/ Le deuxième pipeline ( qui ne sera pas abordé dans cette présentation ) est quant à lui consacré à l’exploitation des données sémantiques (produit par le 1er pipeline) au travers de la génération et de l’enregistrement des données et des métadonnées dans différents formats standardisé ( GeoDCAT, NetCDF.. ).

Cette présentation abordera sous forme d’un retour d’expérience le travail réalisé sur le premier pipeline ( annotation et production de données sémantique ) : la première partie sera consacrée au choix de la technologie du web sémantique, des outils spécifiquement développés pour le projet et de ceux retenus comme la base de données orienté graphe : Blazegraph ( qui permet de croiser, de combiner et de faire de la fouille de données grâce au langage d’interrogation SPARQL ) ; puis en deuxième partie, un survol de la démarche du processus d’annotation sémantique.