Mise en relation des données hétérogènes chez l’espèce modèle Arabidopsis thaliana dans une base orientée graphe

Mise en relation des données hétérogènes chez l’espèce modèle Arabidopsis thaliana dans une base orientée graphe Le choix de cette espèce modèle a été motivé par une bonne annotation du génome et l’abondance de données -omiques et phénotypique publiques. L’intégration de données a été réalisée avec Neo4j pour représenter les différents types de relations entre éléments génomiques. L’exploitation de cette base orientée graphe permet d’identifier des gènes candidats répondant aux critères recherchés. []

Thésaurus INRAE : un vocabulaire contrôlé des objets et méthodes de recherche à INRAE

Thésaurus INRAE : un vocabulaire contrôlé des objets et méthodes de recherche à INRAE Le thésaurus INRAE est le référentiel thématique ouvert et partagé couvrant les domaines de recherche d’INRAE avec plus de 15 000 concepts, tous identifiés de manière unique et pérenne par un URI. Chaque concept est représenté par des termes préférentiels et alternatifs en français, et 2/3 d’entre eux sont traduits en anglais. Le thésaurus s’enrichira peu à peu de définitions textuelles. []

BRAPI2RDF

BRAPI2RDF The Minimal Information About Plant Phenotyping Experiment, MIAPPE (www.miappe.org) has been designed by ELIXIR, EMPHASIS and Bioversity international to guide plant scientists in the management of experimental data and to facilitate integration between phenomic and omic data. It is implemented in databases, file archives and web services, the Breeding API (BrAPI). The latter is used to enable interoperability as well as data discovery using the FAIDARE data portal. There is also a graph implementaition, PPEO, that formalize MIAPPE as an ontology and can therefore be sued to integrate phenomic data with other datatypes. []

NeoLeg

NeoLeg, a graph database for translational research in pulses Legumes, and especially pulses, are an important source of protein for food and feed, and are appreciated or their positive impact on the “one health”. However their yields are sometimes unstable and their tolerance to some biotic and abiotic stresses highlight the need for varietal improvement to increase the cultivated area and stabilize the production. With the advent of sequencing technologies, a large pool of genetic and genomic resources, heterogeneous at the inter- and intra-species scale, is emerging. []

Infrastructure de Recherche AnaEE

Infrastructure de Recherche AnaEE L’étude du fonctionnement des écosystèmes nécessite des approches multidisciplinaires et mobilise de nombreuses équipes de recherche. Les données produites sont généralement variées et peu ou mal standardisées. Dans ce contexte, le développement de l’interopérabilité sémantique devient un enjeu majeur pour le partage et la réutilisation des données. Fort de cet enjeu, l’Infrastructure de Recherche AnaEE ( Analyse et Expérimentation sur les Écosystèmes ) a mis en œuvre des moyens conséquents pour essayer d’améliorer l’usage de l’approche sémantique et favoriser son développement au sein la communauté scientifique. []

ARA-LD, a RDF knowledge-based system containing Arabidopsis gene annotation and interaction data

ARA-LD, a RDF knowledge-based system containing Arabidopsis gene annotation and interaction data Expression quantitative trait loci (eQTL) are genomic regions associated with variation in gene expression. Identifying regulatory genes underlying an eQTL region would improve our understanding of the role of genetic polymorphisms in gene expression regulation. However, finding such genes is difficult because of the often large eQTL interval, harboring tens to hundreds of candidate regulatory genes. Using genomic data can help list candidates for further validation, but doing this manually requires considerable effort due to the heterogeneous data from different databases. []

AskOmics, a Semantic-Web application to integrate and query meaningful biological datasets

AskOmics, a Semantic-Web application to integrate and query meaningful biological datasets AskOmics is a visual SPARQL query builder software, providing a web interface to upload and integrate heterogeneous data files (GFF, BED, and tabulated formats) into RDF to support the integration of the data into a directed labeled graph. Askomics first relies on the raw data internal structures (headers or gff attributes) to construct an abstraction of link between class of data. []

Opportunities and pitfalls of the Semantic Web in life sciences

Opportunities and pitfalls of the Semantic Web in life sciences Semantic Web was introduced by Tim Berners-Lee in 1999 with the aim to connect and describe every document on the Web. However, facing the rapid expansion of the Web, the Web Semantic technologies failed to scale to their original purpose (the Web) but offer today an efficient way to represent and integrate heterogeneous data in life science. Data are represented as statements in a graph of entities and relations, while being also semantically described in dedicated vocabularies. []

MOGAMUN

MOGAMUN Two key elements of a systems-biology-based analysis are omics data and biological networks. Omics data give us a broad overview of a set of samples, whereas biological networks can either be generated from experimental data (for instance, mass-difference networks from metabolomics data) or they can be generic representations of biological knowledge (for instance, genome-scale metabolic networks or protein-protein interaction networks). Such heterogeneous biological networks can be organized as multi-layer networks, where every layer is an independent network, and common or related nodes from different layers can be linked by inter-layer edges. []