Journées du GDR BIM

workshop
Date de publication

21 novembre 2023

Le GDR BioInformatique Moléculaire organise des journées du 20 au 24 novembre 2023 à Lille, comprenant une journée scientifique plénière le 22/11 commune à l’ensemble des groupes de travail (GT) dont le thème est “Apprentissage pour la bioinformatique” et des journées spécifiques à chaque GT. A noter la journée du groupe machine learning pour la génomique (LEGO) le 23 novembre.

Journée StatOmique le 21 novembre

Dans l’esprit d’échange et de partage cher à StatOmique, les contributions prennent différentes formes de la communication orale classique ou très informelle en passant par un tutoriel et une session poster.

Invités

Arnaud Gloaguen (Centre National de Recherche en Génomique Humaine, Institut François Jacob, CEA, Université Paris-Saclay) animera un tutoriel sur l’analyse de données multi-blocs avec le package R {RGCCA}.
Etienne Thévenot (CEA, INRAE, Université Paris-Saclay, MetaboHUB) présentera ses travaux récents dans les domaines de l’intégration des données et l’apprentissage profond.

Programme

  • 9h30 Accueil - café

  • 10h Introduction

  • 10h15-12h15 Arnaud Gloaguen (Centre National de Recherche en Génomique Humaine, Institut François Jacob, CEA, Université Paris-Saclay), Regularized Generalized Canonical Correlation Analysis (RGCCA), a flexible framework for multiblock (and multiway) data analysis: case study on a cohort of Major Depressive Disorder (MDD) patients and controls.

Les supports sont disponibles sur son compte github.

Résumé : Nous avons appliqué {mixOmics} aux données de la cohorte de patients obèses ABOS. Pour 108 patients de cette cohorte, nous disposons des données transcriptomiques du foie issues de puces à ADN (~23K variables), de données métabolomiques (~1,4K variables) et de données lipidomiques (~800 variables). Nous avons testé la méthode DIABLO de {mixOmics} et la version shiny du package {RGCCA} développée par l’IFB. Nous présenterons de manière informelle les différences de visualisation entre ces deux packages.

  • 12h30 - 14h30 Pause déjeuner et Session posters

Résumé : Au cours des 25 dernières années, le couplage des approches de chimie analytique globale, par spectrométrie de masse notamment, et des sciences des données (mathématiques et informatique), a permis des avancées majeures dans la compréhension moléculaire des processus physiopathologiques impliquant le métabolisme (diabète, cardiologie, cancer).

Nous présenterons ici les travaux récents de l’équipe en termes de traitement du signal, de combinatoire (recherche de sous-graphes fréquents) et d’apprentissage statistique (sélection de variables, intégration multi-modale, apprentissage profond) appliqués au traitement, à l’annotation et à l’analyse haut-débit des données métabolomiques pour la recherche de biomarqueurs en santé.

Résumé : The Fragile X-Syndrome (FXS) represents the most common inherited form of intellectual disability and the first monogenic cause of Autism Spectrum Disorders (ASD). In most cases, this disease results from the absence of expression of the protein FMRP (Fragile X messenger ribonucleoprotein). FMRP is a multifunctional protein that affects numerous cellular pathways and interacts with many RNA and proteins. Consequently, although FXS is a monogenic disease, an effective strategy will rely on multi-therapy approaches. The development of these compensatory therapies requires first a broad identification of the cellular functions and molecular mechanisms regulated by FMRP as well as the evaluation and prioritization of the regulated pathways in the aetiology of FXS. While there is a plethora of multi-omics data performed and collected to evaluate the multiple perturbations of cellular homeostasis in this context, the integration of those remains challenging. For this purpose, we developed HIVE (Horizontal Integration analysis using Variational AutoEncoders (VAE)) and a novel custom Graph Convolutional Network (GCN) model. Hive analyses horizontally integrated multi-omics datasets. Briefly, we coupled the VAE that captures non-linear relationships and encoded them in the latent space, with a random forest regression (RFR) to allow the explainability. The custom GCN model that we developed comprises four layers, including two Graph Convolution layers and two Graph-SAGE layers, alternately. We applied HIVE on horizontally integrated omics data composed of 51 samples. We analysed the molecular composition of the latent space by using the contribution scores obtained with the RFR and we provided a comprehensive list of biological pathways in which FMRP is involved. Then, we applied our novel GCN model to identify new candidate genes associated with known genes involved in ASD. Altogether, our study shed light on novel roles in which FRMP is involved in the context of FXS.

Comité de programme et d’organisation

Julie Aubert, Marie-Agnès Dillies, Christelle Hennequet-Antier, Guillemette Marot

Informations pratiques

Lieu : La journée StatOmique s’est tenue sur le site Inria, 40 avenue Halley, 59650 Villeneuve d’Ascq

Comment venir ? Le métro le plus proche est 4 Cantons Grand Stade (Villeneuve d’Ascq). La ligne 1 est directe depuis la gare Lille Flandres. Compter ensuite 15 minutes à pied. Pour préparer votre itinéraire en métro : https://www.ilevia.fr/