CGM - Equipe rattachée à la Direction
Bioinformatique structurale (Bioinfome)
pour en savoir plus
Responsable : Hervé Delacroix
MàJ : 16/11/10
Modèle schématique de l'assemblage du complexe III chez Saccharomyces cerevisiae. D’après : Zara V., Conte L., Trumpower BL. (2009) FEBS J. 276(7):1900-14.
Modélisation in silico de l’assemblage des complexes protéiques : une approche de Bioinformatique intégrative
L'objectif de ce projet est de construire des modèles d'assemblage de complexes protéiques pour mieux comprendre les mécanismes biologiques sous-jacents, déterminer les différents sous-complexes, identifier de nouveaux facteurs d’assemblage et proposer de nouvelles expériences à réaliser pour les caractériser. Nous avons donc développé une approche de bioinformatique intégrative qui permet de créer des connaissances en combinant/associant l'ensemble des données et des informations connues sur l'objet à modéliser. Le modèle proposé s'appuie sur des données provenant de différents types d’expériences : protéomiques, biochimiques, génétiques, transcriptomiques et structurales.
La construction du modèle d’assemblage nécessite tout d’abord de répertorier l’ensemble des interactions physiques et génétiques impliquant les sous-unités du complexe à modéliser et les facteurs d’assemblage identifiés, par une interrogation systématique des bases de données d’interactions (bases généralistes comme APID et BIOGRID et bases spécifiques de l’organisme étudié si celles-ci ne sont pas interrogées par les bases généralistes).
Afin de déterminer des intermédiaires d’assemblage, on partitionne ensuite ces réseaux en sous-graphes d’interactions fortement interconnectés et qui peuvent donc constituer des modules d’assemblage du complexe. D’autre part, un partitionnement en petits réseaux moins fortement connectés permet d’identifier de nouveaux facteurs d’assemblage. Ces nouvelles données nous permettent ensuite de modéliser les cascades d’évènements menant au complexe.Pour réaliser ce projet nous utilisons différents algorithmes de clustering de graphes chevauchants et non chevauchants ainsi que le logiciel Cytoscape avec ses plug-ins.
Dans le cadre d’une collaboration avec une équipe de généticiens du CGM, nous avons appliqué notre méthodologie à la modélisation de la cinétique d’assemblage du complexe respiratoire III chez la levure S. cerevisiae qui est un organisme modèle pour l’analyse de la fonction respiratoire. En effet, si le fonctionnement et la structure des complexes de la chaîne respiratoire sont bien établis, les mécanismes qui concourent à leur assemblage sont plus ou moins bien décrits. Cet assemblage est un processus compliqué qui nécessite l’agencement précis dans la membrane de différentes sous-unités venant de compartiments différents ainsi que de plusieurs co-facteurs.
L’assemblage du complexe III, a été très peu étudié et seuls 3 facteurs auxiliaires ont jusqu’à maintenant été décrits. D’autres facteurs sont certainement nécessaires, mais ceux-ci n’ont pas pu être identifiés par les approches traditionnelles. Le modèle que nous avons construit, en utilisant la méthodologie décrite ci-dessus, nous a permis d’une part d’identifier un nouveau facteur d’assemblage et d’autre part de proposer de nouvelles pistes sur l’ordre dans lequel les sous-unités du complexe s’assemblent.
Collaborations :
B. Meunier (CGM)
G. Dujardin (CGM)
Modélisation de l’évolution de réseaux de régulation
Ce projet a pour but de sélectionner les parties des réseaux de régulation transcriptionnelle qui sont conservées entre différentes espèces afin de modéliser leur évolution. Notre approche consiste tout d’abord à regrouper les différents gènes orthologues d’espèces très proches phylogénétiquement en un ensemble de gènes correspondant à une espèce hybride dite “espèce consensus”. A partir des donnés d’expression de ce pool de gènes, obtenues dans différentes conditions, on déduit un réseau de régulation transcriptionnelle “consensus”. On compare ensuite chaque réseau spécifique d’une espèce avec le réseau “consensus”. On peut ainsi sélectionner les gènes qui se comportent différemment entre chaque espèce et l’espèce “consensus”.
Ce travail constitue le premier volet d’une approche qui a pour but la construction d’un modèle d’évolution des réseaux de régulation.
Application à l’étude de l’émergence de la pathogénicité au sein de levures environnementales
Les infections fongiques opportunistes sont devenues depuis les années 1980, des infections nosocomiales d'importance majeure. Parmi les espèces émergentes, on trouve Candida glabrata, le second agent responsable de candidoses, après C. albicans et deux nouvelles espèces pathogènes : C. nivariensis et C. bracarensis. Elles forment, avec d'autres espèces non pathogènes, le groupe des Nakaseomyces, dans lequel la pathogénicité semble être apparue de manière indépendante. Chez les pathogènes, le fait que les réseaux de régulation évoluent plus rapidement que les séquences des protéines, participe certainement à la "course aux armements" entre pathogène et hôte. Le génome de C. glabrata est disponible depuis 2004 ainsi que ceux de cinq autres Nakaseomyces qui viennent d’être déterminés par séquençage au Genoscope. Nous souhaitons analyser la régulation génique et sa dynamique évolutive, pour comprendre les mécanismes évolutifs qui mènent à l'adaptation de ces espèces à l'hôte humain.
L’objectif de ce projet est donc de déterminer les mécanismes qui ont amené une espèce fongique à devenir pathogènes.
Collaborations :
Monique Bolotin (IGM, Orsay)
Cécile FairHead (IGM, Orsay)
Alain Denise (IGM, Orsay)
Olivier Martin (UMR de Génétique végétale, Gif-sur-Yvette Moulon)
Comparaison des résultats de trois méthodes de segmentation (cercle adaptatif, Isodata, SRG) sur différents types de spots : normal, déformé, donut, artéfact.
Analyse des images provenant d’expériences de biopuces
Une puce à ADN se présente sous la forme d'un support sur lequel sont greffés en chaque point ou spot, des fragments d’ADN simple brin de séquence connue (cDNA, oligonucléotides), représentatifs et spécifiques de chacun des gènes étudiés. Ces fragments servent de sondes pour fixer spécifiquement les fragments de gènes complémentaires appelés cibles. Ces cibles correspondent aux ARNm (ou transcrits) extraits des cellules étudiées, transformés en ADN complémentaires par la technique de rétrotranscription et marqués avec des molécules fluorescentes. Lorsque le fragment d’ADN cible de l’échantillon à tester reconnaît sa séquence complémentaire d’ADN sonde sur la puce, les deux fragments s’apparient pour reconstituer la double hélice : c’est le phénomène d’hybridation. Le signal issu de chaque spot est alors quantifié et numérisé par un système d’imagerie correspondant au marquage utilisé. Les puces à ADN permettent ainsi de déterminer à un instant donné, l’ensemble des gènes exprimés par une cellule et leur niveau d’expression.
Chaque image peut présenter des spots avec des défauts variés qui demandent une stratégie d’analyse particulière. La segmentation a pour but de discerner dans une image les pixels appartenant au signal de ceux du fond, ou provenant d’un signal non spécifique (poussières, petits artefacts). Pour comparer l’efficacité et la rapidité de chacun des algorithmes de segmentation, nous avons sélectionné cinq types de spots représentant au mieux tous les spots rencontrés dans les images. Le résultat de cette comparaison montre qu’il existe un algorithme optimal pour chaque type de spots (voir figure ci-dessous).
Il semble donc intéressant de ne pas appliquer la même méthode de segmentation à tous les spots comme le font tous les logiciels d’analyse d’images, mais de segmenter les spots individuellement avec l’algorithme de segmentation optimal. Mais pour cela, il faut d’abord déterminer automatiquement la catégorie à laquelle appartient le spot. Nous avons donc séparé les spots en plusieurs catégories (spots normaux, saturés, faibles, déformés, possédant des artéfacts, des trous, des pics, …) et nous leur avons associé tout un ensemble de mesures appelées « critères qualités » : mesures d’homogénéité, d’asymétrie, de circularité, d’irrégularité du coutour…etc.. Par apprentissage supervisé, nous pouvons ainsi prédire, à partir des critères qualités, la catégorie d’un spot et donc lui appliquer la méthode de segmentation optimale.
Collaborations :
Thomas Tang (ENSEA, Cergy-Pointoise)
![]()