Lumière sur la métagénomique

Dans les articles « Lumière sur », nous vous présenterons les différents domaines existants en bio-informatique afin de vous éclaircir les idées si vous n’y êtes pas familiers. Cette semaine, on vous parle de la métagénomique.


I. Les intérêts de la métagénomique

Les microorganismes colonisent et influent tous les types d’environnements : l’eau, le sol, et même notre propre organisme. Leur importance est reconnue car ils sont impliqués aussi bien dans les cycles biogéochimiques de l’environnement que dans le bon fonctionnement (ou non) de notre santé.  L’étude de ces microorganismes est donc importante afin de mieux comprendre leurs impacts. Cependant, la plupart des microorganismes sont difficiles à étudier car on ne peut pas les cultiver en laboratoire.

En effet, chaque organisme ont des besoins nutritionnels spécifiques pour se développer. Reproduire un habitat naturel en laboratoire est un exercice qui demande beaucoup d’exigence car il faut être capable de reproduire les mêmes conditions de température, de pression, de concentrations en minéraux. Outre ces facteurs environnementaux, un microorganisme peut également vivre en symbiose avec une autre espèce (microorganisme, plante, animal), ce qui rend son isolation impossible.

Pour pouvoir les étudier, une nouvelle branche de la bio-informatique, dérivée de la génomique a émergé : il s’agit de la métagénomique. Ce domaine a été défini pour la première fois il y a 20 ans dans les études de Handelsman et al. (1998) comme étant la collecte de tous les génomes des membres d’une communauté microbienne à partir d’un certain environnement.  La définition moderne, introduite par Chen et Pachter (2005) a évolué pour devenir l’application des techniques de génomique moderne pour l’étude des communautés microbiennes directement dans leur habitat naturel, contournant le besoin d’isolation et de culture in vitro.

En résumé, on récupère un échantillon environnemental qui nous intéresse et on le met dans une machine de séquençage où TOUS les génomes des organismes présents dans l’échantillon seront identifiés ! Le challenge par la suite sera donc d’identifier ces fameux organismes.

Ce type d’étude a donc été rendu possible grâce à l’émergence des technologies de séquençages de nouvelle génération (NGS) et la baisse de leur prix d’utilisation. Ces technologies permettent de séquencer des milliers de morceaux d’ADN en quelques heures, entraînant la création d’énormes quantités de données et la création de nouvelles techniques pour pouvoir les traiter.

II. Les approches en métagénomique

Le terme de métagénomique englobe différentes méthodes. D’un côté il y a la métagénomique WGS (Whole Genome Shotgun) et de l’autre la métagénomique ciblée aussi appelée Metabarcoding. Celles-ci permettent de répondre à des problématiques distinctes.

Il ne faut pas oublier que peu importe la technique utilisée, les résultats obtenus sont représentatifs d’une communauté à un endroit et à un temps donné. Ces résultats peuvent donc changer, c’est pourquoi, il est important d’avoir un échantillonnage robuste, soit de nombreux échantillons prélevés à des conditions spatiales et temporelles similaires.

De plus, les méthodes de séquençages peuvent également influencer la détection des microorganismes présents. Il est donc nécessaire d’effectuer le séquençage avec une profondeur élevée (séquençage répété plusieurs dizaines de fois à partir du même matériel génétique).

Les deux approches utilisées en métagénomique (Schéma simplifié. Copyright : savvy-bioinformatics)

A. La métagénomique WGS

La métagénomique WGS permet d’étudier l’ensemble du contenu génomique d’un échantillon, c’est-à-dire que l’on va pouvoir étudier et assembler les différents génomes présents dans un échantillon et cela sans a priori. Cette méthode permet une analyse presque exhaustive de la diversité d’un environnement, ainsi que la caractérisation taxonomique d’une communauté microbienne. Ce terme barbare de caractérisation taxonomique signifie tout simplement qu’on va identifier leurs noms d’espèces.

L’utilisation de WGS permet d’identifier les gènes associés à chaque espèce au sein d’une communauté microbienne, et par extension permet de découvrir les fonctions auxquelles ces derniers sont associés. Par exemple, dans un échantillon environnemental riche en azote, on peut identifier des microorganismes qui possèdent des gènes impliqués dans le transport ou l’assimilation pour ce gaz.
Néanmoins, cette méthode est plus coûteuse que la métagénomique ciblée et engendre une quantité de données encore plus importante.

B. La métagénomique ciblée

La métagénomique ciblée quant à elle se base sur les informations taxonomiques de marqueurs génomiques spécifiques afin d’étudier la taxonomie et la diversité d’une communauté microbienne. Cela signifie qu’on connaît déjà les organismes qu’on s’attend à étudier dans notre échantillon et qu’on connaît certains de leurs gènes associés. Dans ce cas, seul un locus spécifique est choisi pour être séquencé et analysé, la quantité de données est donc réduite par rapport à la métagénomique WGS.

Dans la plupart des études utilisant la métagénomique ciblée, ce sont les différentes sous-unités et régions de l’ARN ribosomal (ARNr) qui sont ciblées. Les ARNr sont des molécules très conservées au sein des différentes espèces vivantes eucaryotes comme procayotes, ils sont importants car ils constituent le ribosome, une machinerie cellulaire complexe qui permet la traduction des ARN messagers en protéines.

Le choix de la méthode métagénomique sera adapté en fonction des questions auxquelles une étude cherche à répondre. De plus, afin de corréler les résultats obtenus grâce au traitement des données avec l’environnement étudié, il est indispensable de collecter des métadonnées, c’est-à-dire des données qui sont caractéristiques de l’environnement étudié et qui peuvent être collectées pour chacun des échantillons.

III. Les différentes méthodes d’analyse

Après le séquençage, on obtient des fichiers contenant tous les bouts de séquences présents dans nos échantillons. Avant de commencer les analyses, il est important de nettoyer et filtrer les données pour éviter au maximum les biais qui peuvent fausser les résultats. Il existe ensuite deux méthodes distinctes pour l’analyse des données métagénomique.

A) L’analyse par regroupement OTU B) L’analyse par regroupement taxonomique (Schéma simplifié. Copyright : savvy-bioinformatics)

A. L’analyse par regroupement

Dans un premier temps, nous avons l’analyse par regroupement dont le but va être de regrouper les séquences similaires à un pourcentage choisi (historiquement on utilise 97% d’identité) pour créer ce que l’on appelle des Unités taxonomiques opérationnelles (ou OTU). Un OTU va donc regrouper toutes les séquences qui sont identiques à 97%. Plusieurs algorithmes de tri et de regroupement existent pour créer les OTUs.

De chaque OTU, une séquence représentative va ensuite être extraite afin de représenter l’ensemble du groupe. Un OTU est donc considéré comme une “espèce” afin de faciliter la suite des analyses, même si cela ne repose sur aucun fondement biologique, la valeur d’identité étant choisie arbitrairement. C’est la séquence représentative de l’OTU qui va ensuite être comparée à une base de données afin de trouver l’annotation taxonomique de notre “espèce”.

Note : Je me permets d’utiliser le mot “espèce” pour décrire un OTU, car il me parait plus simple à visualiser pour un débutant. Mais il faut se rappeler que ce n’est pas une réalité biologique, surtout que de nos jours, il est encore difficile d’atteindre le niveau de l’espèce lors de la classification taxonomique.

Les outils les plus connus qui suivent ce principe sont QIIME [Caporaso et al., 2010], Mothur [Schloss et al., 2009] et VSEARCH [Nichols and Quince, 2016].

Il existe 3 différentes méthodes pour la création des OTUs :

  • La sélection de novo : les lectures sont regroupées après comparaison des lectures entre elles sans l’aide d’une référence externe.
  • La sélection close-reference : Les lectures sont regroupées après comparaison des lectures avec une base de données. Les lectures qui n’ont pas d’équivalent dans la base sont ignorées.
  • La sélection open-reference : Les lectures sont regroupées après comparaison des lectures avec une base de données. Les lectures qui n’ont pas d’équivalent dans la base sont comparées entre elles de façon à créer des OTUs de novo.

B. L’analyse par assignation taxonomique

La deuxième approche, plus récente, est une approche d’analyse par assignation taxonomique. Cette méthode ne regroupe pas les lectures selon leurs similarités intrinsèques mais les compare dans un premier temps à une base de données de référence. Chaque lecture va donc être assignée à une taxonomie. Si plusieurs séquences possèdent la même taxonomie, les lectures seront regroupées dans différentes unités taxonomiques basées sur leur classification.

Nous pouvons notamment citer Kraken   [Wood and Salzberg, 2014], CLARK [Rachid et al., 2015] et One codex [Minot et al., 2015], comme outils qui suivent cette approche.


Quelques exemples de projet en métagénomique

La métagénomique est un domaine assez complexe mais toutefois passionnant et qui peut s’appliquer à tout type d’environnement. On l’utilise aussi bien dans le domaine de la santé, que de la recherche à des fins de bio-rémédiation des environnements pollués que des recherches descriptives. Pour vous éclairer un peu plus, voici différents projets et laboratoires qui utilisent la métagénomique pour leurs recherches :

  • TaraOcean, commencé en  2009, est un projet dont  le but est de cerner les effets du réchauffement planétaire sur les systèmes planctoniques et coralliens. Un tour du monde en bateau a été mené durant 3 ans.
  • MetaHIT est un projet européen visant à caractériser les microorganismes présents au sein du microbiote humain.
  • On peut également citer le NIH Human microbiome project qui étudie également le microbiote humain.

Pour en savoir plus :