Annotations de l’ontologie des gènes : ce qu’elles signifient et d’où elles viennent

La perspective du conservateur

Une annotation GO représente un lien entre un type de produit génique et une fonction moléculaire, un processus biologique ou un type de composant cellulaire (un lien, en d’autres termes, entre le produit génique et ce que ce produit est capable de faire, à quels processus biologiques il contribue, et où dans la cellule il est capable de fonctionner dans la vie naturelle d’un organisme). Formellement, une annotation GO consiste en une ligne de 15 colonnes. Pour les besoins de cette discussion, il y a 4 champs primaires : i) l’ID de la base de données publique pour le gène ou le produit génique annoté ; ii) l’ID GO pour le terme de l’ontologie associé au produit génique ; iii) un code de preuve, et iv) la référence/citation pour la source de l’information qui soutient l’annotation particulière (Figure 1). Les curateurs du GOC ont convenu d’utiliser des pratiques standard lors de l’annotation des produits génétiques, les pratiques sont appliquées par des échanges de courriels, des rapports de contrôle de la qualité, des réunions en face à face et des conférences téléphoniques régulières.

Figure 1
figure1

Anatomie d’une annotation. Les annotations sont fournies au Gene Ontology Consortium sous forme de fichiers délimités par des tabulations et comportant 15 champs. Quatre champs indiquent le produit génique annoté, les termes ontologiques utilisés dans l’association, le type de preuve soutenant l’annotation et la référence où la preuve originale a été présentée. Les trois annotations décrites dans ce manuscrit sont présentées.

Des détails supplémentaires sur ces pratiques et sur la structure d’annotation et les processus d’annotation définis par GO sont disponibles sur le site Web de GO . En bref, le processus d’annotation se déroule en une série d’étapes. Premièrement, des expériences spécifiques, documentées dans la littérature biomédicale, sont identifiées comme pertinentes pour les responsabilités du processus de curation d’un curateur donné. Ensuite, le conservateur applique ses connaissances spécialisées à la documentation des résultats de chaque expérience sélectionnée. Ce processus implique de déterminer quels produits génétiques sont étudiés dans l’expérience, la nature de l’expérience elle-même, ainsi que les fonctions moléculaires, les processus biologiques et les composants cellulaires que l’expérience identifie comme étant en corrélation avec le produit génique. Le curateur crée ensuite une annotation qui capture les relations appropriées entre les types d’ontologie correspondants.

Enfin, des processus de contrôle de la qualité de l’annotation sont employés pour garantir que l’annotation a une structure formelle correcte, pour évaluer la cohérence de l’annotation entre les curateurs et les groupes de curateurs, et pour récolter les connaissances émergeant de l’activité d’annotation pour les contributions qu’elles pourraient apporter au raffinement et à l’extension du GO lui-même, et de plus en plus aussi à d’autres ontologies.

Étape 1 : Identification des données expérimentales pertinentes : L’objectif principal de l’effort d’annotation GO est de créer des annotations spécifiques au génome soutenues par des preuves obtenues dans des expériences réalisées dans l’organisme annoté. Cependant, de nombreuses annotations sont déduites d’expériences réalisées dans d’autres organismes, ou ne sont pas déduites d’expériences du tout mais plutôt de connaissances sur les caractéristiques de la séquence du gène en question. Ces informations sont également saisies dans les annotations GO au moyen des codes de preuve correspondants. Il est donc important pour l’utilisateur de ces annotations de comprendre ce que ces codes reflètent, soit qu’une annotation est basée sur des preuves expérimentales soutenant l’assertion, soit qu’une annotation est une prédiction basée sur la similarité structurelle. La différence entre les annotations GO vérifiées expérimentalement et celles dérivées par calcul peut être identifiée dans le fichier d’annotation. Cette complexité, si elle n’est pas prise en compte par l’utilisateur, peut brouiller les analyses de données et compromettre l’objectif de génération d’hypothèses sur la base des ensembles d’annotations GO. Avec une compréhension des types de preuves qui sous-tendent une annotation GO donnée et de la façon dont cette annotation est censée représenter le monde réel, l’utilisateur peut filtrer intelligemment les fichiers d’annotation et récupérer les ensembles d’annotation qui reflètent les types d’expériences et de prédictions qui sont d’une pertinence maximale.

Étape 2 : Identification du terme d’annotation ontologique approprié : La décision quant au terme GO à utiliser dans une annotation dépend de plusieurs facteurs. L’expérience elle-même apportera une certaine limite à la résolution de ce qui peut être compris à partir de ses résultats. Par exemple, le fractionnement cellulaire peut localiser les molécules d’une protéine dans le noyau d’une cellule, mais les expériences d’immunolocalisation peuvent localiser les molécules du même type de protéine dans le nucléole d’une cellule. Par conséquent, le même gène peut avoir des annotations pour différents termes dans la même ontologie parce que les annotations sont basées sur différentes expériences. Des efforts sont faits pour assurer la cohérence des annotations par le biais de contrôles réguliers de la cohérence des annotations. Lorsque des incohérences sont identifiées, le GOC prend des mesures pour les résoudre en travaillant avec les conservateurs concernés et, si nécessaire, avec des spécialistes du domaine. Les limites des méthodes expérimentales peuvent amener les conservateurs à utiliser leur propre expertise scientifique et leurs connaissances de base lors de la sélection d’un terme. Il est important de garder à l’esprit que le choix d’un terme GO est parfois effectué par inférence par l’annotateur sur la base de ses connaissances antérieures. Un exemple serait le cas où la mutation d’un gène domestique entraîne un défaut dans un processus très large tel que la morphogenèse des membres. Un conservateur qui connaît la fonction de ce gène comme étant impliqué dans la physiologie cellulaire de base peut être sûr que le défaut de morphogenèse est un sous-produit de cellules malsaines, et que le produit du gène n’est pas impliqué dans la morphogenèse en soi. La tâche consistant à établir quels sous-processus font partie d’un processus donné et lesquels se trouvent en dehors de celui-ci est un défi non seulement pour les développeurs et les conservateurs d’ontologies, mais aussi pour les biologistes de laboratoire. Une méthode pour résoudre ce problème consiste à définir chaque processus avec un début et une fin discrets. Les développeurs de l’ontologie GO utilisent cette méthode chaque fois que possible pour définir les types de processus. Cela permet aux annotateurs de saisir au mieux les connaissances basées sur le type GO défini. Le GOC a maintenant adopté une politique, déjà mise en œuvre par le groupe MGI, consistant à créer des annotations qui sont « contextuelles ». Cela signifie que des termes provenant d’autres ontologies, comme le type de cellule (CL) (6) et d’autres ontologies OBO Foundry (7), ainsi que du dictionnaire anatomique de la souris (8), sont utilisés conjointement avec les termes GO dans les annotations. En conséquence, l’annotation peut décrire plus précisément la réalité biologique qui doit être capturée.

Annotation de fonction moléculaire

Dans la situation biologique la plus simple, les molécules d’un type donné sont associées à un seul type de fonction moléculaire. Une molécule spécifique m est une instance d’un type de molécule M (représentée par exemple dans la base de données UniProt), et sa propension à agir d’une certaine manière est une instance du type de fonction moléculaire F (représentée par un terme GO correspondant). Ainsi, une molécule du type de produit du gène Adh1, alcool déshydrogénase 1 (classe I), a pour fonction une instance du type de fonction moléculaire activité alcool déshydrogénase. Cela signifie qu’une telle molécule a le potentiel d’exécuter cette fonction dans un contexte donné. Le terme « activité », dans ce sens, est utilisé dans un contexte biochimique ; il est plus approprié de le lire comme signifiant : « activité potentielle ». Il convient de noter que, bien que la même chaîne de caractères, « alcool déshydrogénase », soit utilisée à la fois dans le nom du gène et dans la fonction moléculaire, la chaîne elle-même se réfère à des entités différentes : dans le premier cas, il s’agit du type de molécule ; dans le second, du type de fonction que cette molécule a la propension à exécuter. Cette ambiguïté trouve son origine dans la tendance à nommer les molécules en fonction des fonctions qu’elles exécutent, et il est important de comprendre cette distinction puisque le nom d’une molécule et la fonction moléculaire à laquelle la molécule est attribuée ne concordent pas nécessairement, par exemple parce que la molécule peut exécuter plusieurs fonctions.

Si nous disons que les instances d’un type de produit génique donné ont la propension à exécuter une fonction donnée, cela ne signifie pas que chaque instance de ce type exécutera effectivement cette fonction. Ainsi, les molécules du type de produit génique Zp2 de la souris se trouvent dans l’ovocyte et ont la propension à lier les molécules du type de produit génique Acr pendant la fécondation . Si, toutefois, un ovocyte n’est jamais fécondé, les molécules existent toujours et elles ont toujours la propension à exécuter la fonction de liaison, mais la fonction n’est jamais exécutée.

La preuve expérimentale utilisée pour tester si un type de fonction moléculaire donné F existe se présente sous la forme d’un « essai » pour l’exécution de ce type de fonction dans les molécules d’un certain type spécifique M. Si des instances de F sont identifiées dans un tel essai, cela justifie une annotation de fonction moléculaire correspondante affirmant une association entre M et F. À titre d’exemple, la figure 2 montre les résultats d’un essai pour la fonction moléculaire activité rétinol déshydrogénase tirés d’une étude de Zhang et al. (Tout au long de cet article, nous désignerons les types en italique.) La fonction moléculaire type activité rétinol déshydrogénase est définie dans l’ontologie de la fonction moléculaire par la réaction : rétinol + NAD+ → rétinal + NADH + H+. Les instances des molécules de produits génétiques annotées à ce terme ont le potentiel d’exécuter cette activité catalytique. Dans cette expérience, un extrait de protéine cellulaire a été incubé avec deux substrats, l’all-trans-rétinol (cercles ouverts) ou le 9-cis-rétinol (cercles remplis), et le cofacteur NAD+ pendant 10 minutes et la quantité de rétinal générée a été mesurée. Le graphique montre le taux d’accumulation du produit (rétinal) par rapport à la concentration du substrat (rétinoïde) utilisé. Les résultats montrent que la réaction définie par le type de fonction moléculaire GO activité rétinol déshydrogénase a bien été instanciée – l’exécution de cette fonction a eu lieu. Les occurrences observées de la conversion du rétinol en rétinal sont la preuve de l’existence d’instances de ce type de fonction moléculaire. Dans cette expérience, les instances du type de fonction sont identifiées par l’observation des exécutions réelles. Nous affirmons que certaines molécules de cet extrait ont des fonctions moléculaires de type activité rétinol déshydrogénase car les occurrences d’exécutions d’instances de ce type ont été directement mesurées.

Figure 2
figure2

Données d’annotation de fonction moléculaire. Ce graphique est reproduit de Zhang et al . Le graphique montre la concentration de rétinoïde utilisée comme substrat le long de l’axe X et l’activité rétinol déshydrogénase le long de l’axe Y. Les cercles ouverts font référence à l’all-trans-rétinol comme substrat et les cercles fermés font référence au 9-cis-rétinol comme substrat. Les échantillons d’enzyme ont été prélevés à partir d’un extrait brut de cellules transfectées avec un ADNc codant pour le gène Rdh1.

Annotation de processus biologique

Une instance de fonction moléculaire est le potentiel durable d’une instance de produit génique à agir d’une certaine manière. Une instance de processus biologique est l’exécution d’une ou plusieurs de ces instances de fonction moléculaire travaillant ensemble pour accomplir un certain objectif biologique. Une instance de processus biologique est au niveau de granularité de la cellule ou de l’organisme ce que l’exécution d’une fonction est au niveau de la molécule. Il existe une relation entre les fonctions moléculaires et les processus biologiques. Pour l’instant, cette relation n’est pas représentée explicitement dans GO. Du point de vue de l’annotation des gènes, nous souhaitons aller au-delà des relations instance-instance au niveau de la cellule ou de l’organisme, et acquérir la capacité de déduire des relations type-types qui relient les types de produits génétiques au niveau moléculaire de granularité aux types de processus au niveau de la cellule ou de l’organisme. Nous sommes intéressés par le fait que les molécules d’un type de produit génique donné peuvent être associées à des instances d’un type de fonction moléculaire (connu ou inconnu) dont l’exécution contribue à l’occurrence d’un processus biologique d’un type donné. Il est possible de faire des inférences sur ces relations type-type parce que les expériences sont conçues pour tester ce qui se passe lorsque des conditions biologiques spécifiées sont satisfaites dans des circonstances typiques – circonstances dans lesquelles, grâce aux efforts de l’expérimentateur, des événements perturbateurs n’interviennent pas. Les expériences sont conçues pour être reproductibles et prédictives, décrivant les cas que l’on s’attend à trouver dans des systèmes biologiques répondant aux conditions définies. Si les expériences futures montrent que les expériences précédentes n’ont pas décrit la situation typique prévue, alors les conclusions des expériences précédentes sont remises en question et peuvent être réanalysées et réinterprétées, voire entièrement rejetées, et les annotations correspondantes doivent alors être modifiées en conséquence.

Les annotations de cette manière indiquent parfois des erreurs dans les relations type-type décrites dans l’ontologie. Un exemple est la suppression récente du type sécrétion de sérétonine en tant qu’is_a child de la sécrétion de neurotransmetteur dans l’ontologie GO Biological Process. Cette modification a été faite à la suite d’une annotation d’un article montrant que la sérotonine peut être sécrétée par des cellules du système immunitaire où elle n’agit pas comme un neurotransmetteur.

Les associations entre les produits génétiques et les processus biologiques, aussi, peuvent être détectées expérimentalement. Lorsque des instances du type de processus biologique P sont détectées, soit par observation directe, soit par dosage expérimental, comme étant associées à des instances d’un type de produit génique donné M, alors cela justifie l’affirmation de ce type d’association entre M et P qui est appelée une annotation de processus biologique.

Pour les espèces d’organismes où les outils d’étude génétique peuvent être appliqués avec succès, l’association des types de produits génétiques avec les types de processus biologiques est généralement réalisée par l’étude des perturbations des processus biologiques suite à une mutation génétique. Les conservateurs utilisent le code de preuve IMP pour ces annotations. La figure 3 montre un exemple d’analyse mutationnelle effectuée par Washington-Smoak et al sur les effets d’une mutation du gène Shh sur le développement du cœur de la souris. Le panneau de gauche montre l’image d’un cœur avec des copies normales du gène (WT) à 16,5 jours d’embryogenèse ; le panneau de droite montre un cœur avec des copies défectueuses du gène à 16,5 jours d’embryogenèse. La figure montre clairement que le développement des voies d’écoulement du cœur est défectueux chez l’embryon porteur du gène défectueux. L’ontologie GO Biological Process définit le type développement du cœur comme : ‘le processus dont le résultat spécifique est la progression du cœur dans le temps, de sa formation à la structure mature. Le cœur est un organe creux et musculaire qui, en se contractant rythmiquement, maintient la circulation du sang.’

Figure 3
figure3

Données d’annotation de processus biologique. Cette figure est reproduite à partir de Washington Smoak et al . La figure montre des micrographies de cœurs dans des embryons de souris de 16,5dpc. La figure de gauche montre un animal avec deux copies fonctionnelles du gène Shh et la figure de droite montre un animal sans copie fonctionnelle. Ao et Pa indiquent respectivement l’aorte et l’artère pulmonaire. Le ? indique une voie d’écoulement aberrante. Reproduit de Developmental Biology, 283, Washington Smoak et al, Sonic hedgehog is required for cardiac outflow tract and neural crest development, 357-72, Copyright 2005, avec la permission d’Elsevier.

Figure 4
figure4

Annotation des composants cellulaires. Cette figure est reproduite de MacPhee et al . La figure montre des micrographies qui sont les résultats d’une localisation par immunofluorescence de la protéine ATP1A1. Les zones éclairées montrent la localisation de la protéine le long de la membrane plasmique. Réimprimé de Developmental Biology, 222, MacPhee et al, Differential involvement of Na(+),K(+)-ATPase isozymes in preimplantation development of the mouse, 486-498, Copyright 2000, avec la permission d’Elsevier.

Sur la base de l’étude mutationnelle rapportée dans Washington-Smoak et al, un curateur MGI a réalisé une annotation reliant le développement cardiaque et le gène Shh en utilisant le code de preuve IMP (Fig. 1). Cette annotation repose sur l’identification chez l’animal normal d’une molécule du produit du gène Shh ayant une fonction moléculaire dont l’exécution contribue à une occurrence du processus biologique du développement cardiaque. Nous savons que le processus biologique du développement cardiaque existe car nous l’observons chez l’animal normal. Nous savons qu’une molécule de SHH contribue à ce processus car lorsque nous supprimons toutes les instances du produit du gène Shh chez un animal, le processus de développement cardiaque est perturbé. L’annotation affirme donc qu’une molécule de protéine SHH a le potentiel d’exécuter une fonction moléculaire qui contribue à une instance du type développement cardiaque dans l’ontologie des processus biologiques. Nous généralisons également que l’exécution de la fonction moléculaire d’une molécule de SHH chez une souris donnée contribuera d’une certaine manière au développement du cœur de cette souris. Cependant, les résultats de tout essai phénotypique sont limités à la résolution du phénotype lui-même. Dans l’expérience décrite ci-dessus, nous avons validé le processus biologique, mais nous ne pouvons faire aucune déduction directe sur la nature de la fonction exécutée. C’est pour cette raison et pour d’autres raisons pratiques que les ontologies de la fonction moléculaire et du processus biologique ont été développées indépendamment.

Annotation des composants cellulaires

Dans une grande majorité de cas, les annotations reliant le produit génique aux types de composants cellulaires sont faites sur la base d’une observation directe d’une instance du composant cellulaire au microscope, comme par exemple dans , qui rapporte une expérience dans laquelle un anticorps qui reconnaît les produits géniques du gène Atp1a1 est utilisé pour marquer l’emplacement des instances de ces produits dans les embryons de souris préimplantés (Figure 4). La coloration fluorescente montre que les produits du gène sont situés au niveau de la membrane plasmique des cellules de ces embryons. Dans ce cas, les instances des produits génétiques sont les molécules liées par les anticorps fluorescents, et l’instance du composant cellulaire est la membrane plasmique que l’on observe au microscope. Un conservateur a donc utilisé les résultats de cette expérience pour effectuer une annotation du produit du gène ATP1A1 au composant cellulaire GO membrane plasmique (Fig. 1). Comme pour les fonctions moléculaires et les processus biologiques, il existe également une relation entre la fonction moléculaire et le composant cellulaire. Il est facile d’émettre l’hypothèse que, si une molécule d’un produit génique est trouvée dans une instance d’un composant cellulaire donné, alors ce produit génique a le potentiel d’exécuter sa fonction dans ce composant cellulaire également. Si l’exécution de la fonction est détectée dans le composant, nous pouvons alors faire une généralisation concernant le type de fonction moléculaire et le type de composant cellulaire. Nous supposons, sur la base des données expérimentales accumulées, qu’un nombre suffisant d’instances du produit génique exécuteront leurs fonctions dans une certaine instance du type de composant cellulaire et qu’un nombre suffisant de molécules exécuteront leurs fonctions de telle sorte que ces exécutions deviennent biologiquement pertinentes. Comme pour la fonction moléculaire et le processus biologique, les preuves expérimentales de la fonction moléculaire et les annotations des composants cellulaires sont souvent séparables. Par conséquent, d’un point de vue pratique, ces ontologies sont également développées séparément.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.