La première séquence complète d’ADN d’un génome eucaryote, celui de la levure Saccharomyces cerevisiae, a été publiée sous forme électronique il y a plus d’un an (1). Il ne fait aucun doute que chaque membre du consortium international de biologistes spécialistes de la levure a fait valoir à son propre organisme de financement en Europe, au Japon, en Grande-Bretagne, au Canada ou aux États-Unis que cette levure serait un excellent « organisme modèle », utile pour interpréter et comprendre les séquences d’ADN humain. A quel point avaient-ils raison ?
Il était clair, bien avant le début du séquençage systématique des génomes, qu’il existe des gènes chez la levure et les mammifères qui codent pour des protéines très similaires (2). Certaines homologies – dont les protéines des systèmes moléculaires (par exemple, les ribosomes et les cytosquelettes) – n’étaient pas une surprise. D’autres, en revanche, étaient tout à fait inattendues. Un premier exemple particulièrement inquiétant a été la découverte chez la levure de deux homologues proches (RAS1 et RAS2) du proto-oncogène ras des mammifères ; les cellules de levure dépourvues de ces deux gènes sont inviables. En 1985, ce système a donné lieu au premier des nombreux tests délibérés de conservation fonctionnelle : La séquence H-ras de mammifère a été exprimée dans une souche de levure dépourvue des deux gènes RAS, avec le résultat remarquable que la viabilité a été restaurée, indiquant une profonde conservation non seulement de la séquence, mais aussi de la fonction biologique détaillée (3).
Avec la séquence complète du génome de la levure en main, nous pouvons estimer combien de gènes de levure ont des homologues mammifères significatifs. Nous avons comparé (4) toutes les séquences de protéines de levure aux séquences de mammifères dans GenBank . Le résultat (voir le tableau) est encourageant : Pour près de 31 % de tous les gènes potentiels codant pour des protéines de la levure (cadres de lecture ouverts, ou ORF), nous avons trouvé un homologue statistiquement robuste parmi les séquences protéiques de mammifères (5). Il s’agit clairement d’une sous-estimation, car les bases de données ne contiennent certainement pas encore les séquences de toutes les protéines de mammifères ou même des représentants de chaque famille de protéines. Beaucoup de ces similitudes concernent des domaines individuels, et non des protéines entières, reflétant sans doute le brassage des domaines fonctionnels caractéristique de l’évolution des protéines.
Tableau 1
Homologues mammaliens (sur la base de la valeur P)
Valeur P | Nombre d’ORF à valeur P ou inférieure |
Pourcentage du total des ORF (n = 6223) |
Pourcentage des ORF à fonction inconnue |
---|---|---|---|
1 × 10-10 | 1914 | 30.8 | 34 |
1 × 10-20 | 1553 | 25.0 | 30 |
1 × 10-40 | 1083 | 16.8 | 26 |
1 × 10-60 | 784 | 12.6 | 23 |
1 × 10-80 | 576 | 9.3 | 22 |
1 × 10-100 | 442 | 7.1 | 21 |
1 × 10-150 | 221 | 3.6 | 23 |
1 × 10-200 | 101 | 1,6 | 25 |
Même si S. cerevisiae fait partie des organismes expérimentaux les mieux étudiés, 60% de ses gènes n’ont toujours pas de fonction déterminée expérimentalement. Parmi ceux-ci, la majorité présente néanmoins une certaine similitude ou un motif suggérant des fonctions possibles, ce qui laisse environ 25 % (en nombre réel) sans aucun indice. En compilant les données du tableau, nous avons observé que les gènes présentant une homologie avec des séquences de mammifères sont beaucoup moins susceptibles de n’avoir rien de connu expérimentalement sur leur fonction. Seuls 34 % de l’ensemble des gènes de levure ayant des homologues de mammifères n’ont aucune fonction répertoriée dans la base de données du génome de Saccharomyces, contre moins de 25 % des gènes ayant l’homologie la plus forte. Nous n’en connaissons pas la raison, même si nous n’excluons pas l’idée optimiste que les biologistes de la levure ont réussi à se concentrer sur les gènes les plus importants (ceux qui sont les plus susceptibles d’être conservés).
La probabilité qu’un gène humain nouvellement découvert ait un homologue de la levure avec au moins quelques informations fonctionnelles sur l’un de ses domaines est donc assez bonne. La manipulation génétique dans la levure est facile et bon marché, alors qu’une telle manipulation, même lorsqu’elle est possible dans les systèmes des mammifères, n’est ni facile ni bon marché. Il existe en outre la possibilité d’exploiter la compatibilité fonctionnelle par la méthode décrite ci-dessus pour les gènes RAS. Au moins 71 gènes humains complètent les mutations de la levure ; il s’agit certainement d’une sous-estimation (6). Ainsi, l’information sur les gènes humains obtenue par l’étude de leurs homologues chez la levure a un excellent prix.
Les meilleurs exemples de la valeur de la levure comme système modèle concernent les gènes de maladies humaines qui ont été cartographiés par liaison, clonés en position, puis séquencés. En général, on ne sait rien de ces gènes, si ce n’est que leur transmission entraîne une maladie. La séquence du gène fournit généralement le premier indice de sa fonction par le biais de l’homologie avec les gènes d’autres organismes, généralement S. cerevisiae (7). Parmi les meilleures correspondances, on trouve les gènes humains responsables du cancer héréditaire du côlon sans polypose (MSH2 et MLH1 dans la levure), de la neurofibromatose de type 1 (IRA2 dans la levure), de l’ataxie télangiectasie (TEL1 dans la levure) et du syndrome de Werner (SGS1 dans la levure). Deux d’entre eux ont des histoires particulièrement illustratives.
Les cancers héréditaires du côlon sans polypose ont un phénotype cellulaire : l’instabilité de courtes séquences répétées dans les cellules tumorales. Stimulés par ce résultat, et avant même que les gènes humains aient été clonés, les chercheurs en levure ont isolé des mutations dans des gènes de levure présentant le même phénotype (notamment des mutations dans MSH2 et MLHI), prédisant que les gènes du cancer du côlon étaient probablement leurs homologues (8).
Le syndrome de Werner est une maladie présentant plusieurs caractéristiques de vieillissement prématuré. Là encore, il existe un phénotype cellulaire, qui comprend une durée de vie réduite en culture. La séquence du gène humain s’est avérée très similaire à celle du gène SGS1 de la levure, qui code pour une hélicase de l’ADN. A la page 1313 de ce numéro, Sinclair et al. (9) rapportent que les cellules de levure mutantes SGS1 ont une durée de vie nettement réduite et partagent d’autres phénotyes cellulaires avec les cellules de personnes atteintes du syndrome de Werner.
La levure s’est donc effectivement révélée être un « modèle » utile pour la biologie eucaryote. Il est amplement justifié d’intensifier les efforts pour déterminer les rôles fonctionnels des 60 % de gènes de levure restants dont la fonction n’est toujours pas connue. Il existe également de nombreuses raisons individuelles de porter encore plus d’attention à des gènes tels que MSH2 et SGS1. Ces gènes de levure peuvent représenter la voie la plus efficace pour comprendre le cancer du côlon et le vieillissement causés par des mutations dans leurs homologues humains.