Séquences codantes de gènes humains fonctionnels entièrement dérivés de séquences d'éléments mobiles

Résultats et discussion

AD7C. AD7C est un gène de protéine de fil neuronal. Il code pour une phosphoprotéine membranaire de 41 kDa qui est utile dans le diagnostic de la maladie d’Alzheimer précoce (14, 15). La séquence codante est longue de 1 128 nt et repeatmasker montre qu’elle est constituée de fragments de cinq (ou quatre, voir ci-dessous) séquences Alu. Toutes les correspondances sont avec les compléments inverses des répétitions Alu. L’alignement est résumé dans le tableau 2. Sont listés le pourcentage de similarité et la longueur de chacune des régions des séquences Alu les mieux appariées, qui diffèrent de manière inconséquente de celles publiées dans la réf. 14.

Voir ce tableau :

Voir en ligne
Voir en popup

Tableau 2. Résumé de l’alignement de AD7C

Premièrement, un AluSp correspond avec une précision de 92% aux 281 premiers nt de la séquence codante. Après un écart de 3 nt, 141 nt d’AluJo correspondent avec une précision de 87%. Puis, après 2 nt, une partie supplémentaire de la séquence AluJo correspond à 93% pour 167 nt incluant une partie importante de la queue poly(A), modifiée par deux substitutions qui affectent la traduction. Ces deux courts fragments semblent représenter un homologue de la séquence Alu dans la séquence codante, mais un réarrangement a apparemment eu lieu car il y a des régions de l’AluJo qui se chevauchent. Ensuite, il y a une correspondance de 92% pour 302 nt à un AluSc, incluant une partie importante de la queue poly(A) qui est modifiée. Enfin, il y a une correspondance de 88% pour 239 nt avec un AluSx, incluant également une région importante de la queue poly(A) qui est modifiée. Dans le génome, cette correspondance continue après la fin de la région de la séquence codante et il y a une autre correspondance à une séquence Alu (données non présentées).

Il semble que toute la région codante du gène a été faite à partir d’un amas de séquences Alu. Les écarts de quelques nucléotides entre les correspondances individuelles de séquences Alu ne sont probablement que des détails du processus d’alignement de repeatmasker et peuvent être ignorés. Il est intéressant de savoir combien de changements se sont produits dans les séquences pour former un gène utile à partir des séquences ME. Les séquences Alu résumées dans le tableau 2 sont simplement les meilleures correspondances de la collection repeatmasker et ne sont pas nécessairement les séquences Alu qui étaient présentes dans le cluster Alu original, de sorte qu’il n’est pas possible en général d’identifier les changements de séquence qui se sont produits. Un échantillon peut être estimé en examinant les trois chaînes poly(A) qui sont incluses. Elles totalisent 60 Ts dans les séquences Alu complémentaires. Dans ces régions poly(T), huit changements ont eu lieu, conduisant tous à des codons traduisibles pour des acides aminés autres que la phénylalanine. Elles consistent en six substitutions de A et deux insertions de deux As chacune. Ce changement de ≈17% dans ce petit échantillon suggère une sélection positive. Bien sûr, il n’y a qu’une seule substitution silencieuse possible dans une rangée de Ts, le passage de T à C dans la troisième base. En outre, il y a quatre cas de séquences internes riches en T dans les cinq séquences Alu concernées, et dans l’un d’entre eux, une telle substitution silencieuse s’est produite. Dans deux de ces cas, des différences de longueur sont apparues, résultant d’une délétion de six bases et d’une insertion de quatre bases, conduisant, bien sûr, à des codons traduisibles. Il s’agit d’un cas clair dans lequel un groupe de répétitions Alu a été converti en un gène humain actif. Nous ne savons pas encore comment est organisée la région de contrôle 5′. Avec cette information, nous serons un jour en mesure d’en dire plus sur le processus évolutif qui a créé le gène. Il a été souligné qu’une représentation pleine longueur identifiable dans le génome humain (build 34) n’est similaire qu’à 97% à la séquence de l’ARNm AD7C (A. F. Smit, communication personnelle) (14). Les différences sont telles que la séquence génomique n’est pas traduisible sur une longueur significative. Aucune meilleure copie génomique de l’ARNm n’a été trouvée, mais le gène pourrait contenir des introns et pourrait être difficile à identifier en raison des séquences Alu.

BNIP3. BNIP3 est le gène d’une protéine impliquée dans le contrôle de l’apoptose par l’interaction avec d’autres protéines (16-18). L’intitulé de l’entrée dans OMIM (Online Mendelian Inheritance in Man) est BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3 : BNIP3. Le tableau 1 montre que 97% de la séquence codante est étroitement liée à celle de HERV70RM. HERV70RM est le nom que j’utilise pour la version de HERV70 qui est incluse dans la bibliothèque de repeatmasker et il est nommé un rétrovirus endogène humain, bien qu’il ne contienne pas de résidus de gènes rétroviraux reconnaissables. Il a une longueur de plus de 7 kb, et les relations avec la séquence codante de BNIP3 se produisent après le nucléotide 4641 de HERV70RM. La séquence codante de l’ARNm de BNIP3 s’aligne entièrement avec la séquence de HERV70RM, même si le gène est constitué de 6 exons répartis sur près de 15 kb d’ADN. Pour aider à résoudre cette relation, repeatmasker a été exécuté contre le gène entier, et les résultats sont présentés dans le tableau 3. La plupart de ces données proviennent de la sortie de repeatmasker, et deux colonnes sont ajoutées pour montrer l’emplacement des exons dans le gène. Dans la plupart des cas, l’identification d’un segment HERV70RM dans le gène s’aligne étroitement avec les exons. Cette concordance est si bonne que l’histoire semble évidente. Il est probable qu’une partie de l’HERV70RM d’environ 4 à 7 kb a été convertie en un gène sans introns, qui a dû évoluer et devenir utile, et plus tard les introns y ont été insérés pour aboutir au gène moderne BNIP3. En fait, il existe une séquence BNIP3P sur le chromosome 14 qui est identifiée comme un pseudogène car elle est dépourvue d’introns et donne une très bonne correspondance dans une recherche effectuée avec l’ARNm BNIP3 en utilisant le souffle du génome humain. Il s’agit peut-être d’un fossile du stade précoce de cet événement ou d’un pseudogène réel fabriqué à partir de l’ARNm à un stade ultérieur.

Voir cette table :

Voir en ligne
Voir en popup

Tableau 3. MEs dans le gène BNIP3

Pour explorer davantage cette interprétation, la séquence codante a été alignée avec la séquence HERV70RM en utilisant les séquences blast2. Le résultat a montré deux copies de la région cds presque complète aux emplacements 5507-6073 et 6732-7289 dans la séquence HERV70RM, correspondant ≈80%. Ainsi, les emplacements indiqués dans le tableau 3 dans HERV70RM sont simplement les meilleurs ajustements de repeatmasker et ne montrent pas nécessairement les origines réelles de la séquence codante de BNIP3. Il semble probable qu’elle soit issue d’une copie de l’une des régions de HERV70RM. Le tableau 3 montre un exemple de similarité de séquence entre HERV70RM et une région du gène qui n’est pas un exon de BNIP3. L’histoire de cette région n’est pas claire. Quoi qu’il en soit, il est clair que la plupart des exons du gène BNIP3 dérivent d’une portion continue de HERV70RM. Cela semble être un bon cas d' »introns tardifs » parce qu’il n’y a aucune autre explication qui vient à l’esprit pour la présence d’une série de morceaux connectés de HERV70RM largement répandus dans le gène BNIP3.

Une question importante est la nature de HERV70RM. La copie utilisée dans ces études est répertoriée dans la bibliothèque des séquences répétées humaines répertoriées dans repeatmasker. Elle est incomplète et n’est pas un rétrovirus endogène classique. La base de données hervd (http://herv.img.cas.cz) répertorie de nombreuses régions du génome humain dont la séquence est similaire à ce que j’appelle ici HERV70RM, bien qu’aucune d’entre elles ne corresponde à une longueur de plus de ≈1 kb. En fait, il y a un ensemble de 63 séquences dans cette base de données qui correspondent aux cds BNIP3, bien que la plupart d’entre elles ne montrent qu’une courte région correspondante. La situation doit être clarifiée car il existe de nombreuses entrées dans la base de données hervd appelées HERV70 qui ne montrent aucune similarité de séquence avec HERV70RM. Il n’y a pas de copie complète de HERV70RM dans la version actuelle du génome humain, et son statut de séquence de rétrovirus endogène humain est donc douteux. blast of the human genome (filter off) qui recherche HERV70RM trouve de nombreux résultats et présente certains exemples comme s’il s’agissait de correspondances complètes. Ils n’existent pas, et le programme les a assemblés à partir de groupes de correspondances fragmentaires proches.

Lorsque repeatmasker est exécuté contre HERV70RM, deux petits fragments de séquences Alu sont trouvés, ainsi que d’autres ME en son sein. Il y a des régions que repeatmasker identifie comme HERV70 (HERV70RM), et celles-ci incluent la région des copies des séquences codantes de BNIP3. Un avertissement est nécessaire ici parce que le blast du génome humain (filter off, default) ne trouve que 3 séquences correspondantes pour la séquence codante BNIP3 sur les 63 qui existent dans la base de données hervd. Je confirme le fait qu’il y a beaucoup de fragments correspondants à la séquence codante (cds), en trouvant 120 dans le génome humain en utilisant blast. Il s’agit d’un point important car ces données, indépendamment de l’interprétation de HERV70RM, montrent que la séquence cds du gène BNIP3 est étroitement liée in toto aux séquences d’un ME. Nous ne savons peut-être pas exactement ce qu’est ce ME, mais il existe de nombreuses copies de cette région de celui-ci dans le génome humain, allant de précises à très divergentes.

Le gène BNIP3 se trouve dans le génome de la souris , et la séquence codante correspond à l’humain avec une précision de 89%. Les séquences protéiques correspondent avec une précision de 90 %, à l’exception d’un écart de 5 aa et d’un écart de 1 aa dans la protéine de la souris. L’arrangement du gène est similaire, avec 6 exons s’étendant sur ≈15 kb. La longueur des exons est identique à celle des exons humains, à l’exception des lacunes de 15 et 3 nt correspondant aux différences entre les protéines. Comme les cds correspondent si étroitement en termes de séquence, les exons de BNIP3 de souris présentent la même relation avec le HERV70RM humain que les exons de BNIP3 humains. Il est intéressant de noter qu’il n’y a aucune séquence dans le génome de la souris, vue par explosion du génome de la souris, qui correspond à l’HERV70RM humain, à l’exception des exons BNIP3. Il n’y a apparemment aucun ERV équivalent dans le génome de la souris, bien que, bien sûr, de nombreux autres HERV et MERV partagent la même séquence. repeatmasker peut être utilisé avec les répétitions humaines ou les répétitions de la souris pour examiner la région du gène BNIP3 de la souris. Avec les répétitions humaines, les exons du BNIP3 de la souris sont reconnus comme des séquences HERV70RM, mais avec les répétitions de la souris, aucune séquence ne correspond. Les exons des deux gènes sont presque identiques. Les séquences nucléotidiques des cds BNIP3 de la souris et de l’homme correspondent étroitement (90%). Les K s entre les séquences codantes de la souris et de l’homme sont de 0,41 et K a = 0,047 (K s est la divergence due aux substitutions synonymes, et K a est la divergence due aux changements qui entraînent le remplacement des acides aminés) (19). Cette similitude suggère que, quels que soient les événements, ils se sont produits très loin dans le passé.

Le gène BNIP3 a également été séquencé chez le rat, et le cds est similaire à 95% à celui du BNIP3 de la souris, donc les mêmes arguments s appliquent. Le K s entre les séquences codantes du rat et de l’homme est de 0,37 et K a = 0,048 (20). Le blast du génome du rat trouve un exon BNIP3 et deux autres séquences de rat similaires à des parties de HERV70RM humain, alors que le blast du génome de la souris ne trouve qu’un exon BNIP3 avec une similarité avec HERV70RM humain. Sur la base d’une recherche de GenBank, le poulet (Gallus gallus) a une séquence d’ARNm similaire à la BNIP3 humaine. Il y a une correspondance de 367 sur 453 nt, soit 81%, dans une grande région et des preuves d’autres régions plus petites de similarité. Il semble qu’un examen complet de l’évolution et des relations de BNIP3 et de HERV70RM serait utile chez un certain nombre d’espèces.

Syncytine. Cet exemple est répertorié par Smit (4) et est inclus ici car des preuves récentes montrent que la Syncytine est un gène fonctionnel dans le placenta humain (21, 22). L’ARNm est dérivé in toto du rétrovirus endogène HERV-W, qui est présent en de nombreuses copies dans le génome humain. Les auteurs (21) identifient ERVWE1 comme la région du gène qui est la source de la transcription, bien que cela ne soit pas certain. ERVWE1 est long de 10,2 kb et consiste en l’arrangement habituel LTR-gag-pol-env-LTR. L’ARNm de Syncytin a une longueur de 2,8 kb et consiste en la 5′ LTR, une certaine séquence supplémentaire, le gène env et la 3′ LTR. Le cds de 1 617 nt comprend uniquement le gène env du rétrovirus endogène. En son sein, on peut identifier des régions qui sont fonctionnellement significatives pour la Syncytine. On ne sait pas exactement quel degré de changement évolutif a eu lieu dans le gène env pour qu’il assume sa fonction actuelle. Entrez Gene liste ce que l’on appelle des GeneRIFs (www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html):

Env La glycoprotéine HERV-W médiatise la fusion cellule-cellule lors de l’interaction avec le récepteur des rétrovirus mammaliens de type D. La protéine Env a été détectée dans le syncytiotrophoblaste placentaire, suggérant un rôle physiologique pendant la grossesse et la formation du placenta.
Contributeur à l’architecture normale du placenta, notamment dans les processus de fusion des cytotrophoblastes vers les syncytiotrophoblastes. L’expression génétique de la Syncytine peut être altérée dans les cas de dysfonctionnement placentaire tels que la prééclampsie ou le syndrome HELLP.
L’abondance de l’ARNm de la Syncytine a montré une stimulation par la forskoline dans les cellules BeWo.
La fusion trophoblastique médiée par la Syncytine dans les cellules humaines est régulée par le GCMa.
L’activation du gène de la syncytine est maximale dans le placenta à terme.
La glycoprotéine HERV-W Env est directement impliquée dans la différenciation des cultures primaires de cytotrophoblastes villositaires humains.
L’hypoxie modifie l’expression et la fonction de la Syncytine et de son récepteur pendant la fusion cellulaire trophoblastique des cellules BeWo placentaires humaines : Implications pour l’altération de la syncytialisation du trophoblaste dans la prééclampsie.
L’expression du gène de la Syncytine est régulée à la baisse par l’hypoxie, ce qui renforce l’hypothèse que la Syncytine est réduite dans les grossesses perturbées au cours de l’hypoxie placentaire.

HHCM. L’HHCM est identifiée comme une séquence d’ADN de 3,0 kb de carcinome hépatocellulaire humain qui code (dans un cds de 1 404 nt) pour une protéine de 52 kDa. Elle transforme à la fois des cellules hépatiques de rat et des fibroblastes NIH 3T3.† Le tableau 1 montre qu’elle est constituée à près de 90 % de ME L1. La correspondance de la séquence n’est que de ≈70%, tant les changements de séquence ont été nombreux car son origine provient d’une partie de la séquence L1. Il correspond aux régions 18-331 nt et 437-1470 nt de L1MD2. Ce n’est apparemment pas une contribution bénéfique que L1 a apportée à notre génome, bien que les ME agissent de manière étrange. L’enregistrement NM_006543 a été » temporairement retiré par le personnel de RefSeq pour un examen supplémentaire » et Smit (communication personnelle) n’a pas trouvé de séquence génomique correspondant étroitement. Ainsi, cet exemple doit être considéré comme un candidat pour une étude future.

LG30. LG30 est un gène de fonction inconnue dans la région G72/G30 du chromosome 13. Des mutations dans cette région sont liées au trouble bipolaire (23, 24), mais il semble que la région G72 soit plus probablement responsable (25). La région codante LG30 n’est longue que de 216 nt, et 100% de sa longueur est liée à la classe ME des LTR (MLT1E, MLT1G).

GTF2IRD2. GTF2IRD2 a été initialement décrit comme un gène de facteur de transcription (26, 27), et l’entrée NCBI consistait en le fragment listé dans le tableau 1. C’est pourquoi il est inclus ici. Il a récemment été étudié en détail (28, 29), et il s’avère que ce fragment est en fait l’exon 16, l’exon 3′ et le seul exon long, plus de la moitié de la longueur de toute la séquence codante. Cet exon est entièrement constitué de la séquence ME Charlie8. Ce qui suit est une citation de la réf. 29. « GTF2IRD2 est le troisième membre de la nouvelle famille de gènes TFII-I regroupés sur 7q11.23. La protéine GTF2IRD2 contient deux régions hélice-boucle-hélice putatives (répétitions I) et un domaine C-terminal inhabituel de type transposon CHARLIE8, que l’on pense être apparu à la suite de l’insertion aléatoire d’un élément transposable générant un gène de fusion fonctionnel. La rétention d’un certain nombre de motifs associés à la transposase conservés dans la protéine suggère que la région de type CHARLIE8 peut encore avoir un certain degré de fonctionnalité de transposase qui pourrait influencer la stabilité de la région dans un mécanisme similaire à celui proposé pour la neuropathie de Charcot-Marie-Tooth de type 1A. GTF2IRD2 est hautement conservé chez les mammifères et l’orthologue de la souris (Gtf2ird2) a également été isolé. »

Autres séquences codantes de transcription apparemment dérivées de ME. Le tableau 4 est une liste de 49 exemples de transcrits observés pour lesquels les séquences codantes ont été déterminées par des programmes informatiques, et ces cds sont constitués de MEs au moins à hauteur de 80%. Cette collection a été faite en exécutant repeatmasker contre la collection de transcriptions de gènes du NCBI en février 2004, mais lorsque des vérifications ont été faites au début de mars, toutes les transcriptions ainsi marquées avaient été retirées de la collection. Il semble probable que quelqu’un ait décidé qu’il s’agissait de déchets, ce qui, dans un sens, peut être vrai, mais du point de vue de cet article, ils peuvent être considérés comme potentiellement utiles et devraient être examinés plus avant. Certains d’entre eux sont susceptibles d’être des exemples de la transcription de fragments de ME, un processus qui se produit fréquemment. Des régions de la ligne 1 de ME sont exprimées dans des collections d’ARN de souris et de rat et d’humain (données non publiées). Le tableau de Smit (4) a été étendu (27) pour inclure 47 gènes potentiels dérivés au moins en partie de ME. Cependant, la question centrale de ces deux tableaux est de savoir si ces candidats sont réellement des gènes fonctionnels. En fait, dans la majorité des cas, il n’y a aucune preuve que ces ARNm sont produits par des gènes fonctionnels. Il y a deux exemples dans ces tableaux où la quasi-totalité de l’ARNm dérive d’un ME, et l’un d’eux est décrit ci-dessus comme la Syncytine (21, 22). L’autre semble être la transcription d’un fragment d’une séquence liée assez étroitement à HERV3, y compris le gène env et la LTR, et la transcription est décrite comme un ARNm du gène env. La preuve de sa fonction est la transcription dans les cellules trophoblastes placentaires (28), ce qui rappelle les particules A intracysternales chez la souris qui sont similaires aux ERV et dont on peut affirmer qu’elles ont un rôle important dans le placenta (29).

Les cas décrits et peut-être l’exemple qui vient d’être mentionné (4, 27) montrent que des parties de ME ont été converties pour former des séquences codantes de gènes essentiellement complètes. Il y a probablement plus de cas comme l’indique le tableau 4. Ces observations s’ajoutent aux nombreuses façons connues dont les ME ont contribué à notre évolution. Ce sujet a été examiné récemment par Kazazian (30) qui les caractérise comme étant à la place du conducteur, plutôt que simplement utiles à avoir autour. En raison de cette revue, il n’y a pas de raison pour une discussion approfondie ici.

Séquences codantes de gènes humains fonctionnels entièrement dérivés de séquences d’éléments mobiles

Résultats et discussion

Laisser un commentaire Annuler la réponse