Kodierende Sequenzen funktionierender menschlicher Gene, die vollständig von mobilen Elementsequenzen abgeleitet sind

Ergebnisse und Diskussion

AD7C. AD7C ist ein neuronales Fadenprotein-Gen. Es kodiert ein membranumspannendes 41-kDa-Phosphoprotein, das für die Diagnose der frühen Alzheimer-Krankheit nützlich ist (14, 15). Die kodierende Sequenz ist 1.128 nt lang und Repeatmasker zeigt, dass sie aus Fragmenten von fünf (oder vier, siehe unten) Alu-Sequenzen besteht. Alle Übereinstimmungen sind mit den umgekehrten Komplementen der Alu-Wiederholungen. Das Alignment ist in Tabelle 2 zusammengefasst. Aufgeführt sind die prozentuale Ähnlichkeit und die Länge der einzelnen Regionen der am besten übereinstimmenden Alu-Sequenzen, die sich nur unwesentlich von denen unterscheiden, die in Ref. 14.

Diese Tabelle anzeigen:

  • Inline-Ansicht
  • Popup-Ansicht

Tabelle 2. Zusammenfassung des Alignments von AD7C

Erst stimmt ein AluSp mit 92 % Genauigkeit mit den ersten 281 nt der kodierenden Sequenz überein. Nach einer Lücke von 3 nt passen 141 nt von AluJo mit 87 % Genauigkeit. Dann, nach 2 nt, stimmt ein zusätzlicher Teil der AluJo-Sequenz mit 93% für 167 nt überein, einschließlich eines beträchtlichen Teils des Poly(A)-Schwanzes, der durch zwei Substitutionen verändert wurde, die die Übersetzung beeinflussen. Diese beiden kurzen Fragmente scheinen ein Alu-Sequenzhomolog in der kodierenden Sequenz zu repräsentieren, aber es hat offensichtlich eine Umordnung stattgefunden, da es überlappende Regionen des AluJo gibt. Es folgt eine 92%ige Übereinstimmung für 302 nt mit einem AluSc, einschließlich eines beträchtlichen Teils des Poly(A)-Schwanzes, der modifiziert ist. Schließlich gibt es eine 88%ige Übereinstimmung für 239 nt mit einem AluSx, das ebenfalls einen beträchtlichen Bereich des Poly(A)-Schwanzes enthält, der verändert ist. Im Genom setzt sich diese Übereinstimmung nach dem Ende der kodierenden Sequenzregion fort, und es gibt eine weitere Übereinstimmung mit einer Alu-Sequenz (Daten nicht gezeigt).

Es scheint, dass die gesamte kodierende Genregion aus einem Cluster von Alu-Sequenzen gebildet wurde. Die Lücken von einigen Nukleotiden zwischen den einzelnen Alu-Sequenz-Matches sind wahrscheinlich nur Details des Repeatmasker-Alignment-Prozesses und können ignoriert werden. Von Interesse ist, wie viel Veränderung in den Sequenzen stattgefunden hat, um aus den ME-Sequenzen ein brauchbares Gen zu bilden. Bei den in Tabelle 2 zusammengefassten Alu-Sequenzen handelt es sich lediglich um die besten Übereinstimmungen aus der Repeatmasker-Sammlung und nicht unbedingt um die Alu-Sequenzen, die im ursprünglichen Alu-Cluster vorhanden waren, so dass es im Allgemeinen nicht möglich ist, die aufgetretenen Sequenzänderungen zu ermitteln. Eine Probe kann durch die Untersuchung der drei enthaltenen Poly(A)-Ketten geschätzt werden. Sie summieren sich auf 60 Ts in den komplementären Alu-Sequenzen. In diesen Poly(T)-Regionen sind acht Veränderungen aufgetreten, die alle zu übersetzbaren Codons für andere Aminosäuren als Phenylalanin führen. Dabei handelt es sich um sechs A-Substitutionen und zwei Insertionen von je zwei As. Diese ≈17%ige Veränderung in dieser kleinen Stichprobe lässt auf eine positive Selektion schließen. Natürlich gibt es nur eine mögliche stille Substitution in einer Reihe von Ts, den Übergang von T zu C in der dritten Base. Darüber hinaus gibt es vier Fälle von internen T-reichen Sequenzen in den fünf beteiligten Alusequenzen, und in einer davon ist eine solche stille Substitution aufgetreten. In zwei dieser Fälle sind Längenunterschiede aufgetreten, die aus einer Deletion von sechs Basen und einer Insertion von vier Basen resultieren, was natürlich zu übersetzbaren Codons führt. Dies ist ein eindeutiger Fall, in dem ein Cluster von Alu-Wiederholungen in ein aktives menschliches Gen umgewandelt wurde. Wir wissen noch nicht, wie die 5′-Kontrollregion aufgebaut ist. Mit dieser Information werden wir eines Tages in der Lage sein, mehr über den evolutionären Prozess zu sagen, der das Gen hervorgebracht hat. Es wurde darauf hingewiesen, dass eine identifizierbare Darstellung in voller Länge im menschlichen Genom (Build 34) nur zu 97 % mit der AD7C-mRNA-Sequenz übereinstimmt (A. F. Smit, persönliche Mitteilung) (14). Die Unterschiede sind so groß, dass die genomische Sequenz nicht in nennenswerter Länge übersetzbar ist. Es wurde keine bessere genomische Kopie der mRNA gefunden, aber das Gen könnte Introns enthalten und wegen der Alu-Sequenzen schwer zu identifizieren sein.

BNIP3. BNIP3 ist das Gen für ein Protein, das an der Kontrolle der Apoptose durch die Interaktion mit anderen Proteinen beteiligt ist (16-18). Die Überschrift für den Eintrag in OMIM (Online Mendelian Inheritance in Man) lautet BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3: BNIP3. Tabelle 1 zeigt, dass 97 % der kodierenden Sequenz eng mit der von HERV70RM verwandt sind. HERV70RM ist der Name, den ich für die Version von HERV70 verwende, die in der Repeatmasker-Bibliothek enthalten ist, und sie wird als humanes endogenes Retrovirus bezeichnet, obwohl sie keine erkennbaren retroviralen Genreste enthält. Es ist mehr als 7 kb lang, und die Beziehungen zur BNIP3-Kodiersequenz treten nach Nukleotid 4641 von HERV70RM auf. Die kodierende Sequenz der BNIP3-mRNA stimmt vollständig mit der HERV70RM-Sequenz überein, obwohl das Gen aus 6 Exons besteht, die sich über fast 15 kb DNA verteilen. Um diese Beziehung zu klären, wurde der Repeatmasker gegen das gesamte Gen eingesetzt, und die Ergebnisse sind in Tabelle 3 aufgeführt. Die meisten dieser Daten stammen aus der Repeatmasker-Ausgabe, und zwei Spalten wurden hinzugefügt, um die Lage der Exons im Gen zu zeigen. In den meisten Fällen stimmt die Identifizierung eines HERV70RM-Segments im Gen eng mit den Exons überein. Diese Übereinstimmung ist so gut, dass die Geschichte offensichtlich ist. Wahrscheinlich wurde ein Teil des HERV70RM von etwa 4-7 kb in ein Gen ohne Introns umgewandelt, das sich entwickelt haben muss und nützlich wurde, und später wurden die Introns in dieses Gen eingefügt, was zum modernen BNIP3-Gen führte. Tatsächlich gibt es eine BNIP3P-Sequenz auf Chromosom 14, die als Pseudogen identifiziert wurde, weil sie keine Introns enthält und bei einer Suche nach der BNIP3-mRNA mit Hilfe des menschlichen Genoms eine sehr gute Übereinstimmung ergibt. Möglicherweise handelt es sich um ein Fossil aus einer frühen Phase dieses Vorgangs oder um ein tatsächliches Pseudogen, das zu einem späteren Zeitpunkt aus der mRNA gebildet wurde.

Diese Tabelle anzeigen:

  • Inline-Ansicht
  • Popup-Ansicht

Tabelle 3. MEs im BNIP3-Gen

Um diese Interpretation weiter zu untersuchen, wurde die kodierende Sequenz mit der HERV70RM-Sequenz mithilfe von blast2-Sequenzen abgeglichen. Das Ergebnis zeigte zwei Kopien der fast vollständigen cds-Region an den Stellen 5507-6073 und 6732-7289 in der HERV70RM-Sequenz, die zu ≈80 % übereinstimmten. Die in Tabelle 3 angegebenen Stellen in HERV70RM sind also lediglich die besten Anpassungen von repeatmasker und zeigen nicht unbedingt die tatsächlichen Ursprünge der BNIP3-Kodiersequenz. Es scheint wahrscheinlich, dass sie als Kopie einer der Regionen in HERV70RM entstanden ist. Tabelle 3 zeigt ein Beispiel für eine Sequenzähnlichkeit zwischen HERV70RM und einer Region des Gens, die kein Exon in BNIP3 ist. Die Geschichte dieser Region ist unklar. Auf jeden Fall ist klar, dass die meisten Exons des BNIP3-Gens von einem kontinuierlichen Abschnitt von HERV70RM abstammen. Dies scheint ein guter Fall für „späte Introns“ zu sein, denn es gibt keine andere Erklärung für das Vorhandensein einer Reihe von zusammenhängenden Stücken von HERV70RM, die im BNIP3-Gen weit verbreitet sind.

Eine wichtige Frage ist die Art von HERV70RM. Die in diesen Studien verwendete Kopie ist in der Bibliothek der menschlichen wiederholten Sequenzen in repeatmasker aufgeführt. Sie ist unvollständig und kein klassisches endogenes Retrovirus. Die hervd-Datenbank (http://herv.img.cas.cz) listet viele Regionen im menschlichen Genom auf, die in ihrer Sequenz dem ähneln, was ich hier HERV70RM nenne, obwohl keine von ihnen eine Länge von mehr als ≈1 kb aufweist. Tatsächlich gibt es in dieser Datenbank einen Satz von 63 Sequenzen, die mit den BNIP3-Cds übereinstimmen, obwohl die meisten von ihnen nur eine kurze übereinstimmende Region aufweisen. Die Situation muss geklärt werden, da es in der hervd-Datenbank viele Einträge mit der Bezeichnung HERV70 gibt, die keine Sequenzähnlichkeit mit HERV70RM aufweisen. Es gibt keine Volllängenkopie von HERV70RM in der aktuellen Version des menschlichen Genoms, so dass sein Status als humane endogene Retrovirussequenz zweifelhaft ist. blast of the human genome (filter off) searching with HERV70RM finds many hits and graphs some examples as if they were full-length matches. Sie existieren nicht, und das Programm hat sie aus Gruppen nahegelegener fragmentarischer Übereinstimmungen zusammengesetzt.

Wenn repeatmasker gegen HERV70RM läuft, werden zwei kleine Fragmente von Alu-Sequenzen gefunden, ebenso wie andere MEs darin. Es gibt Regionen, die Repeatmasker als HERV70 (HERV70RM) identifiziert, und dazu gehört die Region der Kopien der BNIP3-Kodierungssequenzen. Hier ist eine Warnung erforderlich, da der Blast des menschlichen Genoms (Filter aus, Standard) nur 3 übereinstimmende Sequenzen für die BNIP3 kodierende Sequenz von den 63, die in der hervd-Datenbank existieren, findet. Ich bestätige die Tatsache, dass es viele übereinstimmende Fragmente zur kodierenden Sequenz (cds) gibt, indem ich 120 im menschlichen Genom mit Blast finde. Dies ist ein wichtiger Punkt, da diese Daten, unabhängig von der Interpretation von HERV70RM, zeigen, dass die cds-Sequenz des BNIP3-Gens in ihrer Gesamtheit eng mit Sequenzen eines ME verwandt ist. Wir wissen zwar nicht genau, worum es sich bei diesem ME handelt, aber es gibt viele Kopien dieser Region im menschlichen Genom, die von genau bis sehr unterschiedlich reichen.

Das BNIP3-Gen kommt im Mausgenom vor, und die kodierende Sequenz stimmt mit 89 % Genauigkeit mit der des Menschen überein. Die Proteinsequenzen stimmen zu 90 % überein, mit Ausnahme einer 5-aa-Lücke und einer 1-aa-Lücke im Mausprotein. Die Genanordnung ist ähnlich, mit 6 Exons, die sich über ≈15 kb erstrecken. Die Exons sind in ihrer Länge identisch mit den menschlichen Exons, mit Ausnahme der Lücken von 15 und 3 nt, die den Unterschieden im Protein entsprechen. Da die cds in der Sequenz so eng übereinstimmen, zeigen die BNIP3-Exons der Maus die gleiche Beziehung zum menschlichen HERV70RM wie die BNIP3-Exons des Menschen. Interessanterweise gibt es im Mausgenom keine Sequenz, die mit Ausnahme der BNIP3-Exons mit dem menschlichen HERV70RM übereinstimmt, wie ein Blast des Mausgenoms ergab. Offensichtlich gibt es kein entsprechendes ERV im Mausgenom, obwohl natürlich viele andere HERVs und MERVs eine gemeinsame Sequenz haben. repeatmasker kann entweder mit den menschlichen Repeats oder den Maus-Repeats verwendet werden, um die BNIP3-Genregion der Maus zu untersuchen. Mit den menschlichen Repeats werden die Exons von BNIP3 der Maus als HERV70RM-Sequenzen erkannt, aber mit den Maus-Repeats stimmen keine Sequenzen überein. Die Exons in den beiden Genen sind nahezu identisch. Die Nukleotidsequenzen der BNIP3-Cds von Maus und Mensch stimmen zu 90 % überein. K s zwischen den kodierenden Sequenzen von Maus und Mensch beträgt 0,41 und K a = 0,047 (K s ist die Divergenz aufgrund von synonymen Substitutionen und K a ist die Divergenz aufgrund von Veränderungen, die einen Aminosäureaustausch verursachen) (19). Diese Ähnlichkeit deutet darauf hin, dass die Ereignisse weit in der Vergangenheit liegen.

Das BNIP3-Gen wurde auch bei der Ratte sequenziert, und die kodierenden Sequenzen ähneln zu 95 % denen von BNIP3 bei der Maus, so dass die gleichen Argumente gelten. Der K s zwischen den kodierenden Sequenzen von Ratte und Mensch beträgt 0,37 und K a = 0,048 (20). Der Blast des Rattengenoms findet ein BNIP3-Exon und zwei weitere Ratten-Sequenzen, die Teilen des menschlichen HERV70RM ähnlich sind, während der Blast des Mausgenoms nur ein BNIP3-Exon mit Ähnlichkeit zum menschlichen HERV70RM findet. Eine Blast-Suche in der GenBank ergab, dass das Huhn (Gallus gallus) eine ähnliche mRNA-Sequenz wie das menschliche BNIP3 aufweist. Es gibt eine Übereinstimmung von 367 von 453 nt oder 81 % in einer großen Region und Hinweise auf andere kleinere Regionen der Ähnlichkeit. Es scheint, dass eine umfassende Untersuchung der Evolution und der Beziehungen von BNIP3 und HERV70RM bei einer Reihe von Arten lohnenswert wäre.

Syncytin. Dieses Beispiel wird von Smit (4) aufgeführt und hier aufgenommen, weil neuere Erkenntnisse zeigen, dass Syncytin ein funktionierendes Gen in der menschlichen Plazenta ist (21, 22). Die mRNA stammt in toto von dem endogenen Retrovirus HERV-W, das in vielen Kopien im menschlichen Genom vorhanden ist. Die Autoren (21) identifizieren ERVWE1 als die Genregion, die die Quelle des Transkripts ist, obwohl dies nicht sicher ist. ERVWE1 ist 10,2 kb lang und besteht aus der üblichen LTR-gag-pol-env-LTR-Anordnung. Die Syncytin-mRNA ist 2,8 kb lang und besteht aus dem 5′-LTR, einigen zusätzlichen Sequenzen, dem env-Gen und dem 3′-LTR. Die cds von 1.617 nt umfasst nur das env-Gen des endogenen Retrovirus. Darin lassen sich Regionen identifizieren, die für Syncytin funktionell bedeutsam sind. Es ist nicht klar, inwieweit das env-Gen evolutionär verändert wurde, um seine heutige Funktion zu übernehmen. Entrez Gene listet so genannte GeneRIFs (www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html) auf:

  1. Env HERV-W Glykoprotein vermittelt die Zell-Zell-Fusion bei Interaktion mit dem Typ D Säugetier-Retrovirus-Rezeptor. Das Env-Protein wurde in den Synzytiotrophoblasten der Plazenta nachgewiesen, was auf eine physiologische Rolle während der Schwangerschaft und der Plazentabildung hindeutet.

  2. Beitrag zur normalen Plazentaarchitektur, insbesondere bei den Fusionsprozessen von Zytotrophoblasten zu Synzytiotrophoblasten. Die Genexpression von Syncytin kann bei Plazentafunktionsstörungen wie Präeklampsie oder HELLP-Syndrom verändert sein.

  3. Die mRNA-Häufigkeit für Syncytin wurde durch Forskolin in BeWo-Zellen stimuliert.

  4. Die Syncytin-vermittelte Trophoblastenfusion in menschlichen Zellen wird durch GCMa reguliert.

  5. Die Aktivierung des Syncytin-Gens ist in der Term-Plazenta am höchsten.

  6. HERV-W Env-Glykoprotein ist direkt an der Differenzierung von Primärkulturen humaner villöser Zytotrophoblasten beteiligt.

  7. Hypoxie verändert die Expression und Funktion von Syncytin und seinem Rezeptor während der Trophoblastenzellfusion von humanen plazentaren BeWo-Zellen: Implikationen für eine gestörte Trophoblastsynzytialisierung bei Präeklampsie.

  8. Die Genexpression von Syncytin wird durch Hypoxie herunterreguliert, was die Hypothese stärkt, dass Syncytin bei gestörten Schwangerschaften im Zuge einer plazentaren Hypoxie reduziert ist.

HHCM. HHCM wird als eine 3,0-kb-DNA-Sequenz des menschlichen hepatozellulären Karzinoms identifiziert, die (in einer 1.404-nt-cds) für ein 52-kDa-Protein kodiert. Es transformiert sowohl Rattenleberzellen als auch NIH 3T3 Fibroblasten.† Tabelle 1 zeigt, dass es zu fast 90% aus L1 MEs besteht. Die Sequenzübereinstimmung beträgt nur ≈70%, so dass viele Sequenzänderungen stattgefunden haben, weil es aus einem Teil der L1-Sequenz stammt. Es stimmt mit den Regionen 18-331 nt und 437-1470 nt von L1MD2 überein. Dies ist offensichtlich kein nützlicher Beitrag von L1 zu unserem Genom, auch wenn MEs auf seltsame Weise wirken. Der Datensatz NM_006543 wurde „von den RefSeq-Mitarbeitern vorübergehend zur weiteren Überprüfung entfernt“, und Smit (persönliche Mitteilung) fand keine eng übereinstimmende genomische Sequenz. Daher muss dieses Beispiel als Kandidat für zukünftige Studien betrachtet werden.

LG30. LG30 ist ein Gen mit unbekannter Funktion in der Region G72/G30 von Chromosom 13. Mutationen in dieser Region werden mit der bipolaren Störung in Verbindung gebracht (23, 24), aber es scheint, dass eher G72 dafür verantwortlich ist (25). Die kodierende Region LG30 ist nur 216 nt lang, und 100% ihrer Länge sind mit der LTR-Klasse ME (MLT1E, MLT1G) verbunden.

GTF2IRD2. GTF2IRD2 wurde ursprünglich als ein Transkriptionsfaktor-Gen beschrieben (26, 27), und der NCBI-Eintrag bestand aus dem in Tabelle 1 aufgeführten Fragment. Aus diesem Grund wird es hier aufgeführt. Es wurde vor kurzem im Detail untersucht (28, 29), und es stellte sich heraus, dass dieses Fragment tatsächlich Exon 16 ist, das 3′-Exon und das einzige lange Exon, mehr als die Hälfte der Länge der gesamten kodierenden Sequenz. Dieses Exon besteht vollständig aus der ME-Sequenz Charlie8. Es folgt ein Zitat aus Ref. 29. „GTF2IRD2 ist das dritte Mitglied der neuen TFII-I-Familie von Genen, die auf 7q11.23 geclustert sind. Das GTF2IRD2-Protein enthält zwei mutmaßliche Helix-Loop-Helix-Regionen (I-Wiederholungen) und eine ungewöhnliche C-terminale CHARLIE8-transposonähnliche Domäne, von der man annimmt, dass sie durch die zufällige Einfügung eines transposablen Elements entstanden ist, das ein funktionelles Fusionsgen erzeugt. Die Beibehaltung einer Reihe von konservierten Transposase-assoziierten Motiven innerhalb des Proteins deutet darauf hin, dass die CHARLIE8-ähnliche Region noch ein gewisses Maß an Transposase-Funktionalität aufweist, die die Stabilität der Region in einem ähnlichen Mechanismus beeinflussen könnte, wie er für die Charcot-Marie-Tooth-Neuropathie Typ 1A vorgeschlagen wird. GTF2IRD2 ist in Säugetieren hoch konserviert, und das Mausortholog (Gtf2ird2) wurde ebenfalls isoliert.“

Andere Transkriptkodierungssequenzen, die offenbar von ME stammen. Tabelle 4 enthält eine Liste von 49 Beispielen beobachteter Transkripte, deren kodierende Sequenzen mit Hilfe von Computerprogrammen bestimmt wurden und die zu mindestens 80 % aus MEs bestehen. Diese Sammlung wurde im Februar 2004 durch den Abgleich von repeatmasker mit der NCBI-Sammlung von Gentranskripten erstellt, aber bei der Überprüfung Anfang März waren alle so markierten Transkripte aus der Sammlung entfernt worden. Es scheint wahrscheinlich, dass jemand entschieden hat, dass sie Müll sind, was in gewissem Sinne auch stimmen mag, aber vom Standpunkt dieses Artikels aus können sie als potentiell nützlich angesehen werden und sollten weiter untersucht werden. Einige von ihnen sind wahrscheinlich Beispiele für die Transkription von Fragmenten von ME, ein Prozess, der häufig vorkommt. Regionen der ME-Linie 1 werden in RNA-Sammlungen von Maus, Ratte und Mensch exprimiert (unveröffentlichte Daten). Die Tabelle von Smit (4) wurde erweitert (27) und umfasst nun 47 potenzielle Gene, die zumindest teilweise von ME abstammen. Die zentrale Frage für diese beiden Tabellen ist jedoch, ob es sich bei diesen Kandidaten tatsächlich um funktionierende Gene handelt. In der Tat gibt es in den meisten Fällen keinen Hinweis darauf, dass diese mRNAs von funktionierenden Genen produziert werden. Es gibt zwei Beispiele in diesen Tabellen, bei denen fast die gesamte mRNA von einem ME stammt, und eines davon ist oben als Syncytin beschrieben (21, 22). Das andere scheint die Transkription eines Fragments einer Sequenz zu sein, die ziemlich eng mit HERV3 verwandt ist, einschließlich des env-Gens und der LTR, und das Transkript wird als env-Gen-mRNA bezeichnet. Der Beweis für seine Funktion ist die Transkription in Trophoblastzellen der Plazenta (28), was an intrazystische A-Partikel in der Maus erinnert, die ERVs ähneln und denen eine wichtige Rolle in der Plazenta zugeschrieben wird (29).

Die beschriebenen Fälle und möglicherweise das gerade erwähnte Beispiel (4, 27) zeigen, dass Teile von ME umgewandelt wurden, um im Wesentlichen vollständige Genkodierungssequenzen zu bilden. Wahrscheinlich gibt es noch mehr Fälle, wie aus Tabelle 4 hervorgeht. Diese Beobachtungen ergänzen die vielen bekannten Wege, auf denen MEs zu unserer Evolution beigetragen haben. Dieses Thema wurde vor kurzem von Kazazian (30) untersucht, der sie als „driver’s seat“ bezeichnet und nicht nur als nützliche Begleiter. Aufgrund dieses Überblicks gibt es hier keinen Grund für eine ausführliche Diskussion.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.