Coderende sequenties van functionerende menselijke genen volledig afgeleid van mobiele-elementsequenties

Resultaten en Discussie

AD7C. AD7C is een neuronaal draadeiwitgen. Het codeert voor een 41-kDa membraan overspannend fosfoproteïne dat nuttig is bij de diagnose van de vroege ziekte van Alzheimer (14, 15). De coderende sequentie is 1.128 nt lang en repeatmasker laat zien dat deze bestaat uit fragmenten van vijf (of vier, zie hieronder) Alu-sequenties. Alle overeenkomsten zijn met de omgekeerde complementen van de Alu herhalingen. De uitlijning is samengevat in tabel 2. Vermeld zijn de procentuele overeenkomst en de lengte van elk van de regio’s van de best overeenkomende Alu-sequenties, die niet wezenlijk verschillen van die gepubliceerd in ref. 14.

Bekijk deze tabel:

  • View inline
  • View popup

Tabel 2. Alignment summary of AD7C

First, an AluSp matches at 92% accuracy the first 281 nt of the coding sequence. Na een gat van 3 nt, komt 141 nt van AluJo overeen met 87% precisie. Dan, na 2 nt, komt een extra deel van de AluJo sequentie overeen met 93% voor 167 nt inclusief een aanzienlijk deel van de poly(A) staart, gewijzigd door twee substituties die de vertaling beïnvloeden. Deze twee korte fragmenten lijken één homoloog van de Alu-sequentie in de coderende sequentie te vertegenwoordigen, maar er is blijkbaar herschikking opgetreden omdat er overlappende gebieden van de AluJo zijn. Vervolgens is er een 92% match voor 302 nt met een AluSc, inclusief een aanzienlijk deel van de poly(A) staart die gemodificeerd is. Tenslotte is er een 88%-match voor 239 nt met een AluSx, die ook een aanzienlijk deel van de poly(A)-staart omvat dat gemodificeerd is. In het genoom gaat deze match verder na het einde van de coderende sequentie regio en is er nog een match met een Alu sequentie (data niet getoond).

Het lijkt erop dat de hele gen-coderende regio is gemaakt van een cluster van Alu sequenties. De gaten van een paar nucleotiden tussen de individuele Alu sequentie overeenkomsten zijn waarschijnlijk slechts details van het repeatmasker uitlijningsproces en kunnen worden genegeerd. Een kwestie van belang is hoeveel verandering er is opgetreden in de sequenties om een bruikbaar gen te vormen uit de ME sequenties. De Alu-sequenties die in Tabel 2 zijn samengevat, zijn gewoon de beste matches uit de repeatmasker-verzameling en zijn niet noodzakelijk de Alu-sequenties die in de oorspronkelijke Alu-cluster aanwezig waren, zodat het in het algemeen niet mogelijk is om de sequentieveranderingen te identificeren die zijn opgetreden. Een steekproef kan worden geschat door te kijken naar de drie poly(A)-ketens die zijn opgenomen. Deze komen in totaal op 60 Ts in de complementaire Alu-sequenties. In deze poly(T)-gebieden zijn acht veranderingen opgetreden, die alle leiden tot vertaalbare codons voor andere aminozuren dan fenylalanine. Ze bestaan uit zes A-substituties en twee inserties van elk twee As. Deze verandering van ≈17% in deze kleine steekproef suggereert positieve selectie. Natuurlijk is er slechts één mogelijke stille substitutie in een rij Ts, de overgang van T naar C in de derde base. Bovendien zijn er vier gevallen van interne T-rijke sequenties in de vijf betrokken Alu-sequenties, en in één daarvan heeft zo’n stille substitutie plaatsgevonden. In twee van deze gevallen zijn lengteverschillen opgetreden als gevolg van een deletie van zes basen en een insertie van vier basen, die uiteraard tot vertaalbare codons leiden. Dit is een duidelijk geval waarin een cluster van Alu herhalingen is omgezet in een actief menselijk gen. We weten nog niet hoe de 5′ controle regio is georganiseerd. Met die informatie zullen we op een dag meer kunnen zeggen over het evolutionaire proces dat het gen heeft gecreëerd. Er werd op gewezen dat een identificeerbare full-length weergave in het menselijk genoom (build 34) slechts 97% gelijkenis vertoont met de AD7C mRNA sequentie (A. F. Smit, persoonlijke communicatie) (14). De verschillen zijn zodanig dat de genomische sequentie niet voor een significante lengte vertaalbaar is. Er is geen betere genomische kopie van het mRNA gevonden, maar het gen zou introns kunnen bevatten en zou moeilijk te identificeren kunnen zijn vanwege de Alu-sequenties.

BNIP3. BNIP3 is het gen voor een eiwit dat betrokken is bij de controle van apoptose door de interactie met andere eiwitten (16-18). De titel van de vermelding in OMIM (Online Mendelian Inheritance in Man) is BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3: BNIP3. Uit tabel 1 blijkt dat 97% van de coderende sequentie nauw verwant is aan die van HERV70RM. HERV70RM is de naam die ik gebruik voor de versie van HERV70 die is opgenomen in de repeatmaskerbibliotheek en het wordt een humaan endogeen retrovirus genoemd, hoewel het geen herkenbare retrovirale genresiduen bevat. Het is meer dan 7 kb lang, en de verwantschap met de BNIP3-coderende sequentie treedt op na nucleotide 4641 van HERV70RM. De coderende sequentie van het BNIP3-mRNA stemt volledig overeen met de HERV70RM-sequentie, ook al bestaat het gen uit 6 exonen, verspreid over bijna 15 kb DNA. Om deze relatie te helpen oplossen, werd repeatmasker uitgevoerd tegen het hele gen, en de resultaten zijn weergegeven in tabel 3. De meeste van deze gegevens zijn afkomstig van de uitvoer van repeatmasker, en twee kolommen zijn toegevoegd om de plaats van de exonen in het gen aan te geven. In de meeste gevallen komt de identificatie van een HERV70RM segment in het gen nauw overeen met de exonen. Deze overeenkomst is zo goed dat de geschiedenis voor de hand lijkt te liggen. Waarschijnlijk werd een deel van de HERV70RM van ongeveer 4-7 kb omgezet in een gen zonder introns, dat moet zijn geëvolueerd en nuttig werd, en later werden de introns erin ingevoegd om te leiden tot het moderne BNIP3-gen. In feite is er een BNIP3P-sequentie op chromosoom 14 die als een pseudogeen is geïdentificeerd omdat er geen intronen in voorkomen, en die een zeer goede overeenkomst geeft in een zoekactie met het BNIP3-mRNA met behulp van blast van het menselijk genoom. Het is mogelijk een fossiel van de vroege fase in deze gebeurtenis of het kan een echt pseudogeen zijn dat in een later stadium uit het mRNA is gemaakt.

Bekijk deze tabel:

  • View inline
  • View popup

Tabel 3. ME’s in het BNIP3-gen

Om deze interpretatie verder te onderzoeken, werd de coderende sequentie uitgelijnd met de HERV70RM sequentie met behulp van blast2 sequenties. Het resultaat toonde twee kopieën van de bijna volledige cds-regio op locaties 5507-6073 en 6732-7289 in de HERV70RM-sequentie, die ≈80% overeenkomen. De locaties in Tabel 3 in HERV70RM zijn dus gewoon de beste matches van repeatmasker en geven niet noodzakelijkerwijs de werkelijke sequentieoorsprong van de BNIP3-coderende sequentie weer. Het lijkt waarschijnlijk dat deze is ontstaan als een kopie van een van de regio’s in HERV70RM. Tabel 3 toont één voorbeeld van een sequentieovereenkomst tussen HERV70RM en een gebied van het gen dat geen exon is in BNIP3. De geschiedenis van deze regio is onduidelijk. In ieder geval is het duidelijk dat de meeste exonen van het BNIP3-gen zijn afgeleid van een aaneengesloten stuk HERV70RM. Dit lijkt een goed geval van “introns laat” omdat er geen andere verklaring is die in me opkomt voor de aanwezigheid van een reeks aaneengesloten stukken HERV70RM die wijd verspreid zijn in het BNIP3-gen.

Een belangrijke kwestie is de aard van HERV70RM. Het exemplaar dat in deze studies is gebruikt, is opgenomen in de bibliotheek van menselijke herhaalde sequenties die in repeatmasker zijn opgenomen. Het is onvolledig en geen klassiek endogeen retrovirus. De hervd database (http://herv.img.cas.cz) geeft een lijst van vele regio’s in het menselijk genoom die qua sequentie lijken op wat ik hier HERV70RM noem, hoewel geen van hen overeenkomt met een lengte van meer dan ≈1 kb. In feite is er een reeks van 63 sequenties in deze database die overeenkomen met de BNIP3 cds, hoewel de meeste van hen slechts een korte overeenkomende regio laten zien. De situatie behoeft opheldering omdat er veel vermeldingen zijn in de hervd database met de naam HERV70 die geen sequentie-overeenkomst met HERV70RM vertonen. Er is geen full-length kopie van HERV70RM in de huidige versie van het menselijk genoom, dus zijn status als een menselijke endogene retrovirussequentie is twijfelachtig. blast of the human genome (filter off) zoeken met HERV70RM vindt veel hits en geeft sommige voorbeelden weer alsof het full-length matches zijn. Ze bestaan niet, en het programma heeft ze samengesteld uit groepen van nabijgelegen fragmentarische overeenkomsten.

Wanneer repeatmasker wordt uitgevoerd tegen HERV70RM, worden twee kleine fragmenten van Alu-sequenties gevonden, evenals andere ME’s daarbinnen. Er zijn regio’s die repeatmasker identificeert als HERV70 (HERV70RM), en deze omvatten de regio van de kopieën van de BNIP3-coderende sequenties. Een waarschuwing is hier nodig omdat blast van het menselijk genoom (filter uit, standaard) slechts 3 passende sequenties vindt voor de BNIP3-coderende sequentie van de 63 die bestaan in de hervd-database. Ik bevestig het feit dat er veel overeenkomende fragmenten zijn met de coderende sequentie (cds), waarbij er 120 in het menselijk genoom worden gevonden door blast te gebruiken. Dit is een belangrijk punt omdat deze gegevens, ongeacht de interpretatie van HERV70RM, aantonen dat de cds-sequentie van het BNIP3-gen in toto nauw verwant is met sequenties van een ME. We weten misschien niet precies wat deze ME is, maar er zijn vele kopieën van deze regio ervan in het menselijk genoom, variërend van precies tot behoorlijk afwijkend.

Het BNIP3-gen komt voor in het muizengenoom , en de coderende sequentie komt met 89% nauwkeurigheid overeen met die van de mens. De eiwitsequenties komen overeen met 90% nauwkeurigheid, met uitzondering van een 5-aa gat en een 1-aa gat in het muizeneiwit. De genopstelling is vergelijkbaar, met 6 exonen die zich uitstrekken over ≈15 kb. De lengte van de exonen is identiek aan die van de menselijke exonen met uitzondering van de gaten van 15 en 3 nt die overeenkomen met de eiwitverschillen. Omdat de cds qua sequentie zo dicht bij elkaar liggen, vertonen de BNIP3-exons van de muis dezelfde verwantschap met de menselijke HERV70RM als de menselijke BNIP3-exons. Interessant is dat er geen sequentie in het muizengenoom is, gezien door blast van het muizengenoom, die overeenkomt met de menselijke HERV70RM, behalve de BNIP3 exonen. Er is blijkbaar geen equivalent ERV in het muizengenoom, hoewel natuurlijk veel andere HERV’s en MERV’s sequentie delen. repeatmasker kan worden gebruikt met de menselijke herhalingen of de muisherhalingen om de muis BNIP3-genregio te onderzoeken. Met de menselijke herhalingen worden de muis BNIP3 exonen herkend als HERV70RM sequenties, maar met de muis herhalingen komen geen sequenties overeen. De exonen in de twee genen zijn vrijwel identiek. De nucleotidesequenties van het menselijke en muis BNIP3-gen komen sterk overeen (90%). K s tussen de coderende sequenties van muis en mens zijn 0,41 en K a = 0,047 (K s is de divergentie ten gevolge van synonieme substituties, en K a is de divergentie ten gevolge van veranderingen die aminozuurvervanging veroorzaken) (19). Deze overeenkomst suggereert dat wat de gebeurtenissen ook waren, zij ver in het verleden plaatsvonden.

Het BNIP3-gen is ook gesequeneerd van rat, en de cds komt voor 95% overeen met die van muis BNIP3, zodat dezelfde argumenten gelden. De K s tussen de coderende sequenties van de rat en de mens is 0,37 en K a = 0,048 (20). blast van het rattengenoom vindt een BNIP3 exon en twee andere sequenties van de rat die lijken op delen van de menselijke HERV70RM, terwijl blast van het muizengenoom alleen een BNIP3 exon vindt dat lijkt op de menselijke HERV70RM. Op basis van een blast search van GenBank heeft kip (Gallus gallus) een vergelijkbare mRNA-sequentie als het menselijke BNIP3. Er is een overeenkomst van 367 van 453 nt, of 81%, in één grote regio en er zijn aanwijzingen voor andere kleinere regio’s van overeenkomst. Het lijkt erop dat een volledig onderzoek naar de evolutie en verwantschappen van BNIP3 en HERV70RM in een aantal soorten de moeite waard zou zijn.

Syncytin. Dit voorbeeld is genoemd door Smit (4) en is hier opgenomen omdat recent bewijs aantoont dat Syncytin een functionerend gen is in de menselijke placenta (21, 22). Het mRNA is in toto afgeleid van het endogene retrovirus HERV-W, dat in vele kopieën in het humane genoom aanwezig is. De auteurs (21) identificeren ERVWE1 als de genregio die de bron is van het transcript, hoewel dit niet zeker is. ERVWE1 is 10,2 kb lang en bestaat uit de gebruikelijke LTR-gag-pol-env-LTR opstelling. Het Syncytin mRNA is 2,8 kb lang en bestaat uit het 5′ LTR, wat extra sequentie, het env gen, en het 3′ LTR. De cds van 1.617 nt omvat alleen het env gen van het endogene retrovirus. Daarbinnen kunnen gebieden worden geïdentificeerd die functioneel significant zijn voor Syncytin. Het is niet duidelijk hoeveel evolutionaire verandering er in het env-gen is opgetreden om de huidige functie te krijgen. Entrez Gene somt de zogenaamde GeneRIFs op (www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html):

  1. Env HERV-W glycoproteïne medieert cel-cel fusie bij interactie met de type D retrovirusreceptor van zoogdieren. Env-eiwit werd gedetecteerd in de placentale syncytiotrophoblast, wat wijst op een fysiologische rol tijdens zwangerschap en placentavorming.

  2. Bijdrager aan de normale placentale architectuur, vooral in de fusieprocessen van cytotrophoblasten tot syncytiotrophoblasten. De genexpressie van Syncytin kan veranderd zijn bij placentadisfunctie zoals zwangerschapsvergiftiging of het HELLP-syndroom.

  3. MRNA abundantie voor Syncytin werd gestimuleerd door forskoline in BeWo-cellen.

  4. Syncytin-gemedieerde trofoblastische fusie in menselijke cellen wordt gereguleerd door GCMa.

  5. Syncytin gen activation is highest in term placenta.

  6. HERV-W Env glycoproteïne is direct betrokken bij de differentiatie van primaire kweken van humane villous cytotrophoblasts.

  7. Hypoxie wijzigt expressie en functie van Syncytin en zijn receptor tijdens trofoblast celfusie van humane placentale BeWo cellen: Implications for impaired trophoblast syncytialization in preeclampsia.

  8. Syncytin gene expression is down-regulated by hypoxia, which strengthens the hypothesis that Syncytin is reduced in disturbed pregnancies in the course of placental hypoxia.

HHCM. HHCM is geïdentificeerd als een menselijke hepatocellulaire carcinoom 3.0-kb DNA-sequentie die codeert (in een 1.404-nt cds) voor een 52-kDa-eiwit. Het transformeert zowel rattenlevercellen als NIH 3T3-fibroblasten.† Tabel 1 laat zien dat het voor bijna 90% uit L1 ME’s bestaat. De sequentie-overeenkomst is slechts ≈70%, zodat er veel sequentieverandering is opgetreden omdat het afkomstig is van een deel van de L1-sequentie. Het komt overeen met de regio’s 18-331 nt en 437-1470 nt van L1MD2. Dit is blijkbaar geen gunstige bijdrage die L1 aan ons genoom heeft geleverd, hoewel ME’s op vreemde manieren te werk gaan. Het record NM_006543 werd “tijdelijk verwijderd door RefSeq personeel voor aanvullend onderzoek” en Smit (persoonlijke communicatie) vond geen nauw overeenkomende genomische sequentie. Dit voorbeeld moet dus worden beschouwd als een kandidaat voor toekomstig onderzoek.

LG30. LG30 is een gen met onbekende functie in de regio G72/G30 van chromosoom 13. Mutaties in de regio worden in verband gebracht met bipolaire stoornis (23, 24), maar het lijkt waarschijnlijker dat de G72 verantwoordelijk is (25). De LG30 coderende regio is slechts 216 nt lang, en 100% van de lengte is gerelateerd aan LTR klasse ME (MLT1E, MLT1G).

GTF2IRD2. GTF2IRD2 werd aanvankelijk beschreven als een transcriptie factor gen (26, 27), en de NCBI entry bestond uit het fragment vermeld in Tabel 1. Daarom is het hier opgenomen. Het is onlangs in detail bestudeerd (28, 29), en het blijkt dat dit fragment eigenlijk exon 16 is, het 3′ exon en het enige lange exon, meer dan de helft van de lengte van de hele coderende sequentie. Dit exon bestaat volledig uit de ME-sequentie Charlie8. Wat volgt is een citaat uit ref. 29. “GTF2IRD2 is het derde lid van de nieuwe TFII-I familie van genen geclusterd op 7q11.23. Het GTF2IRD2 eiwit bevat twee veronderstelde helix-lus-helix regio’s (I-repeats) en een ongewoon C-terminaal CHARLIE8 transposon-achtig domein, waarvan gedacht wordt dat het ontstaan is als gevolg van de willekeurige insertie van een transposabel element dat een functioneel fusiegen gen gen gen gen gen genereert. Het behoud van een aantal geconserveerde transposase-geassocieerde motieven binnen het eiwit suggereert dat de CHARLIE8-achtige regio nog steeds een zekere mate van transposase-functionaliteit kan hebben, die de stabiliteit van de regio zou kunnen beïnvloeden in een mechanisme dat vergelijkbaar is met dat voorgesteld voor Charcot-Marie-Tooth neuropathie type 1A. GTF2IRD2 is sterk geconserveerd bij zoogdieren en het muizenortholoog (Gtf2ird2) is ook geïsoleerd.”

Andere transcriptcoderende sequenties die blijkbaar van ME zijn afgeleid. Tabel 4 is een lijst van 49 voorbeelden van waargenomen transcripten waarvan de coderende sequenties door computerprogramma’s zijn bepaald, en deze cds zijn voor ten minste 80% uit ME’s opgebouwd. Deze verzameling werd gemaakt door repeatmasker uit te voeren tegen de NCBI verzameling van gentranscripten in februari 2004, maar toen begin maart controles werden uitgevoerd, waren alle zo gemarkeerde transcripten uit de verzameling verwijderd. Het lijkt waarschijnlijk dat iemand besloten heeft dat ze troep waren, wat in zekere zin waar kan zijn, maar vanuit het oogpunt van dit artikel kunnen ze beschouwd worden als potentieel nuttig en zouden ze verder onderzocht moeten worden. Sommige ervan zijn waarschijnlijk voorbeelden van de transcriptie van fragmenten van ME, een proces dat vaak voorkomt. Regio’s van ME-lijn 1 komen tot expressie in RNA-verzamelingen van muizen, ratten en mensen (ongepubliceerde gegevens). De tabel van Smit (4) is uitgebreid (27) tot 47 potentiële genen die ten minste gedeeltelijk van ME zijn afgeleid. De centrale vraag bij deze twee tabellen is echter of deze kandidaten werkelijk functionerende genen zijn. In feite is er in de meeste gevallen geen bewijs dat deze mRNA’s worden geproduceerd door functionerende genen. Er zijn twee voorbeelden in deze tabellen waarbij bijna het gehele mRNA afkomstig is van een ME, en één daarvan is hierboven beschreven als Syncytin (21, 22). Het andere lijkt de transcriptie te zijn van een fragment van een sequentie die vrij nauw verwant is aan HERV3, inclusief het env gen en LTR, en het transcript wordt beschreven als een env gen mRNA. Het bewijs voor de functie ervan is transcriptie in placentale trofoblastcellen (28), wat doet denken aan intracysternale A-partikels bij de muis die lijken op ERV’s en waarvan beweerd kan worden dat ze een belangrijke rol spelen in de placenta (29).

De beschreven gevallen en mogelijk het zojuist genoemde voorbeeld (4, 27) laten zien dat delen van ME zijn omgezet in de vorm van in wezen complete gencoderende sequenties. Er zijn waarschijnlijk meer gevallen zoals aangegeven in tabel 4. Deze waarnemingen komen bij de vele bekende manieren waarop ME’s hebben bijgedragen tot onze evolutie. Dit onderwerp is onlangs herzien door Kazazian (30) die hen karakteriseert als zijnde in de bestuurdersstoel, eerder dan gewoon nuttig om in de buurt te hebben. Vanwege dit overzicht is er geen reden voor een uitgebreide discussie hier.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.