Kodande sekvenser av fungerande mänskliga gener som helt och hållet härrör från mobila elementsekvenser

Resultat och diskussion

AD7C. AD7C är en gen för neuronalt trådprotein. Den kodar för ett 41 kDa membranöverskridande foskoprotein som är användbart vid diagnos av tidig Alzheimers sjukdom (14, 15). Den kodande sekvensen är 1 128 nt lång och repeatmasker visar att den består av fragment av fem (eller fyra, se nedan) Alu-sekvenser. Alla matchningar är med de omvända komplementen till Alu-repetitionerna. Anpassningen sammanfattas i tabell 2. Här listas den procentuella likheten och längden för varje region från de bäst matchande Alu-sekvenserna, som skiljer sig oviktigt från dem som publicerats i ref. 14.

Visa denna tabell:

Se inline
Se popup

Tabell 2. Sammanfattning av anpassningen av AD7C

Först matchar en AluSp med 92 % noggrannhet de första 281 nt av kodningssekvensen. Efter en lucka på 3 nt matchar 141 nt av AluJo med 87 % noggrannhet. Sedan, efter 2 nt, matchar ytterligare en del av AluJo-sekvensen med 93 % precision i 167 nt, inklusive en stor del av poly(A)-svansen, modifierad av två substitutioner som påverkar översättningen. Dessa två korta fragment verkar representera en Alu-sekvenshomolog i den kodande sekvensen, men omarrangemang har tydligen skett eftersom det finns överlappande områden i AluJo. Därefter följer en 92-procentig matchning på 302 nt till en AluSc, inklusive en betydande del av poly(A)-svansen som är modifierad. Slutligen finns det en 88-procentig matchning för 239 nt till en AluSx, som också innehåller en stor del av poly(A)-svansen som är modifierad. I genomet fortsätter denna matchning efter slutet av den kodande sekvensregionen och det finns ytterligare en matchning med en Alu-sekvens (data visas inte).

Det verkar som om hela genens kodande region har gjorts av ett kluster av Alu-sekvenser. Luckorna på några få nukleotider mellan de enskilda Alu-sekvensmatcherna är förmodligen bara detaljer i repeatmasker-anpassningsprocessen och kan ignoreras. En fråga av intresse är hur mycket förändring som har skett i sekvenserna för att bilda en användbar gen av ME-sekvenserna. De Alu-sekvenser som sammanfattas i tabell 2 är helt enkelt de bästa träffarna från repeatmasker-samlingen och är inte nödvändigtvis de Alu-sekvenser som fanns i det ursprungliga Alu-klustret, så det är i allmänhet inte möjligt att identifiera de sekvensförändringar som har skett. Ett urval kan uppskattas genom att undersöka de tre poly(A)-kedjor som ingår. De uppgår sammanlagt till 60 Ts i de komplementära Alu-sekvenserna. I dessa poly(T)-regioner har åtta förändringar skett, som alla leder till översättningsbara kodoner för andra aminosyror än fenylalanin. De består av sex A-substitutioner och två insättningar av två As vardera. Denna ≈17 % förändring i detta lilla urval tyder på positivt urval. Naturligtvis finns det bara en möjlig tyst substitution i en rad av Ts, nämligen övergången från T till C i den tredje basen. Dessutom finns det fyra fall av interna T-rika sekvenser i de fem berörda Alu-sekvenserna, och i en av dessa har en sådan tyst substitution skett. I två av dessa fall har det uppstått längdskillnader till följd av en sexbasig deletion och en fyrabasig insättning, vilket naturligtvis leder till översättningsbara kodoner. Detta är ett tydligt fall där ett kluster av Alu-repetitioner har omvandlats till en aktiv mänsklig gen. Vi vet ännu inte hur 5′-kontrollregionen är organiserad. Med den informationen kommer vi en dag att kunna säga mer om den evolutionära process som skapade genen. Det påpekades att en identifierbar representation i full längd i den mänskliga arvsmassan (build 34) endast till 97 % liknar AD7C mRNA-sekvensen (A. F. Smit, personlig kommunikation) (14). Skillnaderna är sådana att den genomiska sekvensen inte är översättningsbar i en betydande längd. Ingen bättre genomisk kopia av mRNA har hittats, men genen kan innehålla introner och kan vara svår att identifiera på grund av Alu-sekvenserna.

BNIP3. BNIP3 är genen för ett protein som är involverat i kontrollen av apoptos genom interaktion med andra proteiner (16-18). Rubriken för posten i OMIM (Online Mendelian Inheritance in Man) är BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3: BNIP3. Tabell 1 visar att 97 % av den kodande sekvensen är nära besläktad med HERV70RM. HERV70RM är det namn jag använder för den version av HERV70 som ingår i repeatmasker-biblioteket och den benämns som ett mänskligt endogent retrovirus, även om den inte innehåller igenkännbara retrovirala genrester. Den är mer än 7 kb lång och relationerna till den BNIP3-kodande sekvensen sker efter nukleotid 4641 i HERV70RM. Den kodande sekvensen för BNIP3 mRNA anpassar sig helt och hållet till HERV70RM-sekvensen trots att genen består av 6 exoner som är spridda över nästan 15 kb DNA. För att hjälpa till att lösa detta förhållande kördes repeatmasker mot hela genen, och resultaten visas i tabell 3. De flesta av dessa uppgifter är från repeatmasker-utdata, och två kolumner har lagts till för att visa exonernas placering i genen. I de flesta fall stämmer identifieringen av ett HERV70RM-segment i genen väl överens med exonerna. Överensstämmelsen är så god att historiken verkar självklar. Sannolikt omvandlades en del av HERV70RM från cirka 4-7 kb till en gen utan introner, som måste ha utvecklats och blivit användbar, och senare infogades introner i den för att leda till den moderna BNIP3-genen. Det finns faktiskt en BNIP3P-sekvens på kromosom 14 som identifieras som en pseudogen eftersom den saknar introner och ger en mycket bra matchning i en sökning som gjorts med BNIP3 mRNA genom att använda blast the human genome. Det är möjligen ett fossil från det tidiga stadiet i denna händelse eller så kan det vara en faktisk pseudogen som skapats från mRNA i ett senare skede.

Visa den här tabellen:

Se inline
Se popup

Tabell 3. MEs i BNIP3-genen

För att ytterligare utforska denna tolkning anpassades den kodande sekvensen till HERV70RM-sekvensen med hjälp av blast2-sekvenser. Resultatet visade två kopior av den nästan fullständiga cds-regionen på platserna 5507-6073 och 6732-7289 i HERV70RM-sekvensen, med en matchning på ≈80 %. De platser som visas i tabell 3 i HERV70RM är således helt enkelt de bästa anpassningarna av repeatmasker och visar inte nödvändigtvis det faktiska sekvensursprunget för den BNIP3-kodande sekvensen. Det verkar troligt att den har sitt ursprung som en kopia av en av regionerna i HERV70RM. Tabell 3 visar ett exempel på en sekvenslikhet mellan HERV70RM och en region i genen som inte är ett exon i BNIP3. Den här regionens historia är oklar. I vilket fall som helst står det klart att de flesta exonerna i BNIP3-genen härstammar från en kontinuerlig sträcka av HERV70RM. Detta verkar vara ett bra fall av ”introner sent” eftersom det inte finns någon annan förklaring som jag kommer på till förekomsten av en serie sammanhängande bitar av HERV70RM som är vitt spridda i BNIP3-genen.

En viktig fråga är HERV70RM:s karaktär. Den kopia som användes i dessa studier finns med i biblioteket av mänskliga upprepade sekvenser som finns med i repeatmasker. Den är ofullständig och inte ett klassiskt endogent retrovirus. Databasen hervd (http://herv.img.cas.cz) listar många regioner i det mänskliga genomet som liknar i sekvens det som jag här kallar HERV70RM, även om ingen av dem matchar en längd på mer än ≈1 kb. Faktum är att det finns en uppsättning av 63 sekvenser i denna databas som matchar BNIP3 cds, även om de flesta av dem endast visar en kort matchande region. Situationen behöver klargöras eftersom det finns många poster i hervd-databasen som kallas HERV70 och som inte visar någon sekvenslikhet med HERV70RM. Det finns ingen fullängdskopia av HERV70RM i den nuvarande versionen av det mänskliga genomet, så dess status som en sekvens av ett mänskligt endogent retrovirus är tveksam. blast of the human genome (filter off) som söker med HERV70RM hittar många träffar och grafiserar några exempel som om de vore fullängdsmatchningar. De finns inte och programmet har satt ihop dem från grupper av närliggande fragmentariska träffar.

När repeatmasker körs mot HERV70RM hittas två små fragment av Alu-sekvenser, liksom andra MEs inom den. Det finns regioner som repeatmasker identifierar som HERV70 (HERV70RM), och dessa inkluderar regionen med kopiorna av BNIP3-kodningssekvenserna. En varning krävs här eftersom blast of the human genome (filter off, standard) endast hittar 3 matchande sekvenser för BNIP3-kodningssekvensen av de 63 som finns i hervd-databasen. Jag bekräftar att det finns många matchande fragment till kodningssekvensen (cds) och hittar 120 i det mänskliga genomet genom att använda blast. Detta är en viktig punkt eftersom dessa uppgifter, oavsett tolkningen av HERV70RM, visar att BNIP3-genens cds-sekvens är nära besläktad i toto med sekvenser av en ME. Vi kanske inte vet exakt vad denna ME är, men det finns många kopior av denna region av den i det mänskliga genomet som sträcker sig från exakt till ganska avvikande.

BNIP3-genen förekommer i musens genom , och den kodande sekvensen stämmer överens med den mänskliga med 89 % noggrannhet. Proteinsekvenserna stämmer överens med 90 % noggrannhet med undantag för en lucka på 5 aa och en lucka på 1 aa i musproteinet. Genarrangemanget är likartat, med 6 exoner som sträcker sig över ≈15 kb. Exonerna är identiska i längd med de mänskliga exonerna med undantag för luckorna på 15 och 3 nt som motsvarar proteinskillnaderna. Eftersom cds överensstämmer så nära i sekvensen visar musens BNIP3-exoner samma förhållande till den mänskliga HERV70RM som de mänskliga BNIP3-exonerna. Intressant nog finns det ingen sekvens i musens genom, som kan ses genom blast av musens genom, som matchar människans HERV70RM med undantag för BNIP3-exonerna. Det finns uppenbarligen inget motsvarande ERV i musens genom, även om många andra HERV och MERV naturligtvis har samma sekvens. repeatmasker kan användas med antingen de mänskliga repetitionerna eller musrepetitionerna för att undersöka BNIP3-genregionen hos musen. Med de mänskliga repeaterna känns musens BNIP3-exonerna igen som HERV70RM-sekvenser, men med musrepeterna stämmer inga sekvenser överens. Exonerna i de två generna är nästan identiska. Nukleotidsekvenserna i musens och människans BNIP3 cds stämmer väl överens (90 %). K s mellan de kodande sekvenserna hos mus och människa är 0,41 och K a = 0,047 (K s är divergensen på grund av synonyma substitutioner och K a är divergensen på grund av förändringar som orsakar aminosyrabyte) (19). Denna likhet tyder på att vad händelserna än var så inträffade de långt i det förflutna.

Genen BNIP3 har också sekvenserats från råtta, och cds liknar till 95 % BNIP3 från mus, så samma argument gäller. K s mellan de kodande sekvenserna hos råtta och människa är 0,37 och K a = 0,048 (20). blast av råttgenomet finner en BNIP3-exon och två andra sekvenser hos råttan som liknar delar av HERV70RM hos människan, medan blast av musgenomet endast finner en BNIP3-exon med likhet med HERV70RM hos människan. Baserat på en blast-sökning i GenBank har kyckling (Gallus gallus) en mRNA-sekvens som liknar den humana BNIP3-sekvensen. Det finns en överensstämmelse på 367 av 453 nt, eller 81 %, i en stor region och bevis för andra mindre regioner med likheter. Det verkar som om en fullständig undersökning av BNIP3:s och HERV70RM:s evolution och släktskap skulle vara värt att göra i ett antal arter.

Syncytin. Detta exempel förtecknas av Smit (4) och tas med här eftersom nya bevis visar att Syncytin är en fungerande gen i mänsklig placenta (21, 22). Det mRNA härstammar i sin helhet från det endogena retroviruset HERV-W, som finns i många kopior i det mänskliga genomet. Författarna (21) identifierar ERVWE1 som den genregion som är källan till transkriptet, även om detta kanske inte är säkert. ERVWE1 är 10,2 kb lång och består av det vanliga LTR-gag-pol-env-LTR-arrangemanget. Syncytin mRNA är 2,8 kb långt och består av 5′ LTR, någon ytterligare sekvens, env-genen och 3′ LTR. Cds på 1 617 nt innehåller endast env-genen från det endogena retroviruset. I den kan regioner identifieras som är funktionellt viktiga för Syncytin. Det är oklart hur mycket evolutionär förändring som skett i env-genen för att den ska få sin nuvarande funktion. Entrez Gene listar så kallade GeneRIFs (www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html):

Env HERV-W glykoprotein medierar cell-cellfusion vid interaktion med däggdjurs retrovirusreceptorn av typ D. Env-protein påvisades i placentas syncytiotrophoblast, vilket tyder på en fysiologisk roll under graviditet och placentabildning.
Bidrag till normal placentaarkitektur, särskilt i fusionsprocesserna från cytotrophoblaster till syncytiotrophoblaster. Genuttrycket av Syncytin kan vara förändrat i fall med placentadysfunktion såsom preeklampsi eller HELLP-syndrom.
mRNA-abundansen för Syncytin visade stimulering av forskolin i BeWo-celler.
Syncytin-medierad trophoblastisk fusion i mänskliga celler regleras av GCMa.
Syncytin-genaktivering är högst i terminala placenta.
HERV-W Env-glykoprotein är direkt involverat i differentieringen av primära kulturer av humana villösa cytotrophoblaster.
Hypoxi förändrar uttryck och funktion av Syncytin och dess receptor under trophoblastcellfusion av mänskliga placenta BeWo-celler: Implikationer för försämrad tropoblastsyncytialisering vid preeklampsi.
Syncytins genuttryck nedregleras av hypoxi, vilket stärker hypotesen att Syncytin reduceras i störda graviditeter under loppet av placental hypoxi.

HHCM. HHCM identifieras som en mänsklig hepatocellulär karcinom 3,0 kb DNA-sekvens som kodar (i en 1 404-nt cds) för ett 52 kDa-protein. Den transformerar både leverceller från råttor och NIH 3T3-fibroblaster.† Tabell 1 visar att den till nästan 90 % består av L1 MEs. Sekvensöverensstämmelsen är endast ≈70 %, så mycket sekvensförändring har skett eftersom dess ursprung kommer från en del av L1-sekvensen. Den matchar regionerna 18-331 nt och 437-1470 nt av L1MD2. Detta är uppenbarligen inte ett fördelaktigt bidrag som L1 har gett till vårt genom, även om MEs agerar på märkliga sätt. Registreringen NM_006543 ”togs tillfälligt bort av RefSeq-personal för ytterligare granskning” och Smit (personlig kommunikation) hittade ingen nära matchande genomisk sekvens. Därför måste detta exempel betraktas som en kandidat för framtida studier.

LG30. LG30 är en gen med okänd funktion i regionen G72/G30 på kromosom 13. Mutationer i regionen är kopplade till bipolär sjukdom (23, 24), men det verkar som om det är mer troligt att G72 är ansvarig (25). Den kodande regionen LG30 är endast 216 nt lång, och 100 % av dess längd är relaterad till LTR-klass ME (MLT1E, MLT1G).

GTF2IRD2. GTF2IRD2 beskrevs ursprungligen som en transkriptionsfaktorgen (26, 27), och NCBI-angivelsen bestod av det fragment som anges i tabell 1. Det är därför den är med här. Det har nyligen studerats i detalj (28, 29), och det visar sig att detta fragment i själva verket är exon 16, 3′-exonet och det enda långa exonet, mer än halva längden på hela den kodande sekvensen. Denna exon består helt och hållet av ME-sekvensen Charlie8. Följande är ett citat från ref. 29. ”GTF2IRD2 är den tredje medlemmen i den nya TFII-I-familjen av gener som är grupperade på 7q11.23. GTF2IRD2-proteinet innehåller två förmodade helix-loop-helix-regioner (I-repeats) och en ovanlig C-terminal CHARLIE8-transposonliknande domän, som tros ha uppstått till följd av ett slumpmässigt införande av ett transposerbart element som genererar en funktionell fusionsgen. Bevarandet av ett antal konserverade transposasassocierade motiv i proteinet tyder på att den CHARLIE8-liknande regionen fortfarande kan ha en viss grad av transposasfunktionalitet som skulle kunna påverka regionens stabilitet i en mekanism som liknar den som föreslagits för Charcot-Marie-Tooth neuropati typ 1A. GTF2IRD2 är mycket konserverad hos däggdjur och musens ortolog (GTf2ird2) har också isolerats.”

Andra kodande sekvenser av transkript som uppenbarligen härstammar från ME. Tabell 4 är en förteckning över 49 exempel på observerade transkript för vilka kodningssekvenserna har bestämts med hjälp av datorprogram, och dessa cds består till minst 80 % av ME. Denna samling gjordes genom att köra repeatmasker mot NCBI:s samling av gentranskripter i februari 2004, men när kontroller gjordes i början av mars hade alla transkriptioner som markerats på detta sätt tagits bort från samlingen. Det verkar troligt att någon har beslutat att de är skräp, vilket på sätt och vis kan vara sant, men ur den här artikelns synvinkel kan de anses vara potentiellt användbara och bör undersökas ytterligare. Några av dem är sannolikt exempel på transkription av fragment av ME, en process som förekommer ofta. Regioner av ME linje 1 uttrycks i samlingar av RNA från mus, råtta och människa (opublicerade uppgifter). Smits tabell (4) har utökats (27) till att omfatta 47 potentiella gener som åtminstone delvis härstammar från ME. Den centrala frågan för dessa två tabeller är dock om dessa kandidater faktiskt är fungerande gener. Faktum är att det i de flesta fall inte finns några bevis för att dessa mRNA produceras av fungerande gener. Det finns två exempel i dessa tabeller där nästan hela mRNA:t härrör från en ME, och ett av dem beskrivs ovan som Syncytin (21, 22). Det andra verkar vara transkriptionen av ett fragment av en sekvens som är ganska nära besläktad med HERV3, inklusive env-genen och LTR, och transkriptet beskrivs som ett env-gen-mRNA. Beviset för dess funktion är transkription i placenta trophoblastceller (28), vilket påminner om intracysternala A-partiklar hos mus som liknar ERV och kan hävdas ha en viktig roll i placenta (29).

De beskrivna fallen och möjligen det nyss nämnda exemplet (4, 27) visar att delar av ME har omvandlats för att bilda i stort sett kompletta genkodningssekvenser. Det finns troligen fler fall, vilket framgår av tabell 4. Dessa observationer lägger till de många kända sätt på vilka ME har bidragit till vår utveckling. Detta ämne har nyligen granskats av Kazazian (30) som karakteriserar dem som att de sitter i förarsätet, snarare än att de bara är användbara att ha med sig. På grund av denna genomgång finns det inte anledning till någon omfattande diskussion här.

Resultat och diskussion

Lämna ett svar Avbryt svar