Kodningssekvenser af fungerende menneskelige gener, der udelukkende er afledt af mobile elementsekvenser

Resultater og diskussion

AD7C. AD7C er et gen for neuronalt trådprotein. Det koder for et 41 kDa membranomspændende fosfoprotein, der er nyttigt i forbindelse med diagnosticering af tidlig Alzheimers sygdom (14, 15). Den kodende sekvens er 1.128 nt lang, og repeatmasker viser, at den består af fragmenter af fem (eller fire, se nedenfor) Alu-sekvenser. Alle matches er med de omvendte komplementer af Alu-repeterne. Sammenligningen er opsummeret i tabel 2. Der er anført den procentvise lighed og længden af hver af regionerne fra de bedst matchende Alu-sekvenser, som adskiller sig ubetydeligt fra dem, der er offentliggjort i ref. 14.

Se denne tabel:

Vis inline
Vis popup

Tabel 2. Sammenfatning af tilpasning af AD7C

Først matcher en AluSp med 92 % nøjagtighed de første 281 nt af den kodende sekvens. Efter et hul på 3 nt matcher 141 nt af AluJo med 87 % nøjagtighed. Derefter, efter 2 nt, matcher en yderligere del af AluJo-sekvensen med 93 % nøjagtighed i 167 nt, herunder en betydelig del af poly(A)-halen, modificeret af to substitutioner, der påvirker oversættelsen. Disse to korte fragmenter synes at repræsentere ét Alu-sekvenshomolog i kodningssekvensen, men der er tilsyneladende sket en omlægning, fordi der er overlappende regioner af AluJo. Dernæst er der et 92 % match på 302 nt til en AluSc, herunder en betydelig del af poly(A)-halen, der er modificeret. Endelig er der et 88 % match for 239 nt til en AluSx, som også omfatter en betydelig del af poly(A)-halen, der er modificeret. I genomet fortsætter dette match efter slutningen af den kodningssekvensregion, og der er endnu et match til en Alu-sekvens (data ikke vist).

Det ser ud til, at hele genets kodningsregion er blevet lavet af en klynge af Alu-sekvenser. De få nukleotider, der er mellemrum mellem de enkelte Alu-sekvensmatches, er sandsynligvis blot detaljer fra repeatmasker-udligningsprocessen og kan ignoreres. Det er interessant at vide, hvor store ændringer der er sket i sekvenserne for at danne et brugbart gen ud fra ME-sekvenserne. De Alu-sekvenser, der er opsummeret i tabel 2, er simpelthen de bedste matches fra repeatmasker-samlingen og er ikke nødvendigvis de Alu-sekvenser, der var til stede i den oprindelige Alu-klynge, så det er ikke muligt generelt at identificere de sekvensændringer, der er sket. En prøve kan estimeres ved at undersøge de tre poly(A)-kæder, der er medtaget. De udgør i alt 60 Ts i de komplementære Alu-sekvenser. I disse poly(T)-regioner er der sket otte ændringer, som alle fører til oversættelige kodoner for andre aminosyrer end phenylalanin. De består af seks A-substitutioner og to indsættelser af to As hver. Denne ≈17% ændring i denne lille prøve tyder på positiv selektion. Der er naturligvis kun én mulig tavs substitution i en række af Ts, nemlig overgangen fra T til C i den tredje base. Desuden er der fire tilfælde af interne T-rige sekvenser i de fem involverede Alu-sekvenser, og i en af disse er der sket en sådan tavs substitution. I to af disse tilfælde er der opstået længdeforskelle som følge af en seksbasedeletion og en firebasedeletion, hvilket naturligvis fører til oversættelige kodoner. Dette er et klart tilfælde, hvor en klynge af Alu-repeats er blevet omdannet til et aktivt menneskeligt gen. Vi ved endnu ikke, hvordan 5′-kontrolregionen er organiseret. Med den information vil vi en dag kunne sige mere om den evolutionære proces, der har skabt genet. Det blev påpeget, at en identificerbar repræsentation i fuld længde i det menneskelige genom (build 34) kun ligner AD7C mRNA-sekvensen i 97 % (A. F. Smit, personlig kommunikation) (14). Forskellene er af en sådan art, at den genomiske sekvens ikke kan oversættes i en betydelig længde. Der er ikke fundet nogen bedre genomisk kopi af mRNA’et, men genet kan indeholde introner og kan være svært at identificere på grund af Alu-sekvenserne.

BNIP3. BNIP3 er genet for et protein, der er involveret i styring af apoptose gennem interaktion med andre proteiner (16-18). Overskriften for posten i OMIM (Online Mendelian Inheritance in Man) er BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3: BNIP3. Tabel 1 viser, at 97 % af den kodende sekvens er nært beslægtet med HERV70RM-sekvensen. HERV70RM er det navn, jeg bruger for den version af HERV70, der indgår i repeatmasker-biblioteket, og den benævnes som et humant endogent retrovirus, selv om den ikke indeholder genrester af retrovirale genrester, der kan genkendes. Den er mere end 7 kb lang, og relationerne til den BNIP3-kodningssekvens forekommer efter nukleotid 4641 i HERV70RM. Den kodende sekvens af BNIP3-mRNA’et flugter fuldt ud med HERV70RM-sekvensen, selv om genet består af 6 exoner fordelt over næsten 15 kb DNA. For at hjælpe med at løse dette forhold blev repeatmasker kørt mod hele genet, og resultaterne er vist i tabel 3. De fleste af disse data er fra repeatmasker-output, og der er tilføjet to kolonner for at vise exonernes placering i genet. I de fleste tilfælde stemmer identifikationen af et HERV70RM-segment i genet nøje overens med exonerne. Denne overensstemmelse er så god, at historien synes indlysende. Sandsynligvis er en del af HERV70RM fra ca. 4-7 kb blevet omdannet til et gen uden introner, som må have udviklet sig og være blevet nyttigt, og senere blev intronerne indsat i det for at føre til det moderne BNIP3-gen. Der findes faktisk en BNIP3P-sekvens på kromosom 14, der er identificeret som en pseudogen, fordi den mangler introner og giver et meget godt match i en søgning foretaget med BNIP3 mRNA’et ved hjælp af blast af det menneskelige genom. Det er muligvis et fossil fra det tidlige stadium i denne begivenhed, eller det kan være et egentligt pseudogen, der er fremstillet af mRNA’et på et senere tidspunkt.

Se denne tabel:

Vis inline
Vis popup

Tabel 3. ME’er i BNIP3-genet

For yderligere at undersøge denne fortolkning blev den kodende sekvens afstemt med HERV70RM-sekvensen ved hjælp af blast2-sekvenser. Resultatet viste to kopier af den næsten komplette cds-region på placeringerne 5507-6073 og 6732-7289 i HERV70RM-sekvensen, der matcher ≈80 %. De placeringer, der er vist i tabel 3 i HERV70RM, er således blot de bedste tilpasninger af repeatmasker og viser ikke nødvendigvis den faktiske sekvensoprindelse af den BNIP3-kodende sekvens. Det forekommer sandsynligt, at den er opstået som en kopi af en af regionerne i HERV70RM. Tabel 3 viser et eksempel på en sekvenslighed mellem HERV70RM og en region af genet, som ikke er et exon i BNIP3. Historien for denne region er uklar. Under alle omstændigheder er det klart, at de fleste af BNIP3-genets exoner stammer fra en sammenhængende strækning af HERV70RM. Dette synes at være et godt tilfælde af “introner sent”, fordi der ikke er nogen anden forklaring, der falder mig ind på tilstedeværelsen af en række sammenhængende stykker HERV70RM spredt vidt omkring i BNIP3-genet.

Et vigtigt spørgsmål er arten af HERV70RM. Den kopi, der er anvendt i disse undersøgelser, er opført i biblioteket af gentagne sekvenser fra mennesker, der er opført i repeatmasker. Den er ufuldstændig og ikke et klassisk endogent retrovirus. Hervd-databasen (http://herv.img.cas.cz) opregner mange regioner i det menneskelige genom, der i sekvens ligner det, jeg kalder HERV70RM her, selv om ingen af dem matcher en længde på mere end ≈1 kb. Faktisk er der et sæt på 63 sekvenser i denne database, der matcher BNIP3 cds, selv om de fleste af dem kun viser en kort matchende region. Situationen skal afklares, fordi der er mange poster i hervd-databasen kaldet HERV70, som ikke viser nogen sekvenslighed med HERV70RM. Der findes ingen fuldlængdekopi af HERV70RM i den nuværende version af det menneskelige genom, så dens status som en menneskelig endogen retrovirussekvens er tvivlsom. blast of the human genome (filter off), der søger med HERV70RM, finder mange hits og grafiserer nogle eksempler, som om de var fuldlængdeoverensstemmelser. De findes ikke, og programmet har samlet dem fra grupper af nærliggende fragmentariske matches.

Når repeatmasker køres mod HERV70RM, findes to små fragmenter af Alu-sekvenser samt andre ME’er i den. Der er regioner, som repeatmasker identificerer som HERV70 (HERV70RM), og disse omfatter regionen med kopierne af BNIP3-kodningssekvenserne. En advarsel er nødvendig her, fordi blast af det menneskelige genom (filter off, standard) kun finder 3 matchende sekvenser for BNIP3-kodningssekvensen ud af de 63, der findes i hervd-databasen. Jeg bekræfter, at der er mange matchende fragmenter til kodningssekvensen (cds), idet jeg finder 120 i det menneskelige genom ved hjælp af blast. Dette er et vigtigt punkt, fordi disse data, uanset fortolkningen af HERV70RM, viser, at BNIP3-genets cds-sekvens er tæt beslægtet i toto med sekvenser af en ME. Vi ved måske ikke præcis, hvad denne ME er, men der er mange kopier af denne region af den i det menneskelige genom, der spænder fra præcise til ret divergerende.

BNIP3-genet forekommer i musens genom , og den kodende sekvens matcher den menneskelige med 89% nøjagtighed. Proteinsekvenserne matcher med 90 % nøjagtighed bortset fra et 5-aa hul og et 1-aa hul i musens protein. Genarrangementet er ens, med 6 exoner, der strækker sig over ≈15 kb. Exonerne er identiske i længde med de menneskelige exoner bortset fra hullerne på 15 og 3 nt, der svarer til proteinforskellene. Fordi cds’erne passer så tæt sammen i sekvensen, viser musen BNIP3-exonerne det samme forhold til den menneskelige HERV70RM som de menneskelige BNIP3-exonerne. Det er interessant, at der ikke er nogen sekvens i musegenomet, som ved en blast af musegenomet er set, der matcher den menneskelige HERV70RM bortset fra BNIP3-exonerne. Der findes tilsyneladende ingen tilsvarende ERV i musens genom, selv om mange andre HERV’er og MERV’er naturligvis har samme sekvens. repeatmasker kan anvendes med enten de menneskelige gentagelser eller musens gentagelser til at undersøge BNIP3-genregionen i musen. Med de humane gentagelser genkendes musen BNIP3-exonerne som HERV70RM-sekvenser, men med musens gentagelser passer ingen sekvenser sammen. Exonerne i de to gener er næsten identiske. Nukleotidsekvenserne af BNIP3-cd’erne fra musen og mennesket stemmer nøje overens (90 %). K s mellem musens og menneskets kodningssekvenser er 0,41 og K a = 0,047 (K s er divergensen som følge af synonyme substitutioner, og K a er divergensen som følge af ændringer, der forårsager aminosyreudskiftning) (19). Denne lighed tyder på, at uanset hvad begivenhederne var, så fandt de sted langt tilbage i fortiden.

BNIP3-genet er også blevet sekventeret fra rotte, og cds’et ligner 95% af BNIP3-genet fra mus, så de samme argumenter gælder. K s mellem de kodende sekvenser fra rotte og menneske er 0,37 og K a = 0,048 (20). blast af rottegenomet finder en BNIP3 exon og to andre rotte-sekvenser, der ligner dele af human HERV70RM, mens blast af muse-genomet kun finder en BNIP3 exon med lighed med human HERV70RM. På grundlag af en blast-søgning i GenBank har kylling (Gallus gallus) en mRNA-sekvens, der ligner den menneskelige BNIP3-sekvens. Der er en overensstemmelse på 367 ud af 453 nt, eller 81 %, i en stor region og beviser for andre mindre regioner med lighed. Det ser ud til, at en fuldstændig undersøgelse af BNIP3 og HERV70RM’s evolution og relationer ville være værd at foretage i en række arter.

Syncytin. Dette eksempel er opført af Smit (4) og er medtaget her, fordi nylige beviser viser, at Syncytin er et fungerende gen i den menneskelige placenta (21, 22). Det mRNA stammer in toto fra det endogene retrovirus HERV-W, som er til stede i mange kopier i det menneskelige genom. Forfatterne (21) identificerer ERVWE1 som den genregion, der er kilden til transkriptet, selv om dette måske ikke er sikkert. ERVWE1 er 10,2 kb lang og består af det sædvanlige LTR-gag-pol-env-LTR-arrangement. Syncytin-mRNA’et er 2,8 kb langt og består af 5′ LTR, en vis ekstra sekvens, env-genet og 3′ LTR. cds’en på 1 617 nt omfatter kun env-genet fra det endogene retrovirus. I den kan der identificeres regioner, som er funktionelt betydningsfulde for Syncytin. Det er ikke klart, hvor stor en evolutionær ændring der er sket i env-genet for at opnå dets nuværende funktion. Entrez Gene indeholder en liste over såkaldte GeneRIF’er (www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html):

Env HERV-W glycoprotein formidler celle-cellefusion ved interaktion med type D pattedyrs retrovirusreceptor. Env-protein blev påvist i placenta-syncytiotrophoblasten, hvilket tyder på en fysiologisk rolle under graviditet og placentadannelse.
Bidragsyder til normal placenta-arkitektur, især i fusionsprocesserne fra cytotrophoblaster til syncytiotrophoblaster. Genudtrykket af Syncytin kan være ændret i tilfælde med placenta-dysfunktion såsom præeklampsi eller HELLP-syndrom.
mRNA-overflod for Syncytin viste stimulering af forskolin i BeWo-celler.
Syncytin-medieret trophoblastisk fusion i humane celler er reguleret af GCMa.
Syncytin-genaktivering er højest i terminale placenta.
HERV-W Env-glycoprotein er direkte involveret i differentieringen af primærkulturer af humane villøse cytotrophoblaster.
Hypoxi ændrer ekspression og funktion af Syncytin og dets receptor under trophoblastcelfusion af humane placentale BeWo-celler: Implikationer for nedsat trophoblast syncytialisering i præeklampsi.
Syncytin genekspression nedreguleres af hypoxi, hvilket styrker hypotesen om, at Syncytin reduceres i forstyrrede graviditeter i forbindelse med placental hypoxi.

HHCM. HHCM er identificeret som en human hepatocellulært karcinom 3,0 kb DNA-sekvens, der koder (i en 1 404-nt cds) for et 52 kDa-protein. Det transformerer både rotteleverceller og NIH 3T3-fibroblaster.† Tabel 1 viser, at det næsten 90% består af L1 ME’er. Sekvensmatchen er kun ≈70%, så der er sket mange sekvensændringer, fordi den stammer fra en del af L1-sekvensen. Den matcher regionerne 18-331 nt og 437-1470 nt af L1MD2. Dette er tilsyneladende ikke et gavnligt bidrag, som L1 har ydet til vores genom, selv om ME’er optræder på mærkelige måder. Optegnelsen NM_006543 blev “midlertidigt fjernet af RefSeq-personalet med henblik på yderligere gennemgang”, og Smit (personlig kommunikation) fandt ikke en tæt matchende genomisk sekvens. Derfor må dette eksempel betragtes som en kandidat til fremtidig undersøgelse.

LG30. LG30 er et gen med ukendt funktion i regionen G72/G30 på kromosom 13. Mutationer i regionen er forbundet med bipolar lidelse (23, 24), men det ser ud til, at G72 er mere sandsynligt, at det er G72, der er ansvarlig (25). Den LG30-kodende region er kun 216 nt lang, og 100 % af dens længde er relateret til LTR-klasse ME (MLT1E, MLT1G).

GTF2IRD2. GTF2IRD2 blev oprindeligt beskrevet som et transkriptionsfaktorgen (26, 27), og NCBI-indgangen bestod af det fragment, der er anført i tabel 1. Det er derfor, at det er medtaget her. Det er for nylig blevet undersøgt i detaljer (28, 29), og det viser sig, at dette fragment faktisk er exon 16, 3′-exonet og det eneste lange exon, der er mere end halvdelen af hele kodningssekvensens længde. Dette exon består udelukkende af ME-sekvensen Charlie8. Det følgende er et citat fra ref. 29. “GTF2IRD2 er det tredje medlem af den nye TFII-I-familie af gener, der er grupperet på 7q11.23. GTF2IRD2-proteinet indeholder to formodede helix-loop-helix-regioner (I-repeats) og et usædvanligt C-terminalt CHARLIE8 transposon-lignende domæne, som menes at være opstået som følge af tilfældig indsættelse af et transposabelt element, der genererer et funktionelt fusionsgen. Bevarelsen af en række bevarede transposase-associerede motiver i proteinet tyder på, at den CHARLIE8-lignende region stadig kan have en vis grad af transposasefunktionalitet, som kan påvirke regionens stabilitet i en mekanisme, der ligner den, der er foreslået for Charcot-Marie-Tooth-neuropati type 1A. GTF2IRD2 er stærkt bevaret hos pattedyr, og musens ortolog (Gtf2ird2) er også blevet isoleret.”

Andre transkriptkodningssekvenser, der tilsyneladende stammer fra ME. Tabel 4 er en liste med 49 eksempler på observerede transkripter, hvis kodningssekvenser er blevet bestemt ved hjælp af computerprogrammer, og disse cds er sammensat af ME’er i mindst 80 % omfang. Denne samling blev foretaget ved at køre repeatmasker mod NCBI’s samling af gen-transskriptioner i februar 2004, men da kontrollen blev foretaget i begyndelsen af marts, var alle de således markerede transskriptioner blevet fjernet fra samlingen. Det virker sandsynligt, at nogen har besluttet, at de var junk, hvilket på en vis måde kan være rigtigt, men set ud fra denne artikels synspunkt kan de betragtes som potentielt nyttige og bør undersøges nærmere. Nogle af dem er sandsynligvis eksempler på transskription af fragmenter af ME, en proces, der forekommer hyppigt. Regioner af ME linje 1 udtrykkes i samlinger af RNA fra mus, rotter og mennesker (upublicerede data). Smits tabel (4) er blevet udvidet (27) til at omfatte 47 potentielle gener, der i det mindste delvist stammer fra ME. Det centrale spørgsmål for disse to tabeller er imidlertid, om disse kandidater rent faktisk er fungerende gener. Faktisk er der i de fleste tilfælde ikke noget bevis for, at disse mRNA’er produceres af fungerende gener. Der er to eksempler i disse tabeller, hvor næsten hele mRNA’et stammer fra et ME, og det ene af dem er beskrevet ovenfor som Syncytin (21, 22). Det andet synes at være transkriptionen af et fragment af en sekvens, der er ret nært beslægtet med HERV3, herunder env-genet og LTR, og transkriptet er beskrevet som et env-gen-mRNA. Beviset for dets funktion er transkription i placenta trophoblastceller (28), hvilket minder om intracysternale A-partikler hos mus, der ligner ERV’er og kan hævdes at have en vigtig rolle i placenta (29).

De beskrevne tilfælde og muligvis det netop nævnte eksempel (4, 27) viser, at dele af ME er blevet omdannet til at danne stort set komplette genkodningssekvenser. Der findes sandsynligvis flere tilfælde, som det fremgår af tabel 4. Disse observationer føjer sig til de mange kendte måder, hvorpå ME’er har bidraget til vores evolution. Dette emne er for nylig blevet gennemgået af Kazazian (30), som karakteriserer dem som værende i førersædet, snarere end blot at være nyttige at have med sig. På grund af denne gennemgang er der ikke grund til en omfattende diskussion her.

Resultater og diskussion

Skriv et svar Annuller svar