Toimivien ihmisgeenien koodaussekvenssit, jotka on johdettu kokonaan liikkuvista elementtisekvensseistä

Tulokset ja keskustelu

AD7C. AD7C on hermosolujen säieproteiinigeeni. Se koodaa 41 kDa:n kalvoa ylittävää fosfoproteiinia, joka on hyödyllinen varhaisen Alzheimerin taudin diagnosoinnissa (14, 15). Koodaava sekvenssi on 1 128 nt pitkä, ja repeatmasker osoittaa, että se koostuu viiden (tai neljän, ks. jäljempänä) Alu-sekvenssin fragmenteista. Kaikki osumat ovat Alu-toistojen käänteiskomplementtien kanssa. Kohdistus on esitetty taulukossa 2. Taulukossa on lueteltu kunkin alueen prosentuaalinen samankaltaisuus ja pituus parhaiten vastaavista Alu-sekvensseistä, jotka eroavat merkityksettömästi referenssissä ref. 14.

Näytä tämä taulukko:

  • View inline
  • View popup

Table 2. AD7C

AluSp vastaa 92 %:n tarkkuudella koodaavan sekvenssin ensimmäistä 281 nt:ää. Kolmen nt:n aukon jälkeen 141 nt:n AluJo täsmää 87 %:n tarkkuudella. Sitten, 2 nt:n jälkeen, AluJo-sekvenssin lisäosa täsmää 93 prosentin tarkkuudella 167 nt:n osalta, mukaan lukien huomattava osa poly(A)-hännästä, jota on muutettu kahdella translaatioon vaikuttavalla substituutiolla. Nämä kaksi lyhyttä pätkää näyttävät edustavan yhtä Alu-sekvenssin homologia koodaavassa sekvenssissä, mutta uudelleenjärjestelyä on ilmeisesti tapahtunut, koska AluJossa on päällekkäisiä alueita. Seuraavaksi 302 nt:n osalta on 92-prosenttinen vastaavuus AluSc:hen, mukaan lukien huomattava osa poly(A)-hännästä, jota on muutettu. Lopuksi 239 nt:n kohdalla on 88-prosenttinen vastaavuus AluSx:ään, johon sisältyy myös huomattava osa poly(A)-hännästä, joka on muuttunut. Genomissa tämä täsmääminen jatkuu koodaavan sekvenssialueen lopun jälkeen, ja siellä on toinen täsmääminen Alu-sekvenssiin (tietoja ei ole esitetty).

Näyttää siltä, että koko geenin koodaava alue on muodostettu Alu-sekvenssien klusterista. Yksittäisten Alu-sekvenssien vastaavuuksien väliset muutaman nukleotidin aukot ovat luultavasti vain repeatmaskerin kohdistamisprosessin yksityiskohtia, ja ne voidaan jättää huomiotta. Mielenkiintoista on, kuinka paljon sekvensseissä on tapahtunut muutoksia, jotta ME-sekvensseistä voidaan muodostaa käyttökelpoinen geeni. Taulukossa 2 yhteenvetona esitetyt Alu-sekvenssit ovat yksinkertaisesti repeatmasker-kokoelman parhaita vastaavuuksia, eivätkä ne välttämättä ole niitä Alu-sekvenssejä, jotka olivat alkuperäisessä Alu-klusterissa, joten yleisesti ottaen ei ole mahdollista tunnistaa tapahtuneita sekvenssimuutoksia. Otos voidaan arvioida tarkastelemalla kolmea mukana olevaa poly(A)-ketjua. Niitä on komplementaarisissa Alu-sekvensseissä yhteensä 60 Ts:ää. Näillä poly(T)-alueilla on tapahtunut kahdeksan muutosta, jotka kaikki johtavat muiden aminohappojen kuin fenyylialaniinin käännettäviin koodoneihin. Ne koostuvat kuudesta A:n substituutiosta ja kahdesta kahden As:n lisäyksestä. Tämä ≈17 prosentin muutos tässä pienessä näytteessä viittaa positiiviseen valintaan. Tietenkin on vain yksi mahdollinen hiljainen substituutio Ts-rivissä, siirtyminen T:stä C:ksi kolmannessa emäksessä. Lisäksi mukana olevissa viidessä Alu-sekvenssissä on neljä tapausta, joissa on sisäisiä T-rikkaita sekvenssejä, ja yhdessä niistä tällainen hiljainen substituutio on tapahtunut. Kahdessa näistä tapauksista on esiintynyt pituuseroja, jotka johtuvat kuuden emäksen poistosta ja neljän emäksen lisäyksestä, mikä luonnollisesti johtaa käännettäviin koodoneihin. Tämä on selvä tapaus, jossa Alu-toistojen ryhmä on muuttunut aktiiviseksi ihmisgeeniksi. Emme vielä tiedä, miten 5′-kontrollialue on järjestetty. Tämän tiedon avulla pystymme jonain päivänä sanomaan enemmän geenin synnyttäneestä evoluutioprosessista. Huomautettiin, että ihmisen genomissa tunnistettava täyspitkä edustus (build 34) on vain 97-prosenttisesti samanlainen kuin AD7C:n mRNA-sekvenssi (A. F. Smit, henkilökohtainen tiedonanto) (14). Erot ovat niin suuret, että genomisekvenssi ei ole merkittävältä pituudeltaan käännettävissä. Parempaa genomista kopiota mRNA:sta ei ole löydetty, mutta geeni saattaa sisältää introneja ja sitä saattaa olla vaikea tunnistaa Alu-sekvenssien vuoksi.

BNIP3. BNIP3 on geeni proteiinille, joka osallistuu apoptoosin hallintaan vuorovaikutuksessa muiden proteiinien kanssa (16-18). OMIM:ssä (Online Mendelian Inheritance in Man) merkinnän otsikko on BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3: BNIP3. Taulukosta 1 käy ilmi, että 97 prosenttia koodaavasta sekvenssistä on läheistä sukua HERV70RM:n sekvenssille. HERV70RM on nimi, jota käytän HERV70:n versiosta, joka sisältyy repeatmasker-kirjastoon, ja se on nimetty ihmisen endogeeniseksi retrovirukseksi, vaikka se ei sisällä tunnistettavia retrovirusgeenin jäämiä. Se on yli 7 kb pitkä, ja suhteet BNIP3:n koodaavaan sekvenssiin esiintyvät HERV70RM:n nukleotidin 4641 jälkeen. BNIP3-mRNA:n koodaava sekvenssi on täysin yhdenmukainen HERV70RM-sekvenssin kanssa, vaikka geeni koostuu kuudesta eksonista, jotka jakautuvat lähes 15 kb:n DNA:lle. Tämän suhteen selvittämiseksi repeatmasker-ohjelma ajettiin koko geeniä vastaan, ja tulokset esitetään taulukossa 3. Suurin osa näistä tiedoista on repeatmaskerin tulosteista, ja kaksi saraketta on lisätty osoittamaan eksonien sijaintia geenissä. Useimmissa tapauksissa HERV70RM-segmentin tunnistaminen geenissä vastaa tarkasti eksoneja. Tämä yhdenmukaisuus on niin hyvä, että historia vaikuttaa ilmeiseltä. Todennäköisesti osa HERV70RM:stä noin 4-7 kb:n alueelta muutettiin geeniksi ilman introneja, jonka on täytynyt kehittyä ja tulla käyttökelpoiseksi, ja myöhemmin intronit lisättiin siihen, mikä johti nykyiseen BNIP3-geeniin. Itse asiassa kromosomissa 14 on BNIP3P-sekvenssi, joka on tunnistettu pseudogeeniksi, koska siitä puuttuvat intronit, ja se vastaa hyvin BNIP3-mRNA:n kanssa tehdyssä etsinnässä, jossa käytettiin blast the human genomia. Se on mahdollisesti fossiili tämän tapahtuman varhaisvaiheesta tai se voi olla varsinainen pseudogeeni, joka on tehty mRNA:sta myöhemmässä vaiheessa.

Katso tätä taulukkoa:

  • View inline
  • View popup

Table 3. ME:t BNIP3-geenissä

Tulkinnan tarkemmaksi tutkimiseksi koodaava sekvenssi linjattiin HERV70RM-sekvenssin kanssa blast2-sekvenssin avulla. Tulos osoitti kaksi kopiota lähes täydellisestä cds-alueesta paikoissa 5507-6073 ja 6732-7289 HERV70RM-sekvenssissä, jotka täsmäävät ≈80 %. Näin ollen taulukossa 3 HERV70RM:ssä esitetyt paikat ovat yksinkertaisesti repeatmaskerin parhaat sovitukset, eivätkä ne välttämättä osoita BNIP3:n koodaavan sekvenssin todellista alkuperää. Vaikuttaa todennäköiseltä, että se on syntynyt kopiona jostakin HERV70RM:n alueesta. Taulukossa 3 esitetään yksi esimerkki sekvenssin samankaltaisuudesta HERV70RM:n ja sellaisen geenin alueen välillä, joka ei ole BNIP3:n eksoni. Tämän alueen historia on epäselvä. Joka tapauksessa on selvää, että suurin osa BNIP3-geenin eksoneista on peräisin HERV70RM:n yhtenäisestä osasta. Tämä vaikuttaa hyvältä tapaukselta ”intronit myöhässä”, koska ei tule mieleen mitään muuta selitystä sille, että BNIP3-geenissä on joukko laajalle levinneitä, toisiinsa liittyviä HERV70RM:n kappaleita.

Tärkeä kysymys on HERV70RM:n luonne. Näissä tutkimuksissa käytetty kopio sisältyy repeatmaskerissa lueteltuun ihmisen toistuvien sekvenssien kirjastoon. Se on epätäydellinen eikä ole klassinen endogeeninen retrovirus. hervd-tietokannassa (http://herv.img.cas.cz) luetellaan monia ihmisen genomissa olevia alueita, jotka ovat sekvenssiltään samankaltaisia kuin se, mitä kutsun tässä HERV70RM:ksi, vaikka yksikään niistä ei vastaa pituudeltaan yli ≈1 kb. Itse asiassa tässä tietokannassa on 63 sekvenssiä, jotka täsmäävät BNIP3 cds:n kanssa, vaikka useimmissa niistä on vain lyhyt täsmäävä alue. Tilanne kaipaa selvennystä, koska hervd-tietokannassa on monia HERV70-nimisiä merkintöjä, jotka eivät ole sekvenssiltään samankaltaisia HERV70RM:n kanssa. HERV70RM:stä ei ole täyspitkää kopiota ihmisen genomin nykyisessä versiossa, joten sen asema ihmisen endogeenisena retrovirussekvenssinä on kyseenalainen. blast of the human genome (filter off) -haku HERV70RM:llä löytää monia osumia ja esittää joitakin esimerkkejä graafisesti ikään kuin ne olisivat täyspitkiä osumia. Niitä ei ole olemassa, ja ohjelma on koonnut ne läheisten fragmentaaristen osumien ryhmistä.

Kun repeatmaskeria ajetaan HERV70RM:ää vastaan, löydetään kaksi pientä Alu-sekvenssin fragmenttia sekä muita ME:itä sen sisältä. On alueita, jotka repeatmasker tunnistaa HERV70:ksi (HERV70RM), ja näihin kuuluu BNIP3:n koodaavien sekvenssien kopioiden alue. Tässä tarvitaan varoitus, koska ihmisen genomin blastaus (suodatin pois päältä, oletus) löytää BNIP3:n koodaavalle sekvenssille vain 3 vastaavaa sekvenssiä niistä 63:sta, jotka ovat olemassa hervd-tietokannassa. Vahvistan, että koodaavalle sekvenssille (cds) on monia vastaavia fragmentteja, ja löydän 120 ihmisen genomista käyttämällä blastia. Tämä on tärkeä seikka, koska nämä tiedot osoittavat HERV70RM:n tulkinnasta riippumatta, että BNIP3-geenin cds-sekvenssi on kokonaisuudessaan läheistä sukua ME:n sekvensseille. Emme ehkä tiedä tarkalleen, mikä tämä ME on, mutta ihmisgenomissa on monia kopioita tästä ME:n alueesta, jotka vaihtelevat täsmällisistä melko poikkeaviin.

BNIP3-geeni esiintyy hiiren genomissa , ja koodaava sekvenssi vastaa ihmisen sekvenssiä 89 prosentin tarkkuudella. Proteiinisekvenssit täsmäävät 90 %:n tarkkuudella lukuun ottamatta 5aa:n aukkoa ja 1aa:n aukkoa hiiren proteiinissa. Geenin järjestely on samanlainen, 6 eksonia ulottuu ≈15 kb:n alueelle. Eksonien pituus on identtinen ihmisen eksonien kanssa lukuun ottamatta 15 ja 3 nt:n aukkoja, jotka vastaavat proteiinieroja. Koska cds:t vastaavat sekvenssiltään niin tarkasti toisiaan, hiiren BNIP3-eksonit ovat samassa suhteessa ihmisen HERV70RM:ään kuin ihmisen BNIP3-eksonit. Mielenkiintoista on, että hiiren genomissa ei ole yhtään sekvenssiä, joka vastaisi ihmisen HERV70RM:ää, lukuun ottamatta BNIP3:n eksoneja. Hiiren genomissa ei ilmeisesti ole vastaavaa ERV:tä, vaikka monilla muilla HERV:illä ja MERV:illä on tietysti yhteinen sekvenssi. repeatmaskeria voidaan käyttää joko ihmisen toistojen tai hiiren toistojen kanssa hiiren BNIP3-geenin alueen tutkimiseen. Ihmisen toistojen kanssa hiiren BNIP3:n eksonit tunnistetaan HERV70RM-sekvensseiksi, mutta hiiren toistojen kanssa sekvenssejä ei löydy. Näiden kahden geenin eksonit ovat lähes identtisiä. Hiiren ja ihmisen BNIP3-koodien nukleotidisekvenssit vastaavat toisiaan hyvin (90 %). K s hiiren ja ihmisen koodaavien sekvenssien välillä on 0,41 ja K a = 0,047 (K s on synonyymisten substituutioiden aiheuttama eroavuus ja K a on aminohappojen korvautumista aiheuttavien muutosten aiheuttama eroavuus) (19). Tämä samankaltaisuus viittaa siihen, että olivatpa tapahtumat mitä tahansa, ne tapahtuivat kaukana menneisyydessä.

BNIP3-geeni on sekvensoitu myös rotilta, ja sen cds on 95-prosenttisesti samanlainen kuin hiiren BNIP3:n, joten samat argumentit pätevät. K s rotan ja ihmisen koodaavien sekvenssien välillä on 0,37 ja K a = 0,048 (20). rotan genomin blastaus löytää BNIP3:n eksonin ja kaksi muuta rotan sekvenssiä, jotka ovat samankaltaisia ihmisen HERV70RM:n osien kanssa, kun taas hiiren genomin blastaus löytää vain BNIP3:n eksonin, joka on samankaltainen ihmisen HERV70RM:n kanssa. GenBankin blast-haun perusteella kanalla (Gallus gallus) on samanlainen mRNA-sekvenssi kuin ihmisen BNIP3. Yhdellä laajalla alueella 453 nt:stä 367 vastaa 367:ää, eli 81 prosenttia, ja on viitteitä muista pienemmistä samankaltaisista alueista. Näyttää siltä, että BNIP3:n ja HERV70RM:n evoluution ja sukulaisuussuhteiden täysipainoinen tarkastelu kannattaisi tehdä useilla lajeilla.

Syncytin. Tämän esimerkin on luetellut Smit (4), ja se on sisällytetty tähän, koska viimeaikaiset todisteet osoittavat, että Syncytin on toimiva geeni ihmisen istukassa (21, 22). Kyseinen mRNA on kokonaisuudessaan peräisin endogeenisesta retroviruksesta HERV-W, jota on useita kopioita ihmisen genomissa. Kirjoittajat (21) tunnistavat ERVWE1:n geenialueeksi, joka on transkriptin lähde, vaikka tämä ei olekaan varmaa. ERVWE1 on 10,2 kb pitkä ja koostuu tavanomaisesta LTR-gag-pol-env-LTR-järjestelystä. Syncytin-mRNA on 2,8 kb pitkä, ja se koostuu 5′ LTR:stä, jostakin lisäsekvenssistä, env-geenistä ja 3′ LTR:stä. Cds, jonka pituus on 1 617 nt, sisältää vain endogeenisen retroviruksen env-geenin. Sen sisällä voidaan tunnistaa alueita, jotka ovat toiminnallisesti merkittäviä Syncytinille. Ei ole selvää, kuinka paljon env-geenissä on tapahtunut evolutiivisia muutoksia, jotta se on saanut nykyisen tehtävänsä. Entrez Gene listaa niin sanotut GeneRIF:t (www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html):

  1. Env HERV-W-glykoproteiini välittää solu-solufuusiota vuorovaikutuksessa nisäkkäiden D-tyypin retrovirusreseptorin kanssa. Env-proteiini havaittiin istukan syncytiotrofoblasteissa, mikä viittaa fysiologiseen rooliin raskauden ja istukan muodostumisen aikana.

  2. Tekijä normaalissa istukan arkkitehtuurissa, erityisesti sytotrofoblastien ja syncytiotrofoblastien fuusioprosesseissa. Synsytiinin geeniekspressio voi olla muuttunut tapauksissa, joissa esiintyy istukan toimintahäiriöitä, kuten preeklampsia tai HELLP-oireyhtymä.

  3. Synsytiinin mRNA:n runsaus osoitti forskoliinin aikaansaamaa stimulaatiota BeWo-soluissa.

  4. Synsytiinivälitteistä trofoblastien fuusiointitapahtumaa ihmissoluissa säätelee GCMa.

  5. Synsytiinigeenin aktivaatio on korkeimmillaan termisessä istukassa.

  6. HERV-W Env -glykoproteiini on suoraan osallisena ihmisen villuksen sytotrofoblastien primaariviljelmien erilaistumisessa.

  7. Hypoksia muuttaa Syncytinin ja sen reseptorin ilmentymistä ja toimintaa ihmisen istukan BeWo-solujen trofoblastisolufuusion aikana: Implications for impaired trophoblast syncytialization in preeclampsia.

  8. Syncytin gene expression is down-regulated by hypoxia, which strengths the hypothesis that Syncytin is reduced in disturban pregnancies in the course of placental hypoxia.

HHCM. HHCM on tunnistettu ihmisen hepatosellulaarisen karsinooman 3,0 kt:n DNA-sekvenssiksi, joka koodaa (1 404 nt:n cds:ssä) 52 kDa:n proteiinia. Se transformoi sekä rotan maksasoluja että NIH 3T3 -fibroblasteja.† Taulukko 1 osoittaa, että se koostuu lähes 90-prosenttisesti L1 ME:stä. Sekvenssin vastaavuus on vain ≈70 %, joten sekvenssimuutoksia on tapahtunut paljon, koska se on peräisin L1-sekvenssin osasta. Se vastaa L1MD2:n alueita 18-331 nt ja 437-1470 nt. Tämä ei ilmeisesti ole L1:n hyödyllinen panos genomiimme, vaikka ME:t toimivat oudoilla tavoilla. RefSeqin henkilökunta ”poisti väliaikaisesti tietueen NM_006543 lisätarkastelua varten”, eikä Smit (henkilökohtainen tiedonanto) löytänyt läheisesti vastaavaa genomisekvenssiä. Näin ollen tätä esimerkkiä on pidettävä ehdokkaana tulevaa tutkimusta varten.

LG30. LG30 on tuntemattoman funktion omaava geeni kromosomin 13 alueella G72/G30. Alueen mutaatiot on yhdistetty kaksisuuntaiseen mielialahäiriöön (23, 24), mutta näyttää siltä, että G72 on todennäköisemmin vastuussa (25). LG30:n koodaava alue on vain 216 nt pitkä, ja 100 % sen pituudesta liittyy LTR-luokkaan ME (MLT1E, MLT1G).

GTF2IRD2. GTF2IRD2 kuvattiin alun perin transkriptiotekijägeeniksi (26, 27), ja NCBI-tietue koostui taulukossa 1 luetellusta fragmentista. Siksi se on sisällytetty tähän. Sitä on hiljattain tutkittu yksityiskohtaisesti (28, 29), ja on käynyt ilmi, että tämä fragmentti on itse asiassa eksoni 16, 3′ eksoni ja ainoa pitkä eksoni, joka on yli puolet koko koodaavan sekvenssin pituudesta. Tämä eksoni koostuu kokonaan ME-sekvenssistä Charlie8. Seuraava on lainaus lähteestä 29. ”GTF2IRD2 on kolmas jäsen uudessa TFII-I-geeniperheessä, joka on klusteroitu 7q11.23:een. GTF2IRD2-proteiini sisältää kaksi oletettua helix-loop-helix-aluetta (I-repeat) ja epätavallisen C-terminaalisen CHARLIE8-transposonin kaltaisen domeenin, jonka uskotaan syntyneen toiminnallisen fuusiogeenin synnyttävän transposable elementin satunnaisen insertion seurauksena. Useiden konservoituneiden transposaasiin liittyvien motiivien säilyminen proteiinissa viittaa siihen, että CHARLIE8:n kaltaisella alueella voi edelleen olla jonkinasteinen transposaasitoiminnallisuus, joka voi vaikuttaa alueen vakauteen samanlaisella mekanismilla kuin mitä on ehdotettu Charcot-Marie-Toothin tyypin 1A neuropatian yhteydessä. GTF2IRD2 on erittäin konservoitunut nisäkkäillä, ja myös hiiren ortologi (Gtf2ird2) on eristetty.”

Muut transkriptiä koodaavat sekvenssit, jotka ilmeisesti ovat peräisin ME:stä. Taulukossa 4 on luettelo 49 esimerkistä havaituista transkripteistä, joiden koodaavat sekvenssit on määritetty tietokoneohjelmilla, ja nämä cds:t koostuvat ME:stä ainakin 80-prosenttisesti. Tämä kokoelma tehtiin ajamalla repeatmaskeria NCBI:n geenitranskriptien kokoelmaa vastaan helmikuussa 2004, mutta kun tarkastuksia tehtiin maaliskuun alussa, kaikki näin merkityt transkriptit oli poistettu kokoelmasta. Vaikuttaa todennäköiseltä, että joku päätti, että ne ovat roskaruokaa, mikä voi tietyssä mielessä pitää paikkansa, mutta tämän artikkelin kannalta niitä voidaan pitää mahdollisesti hyödyllisinä, ja niitä olisi tutkittava tarkemmin. Jotkin niistä ovat todennäköisesti esimerkkejä ME:n fragmenttien transkriptiosta, jota tapahtuu usein. ME-linjan 1 alueita ilmentyy hiiren ja rotan sekä ihmisen RNA-kokoelmissa (julkaisemattomat tiedot). Smitin taulukkoa (4) on laajennettu (27) siten, että se sisältää 47 potentiaalista geeniä, jotka ovat peräisin ainakin osittain ME:stä. Näiden kahden taulukon keskeinen kysymys on kuitenkin se, ovatko nämä ehdokkaat todella toimivia geenejä. Itse asiassa useimmissa tapauksissa ei ole todisteita siitä, että nämä mRNA:t ovat toimivien geenien tuottamia. Näissä taulukoissa on kaksi esimerkkiä, joissa lähes koko mRNA on peräisin ME:stä, ja toinen niistä on kuvattu edellä nimellä Syncytin (21, 22). Toinen näyttää olevan HERV3:een melko läheisesti liittyvän sekvenssin fragmentin transkriptio, mukaan lukien env-geeni ja LTR, ja transkriptio kuvataan env-geenin mRNA:ksi. Todisteena sen toiminnasta on transkriptio istukan trofoblastisoluissa (28), mikä muistuttaa hiiren kystansisäisiä A-partikkeleita, jotka muistuttavat ERV:itä ja joilla voidaan väittää olevan tärkeä rooli istukassa (29).

Kuvatut tapaukset ja mahdollisesti äsken mainittu esimerkki (4, 27) osoittavat, että ME:n osia on muunnettu niin, että niistä on muodostunut olennaisilta osiltaan kokonaisia geeniä koodaavia sekvenssejä. Tapauksia on todennäköisesti enemmän, kuten taulukko 4 osoittaa. Nämä havainnot lisäävät niitä monia tunnettuja tapoja, joilla ME:t ovat edistäneet evoluutiotamme. Tätä aihetta on hiljattain tarkastellut Kazazian (30), joka luonnehtii niitä pikemminkin kuljettajan paikalla oleviksi kuin vain hyödyllisiksi. Tämän katsauksen vuoksi tässä ei ole syytä käydä laajaa keskustelua.

Vastaa

Sähköpostiosoitettasi ei julkaista.