Működő emberi gének kódoló szekvenciái, amelyek teljes egészében mobil elemszekvenciákból származnak

Eredmények és vita

AD7C. Az AD7C egy neuronális szálfehérje gén. Egy 41 kDa membránon átívelő foszfoproteint kódol, amely hasznos a korai Alzheimer-kór diagnózisában (14, 15). A kódoló szekvencia 1128 nt hosszú, és a repeatmasker azt mutatja, hogy öt (vagy négy, lásd alább) Alu-szekvencia töredékeiből áll. Az összes egyezés az Alu ismétlődések fordított komplementerével történik. Az összehangolást a 2. táblázat foglalja össze. A táblázatban az egyes régiók százalékos hasonlósága és hossza szerepel a legjobban illeszkedő Alu-szekvenciákból, amelyek lényegesen eltérnek a ref. 14.

A táblázat megtekintése:

View inline
View popup

2. táblázat. Az AD7C

összehangolásának összefoglalása Először is, egy AluSp 92%-os pontossággal egyezik a kódoló szekvencia első 281 nt-jával. Egy 3 nt-os hézag után 141 nt AluJo 87%-os pontossággal illeszkedik. Ezután 2 nt után az AluJo szekvencia egy további része 93%-os pontossággal egyezik 167 nt-en keresztül, beleértve a poli(A) farok egy jelentős részét, amelyet két, a fordítást befolyásoló szubsztitúció módosít. Úgy tűnik, hogy ez a két rövid töredék egy Alu szekvencia homológot képvisel a kódoló szekvenciában, de nyilvánvalóan átrendeződés történt, mert az AluJo-nak vannak átfedő régiói. Ezután következik egy 92%-os, 302 nt-os egyezés egy AluSc-vel, beleértve a poli(A) farok jelentős részét, amely módosult. Végül a 239 nt 88%-os egyezése egy AluSx-hez, beleértve a poli(A) farok egy jelentős részét, amely szintén módosult. A genomban ez az egyezés a kódoló szekvencia régió vége után folytatódik, és van egy másik egyezés egy Alu szekvenciával (az adatok nem láthatóak).

Úgy tűnik, hogy a teljes gén kódoló régiója Alu szekvenciák egy klaszteréből készült. Az egyes Alu-szekvencia egyezések közötti néhány nukleotidnyi hézagok valószínűleg csak a repeatmasker illesztési folyamatának részletei, és figyelmen kívül hagyhatók. Érdekes kérdés, hogy mennyi változás történt a szekvenciákban ahhoz, hogy az ME-szekvenciákból egy használható gén alakuljon ki. A 2. táblázatban összefoglalt Alu-szekvenciák egyszerűen a repeatmasker-gyűjtemény legjobb egyezései, és nem feltétlenül azok az Alu-szekvenciák, amelyek az eredeti Alu-klaszterben is jelen voltak, így általában nem lehet azonosítani a bekövetkezett szekvenciaváltozásokat. A mintát a benne szereplő három poli(A)-lánc vizsgálatával lehet megbecsülni. Ezek összesen 60 Ts-t tesznek ki a komplementer Alu-szekvenciákban. Ezekben a poli(T) régiókban nyolc változás történt, amelyek mindegyike a fenilalanintól eltérő aminosavak fordítható kodonjaihoz vezetett. Ezek hat A helyettesítésből és két, egyenként két As-t tartalmazó beillesztésből állnak. Ez a ≈17%-os változás ebben a kis mintában pozitív szelekcióra utal. Természetesen csak egy lehetséges csendes szubsztitúció van egy sor Ts-ben, a T-ről C-re való átmenet a harmadik bázisban. Ezenkívül az öt érintett Alu-szekvenciában négy esetben van belső T-ben gazdag szekvencia, és ezek közül egy esetben történt ilyen csendes szubsztitúció. Ezek közül két esetben hat bázis deléciójából és négy bázis beillesztéséből eredő hosszkülönbségek keletkeztek, amelyek természetesen fordítható kodonokhoz vezetnek. Ez egy egyértelmű eset, amikor egy Alu ismétlődésekből álló klaszter aktív emberi génné alakult át. Még nem tudjuk, hogyan szerveződik az 5′ kontroll régió. Ennek az információnak a birtokában egy napon többet tudunk majd mondani arról az evolúciós folyamatról, amely a gént létrehozta. Rámutattak, hogy a humán genomban azonosítható teljes hosszúságú reprezentáció (build 34) csak 97%-ban hasonlít az AD7C mRNS szekvenciájára (A. F. Smit, személyes közlés) (14). A különbségek olyan mértékűek, hogy a genomi szekvencia jelentős hosszban nem fordítható le. Az mRNS jobb genomiális másolatát nem találták meg, de a gén intronokat tartalmazhat, és az Alu-szekvenciák miatt nehéz lehet azonosítani.

BNIP3. A BNIP3 egy olyan fehérje génje, amely más fehérjékkel való kölcsönhatás révén részt vesz az apoptózis szabályozásában (16-18). Az OMIM-ben (Online Mendelian Inheritance in Man) a bejegyzés címe: BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3: BNIP3. Az 1. táblázat azt mutatja, hogy a kódoló szekvencia 97%-a szorosan kapcsolódik a HERV70RM szekvenciájához. A HERV70RM az általam használt elnevezés a HERV70 azon változatára, amely a repeatmasker könyvtárban szerepel, és humán endogén retrovírusnak nevezik, bár nem tartalmaz felismerhető retrovírus génmaradványokat. Több mint 7 kb hosszú, és a BNIP3 kódoló szekvenciával való kapcsolat a HERV70RM 4641-es nukleotidja után következik be. A BNIP3 mRNS kódoló szekvenciája teljes mértékben illeszkedik a HERV70RM szekvenciájához, annak ellenére, hogy a gén 6 exonból áll, amelyek közel 15 kb DNS-en oszlanak el. Ennek a kapcsolatnak a feloldásához a repeatmasker programot futtattuk a teljes génre, és az eredmények a 3. táblázatban láthatók. Az adatok nagy része a repeatmasker kimenetéből származik, és két oszlopot adtunk hozzá, hogy megmutassuk az exonok elhelyezkedését a génben. A legtöbb esetben a génben lévő HERV70RM szegmens azonosítása szorosan illeszkedik az exonokhoz. Ez az egyezés olyan jó, hogy az előzmények nyilvánvalónak tűnnek. Valószínűleg a HERV70RM egy kb. 4-7 kb-os része intronok nélküli génné alakult át, amelynek fejlődnie és hasznosnak kellett lennie, és később az intronok beillesztésre kerültek bele, így alakult ki a mai BNIP3 gén. Valójában van egy BNIP3P szekvencia a 14. kromoszómán, amelyet pszeudogénként azonosítottak, mivel hiányoznak belőle az intronok, és nagyon jó egyezést ad a BNIP3 mRNS-sel végzett keresés során a humán genom blast segítségével. Lehetséges, hogy az esemény korai szakaszának fosszíliájáról van szó, vagy egy későbbi szakaszban az mRNS-ből készült tényleges pszeudogénről.

Tekintse meg ezt a táblázatot:

View inline
View popup

3. táblázat. ME-k a BNIP3 génben

Az értelmezés további feltárásához a kódoló szekvenciát blast2 szekvenciák segítségével illesztettük a HERV70RM szekvenciával. Az eredmény azt mutatta, hogy a HERV70RM szekvenciában az 5507-6073 és 6732-7289 helyeken a majdnem teljes cds régió két példánya található, ≈80%-os egyezéssel. Így a 3. táblázatban a HERV70RM-ben feltüntetett helyek egyszerűen a repeatmasker legjobb illesztései, és nem feltétlenül a BNIP3 kódoló szekvencia tényleges szekvencia eredetét mutatják. Valószínűnek tűnik, hogy a HERV70RM egyik régiójának másolataként keletkezett. A 3. táblázat egy példát mutat a HERV70RM és a gén egy olyan régiója közötti szekvencia-hasonlóságra, amely nem exon a BNIP3-ban. Ennek a régiónak a története nem világos. Mindenesetre egyértelmű, hogy a BNIP3 gén legtöbb exonja a HERV70RM egy összefüggő szakaszából származik. Ez a “késői intronok” jó esetének tűnik, mert más magyarázat nem jut eszembe a BNIP3 génben széles körben elterjedt, összefüggő HERV70RM-darabok sorozatának jelenlétére.

Egy fontos kérdés a HERV70RM természete. Az ezekben a vizsgálatokban használt példány szerepel a repeatmaskerben felsorolt emberi ismétlődő szekvenciák könyvtárában. Ez nem teljes és nem egy klasszikus endogén retrovírus. A hervd adatbázis (http://herv.img.cas.cz) számos olyan régiót sorol fel a humán genomban, amelyek szekvenciája hasonló ahhoz, amit itt HERV70RM-nek nevezek, bár egyik sem egyezik meg ≈1 kb-nál nagyobb hosszúságban. Valójában ebben az adatbázisban 63 olyan szekvencia található, amely megfelel a BNIP3 cds-nek, bár a legtöbbjük csak egy rövid illeszkedő régiót mutat. A helyzet tisztázásra szorul, mivel a hervd adatbázisban számos olyan HERV70 nevű bejegyzés található, amelyek nem mutatnak szekvencia-hasonlóságot a HERV70RM-hez. A HERV70RM-nek nincs teljes hosszúságú példánya a humán genom jelenlegi változatában, így az emberi endogén retrovírus szekvenciaként való státusza kétséges. blast of the human genome (filter off) search with HERV70RM sok találatot talál, és néhány példát úgy ábrázol, mintha teljes hosszúságú egyezések lennének. Ezek nem léteznek, és a program a közeli töredékes egyezések csoportjaiból rakta össze őket.

Amikor a repeatmasker-t futtatjuk a HERV70RM ellen, két kis töredékes Alu szekvenciát találunk, valamint azon belül más ME-ket. Vannak olyan régiók, amelyeket a repeatmasker HERV70-ként azonosít (HERV70RM), és ezek közé tartozik a BNIP3 kódoló szekvenciák másolatainak régiója. Itt figyelmeztetésre van szükség, mert a humán genom blastja (filter off, alapértelmezett) csak 3 egyező szekvenciát talál a BNIP3 kódoló szekvenciára a hervd adatbázisban létező 63-ból. Megerősítem azt a tényt, hogy a kódoló szekvenciához (cds) sok illeszkedő fragmentum létezik, 120-at találok a humán genomban a blast használatával. Ez egy fontos pont, mert ezek az adatok, függetlenül a HERV70RM értelmezésétől, azt mutatják, hogy a BNIP3 gén cds szekvenciája összességében szoros rokonságban áll egy ME szekvenciáival. Lehet, hogy nem tudjuk pontosan, hogy mi ez az ME, de ennek a régiónak számos másolata van a humán genomban, a precízektől az egészen eltérőekig.

A BNIP3 gén előfordul az egér genomban , és a kódoló szekvencia 89%-os pontossággal egyezik az emberével. A fehérje szekvenciák 90%-os pontossággal egyeznek, kivéve egy 5aa hézagot és egy 1aa hézagot az egér fehérjében. A gén elrendezése hasonló, 6 exonnal, amely ≈15 kb-on keresztül húzódik. Az exonok hossza megegyezik a humán exonokéval, kivéve a fehérje különbségeknek megfelelő 15 és 3 nt-os hézagokat. Mivel a cds-ok szekvenciájukban ilyen közel állnak egymáshoz, az egér BNIP3 exonok ugyanolyan rokonságot mutatnak a humán HERV70RM-hez, mint a humán BNIP3 exonok. Érdekes módon az egérgenomban nincs olyan szekvencia, amelyet az egérgenom blastolásával láttunk, amely a BNIP3 exonok kivételével megegyezne a humán HERV70RM-mal. Úgy tűnik, hogy az egér genomban nincs egyenértékű ERV, bár természetesen sok más HERV és MERV szekvenciája közös. repeatmasker használható akár a humán ismétlődésekkel, akár az egér ismétlődésekkel az egér BNIP3 gén régiójának vizsgálatára. A humán ismétlődésekkel az egér BNIP3 exonjait HERV70RM szekvenciaként ismeri fel, de az egér ismétlődésekkel nem találunk egyező szekvenciákat. A két génben lévő exonok közel azonosak. Az egér és a humán BNIP3 cds nukleotidszekvenciái szorosan egyeznek (90%). Az egér és az ember kódoló szekvenciái közötti K s 0,41 és K a = 0,047 (K s a szinonim szubsztitúciók miatti eltérés, K a pedig az aminosavcserét okozó változások miatti eltérés) (19). Ez a hasonlóság arra utal, hogy bármi is volt az esemény, az messze a múltban történt.

A BNIP3 gént patkányból is szekvenálták, és a cds 95%-ban hasonlít az egér BNIP3 génjéhez, így ugyanazok az érvek érvényesek. A K s a patkány és az ember kódoló szekvenciái között 0,37 és K a = 0,048 (20). a patkány genom blastja egy BNIP3 exont és két másik patkány szekvenciát talál, amelyek hasonlóak az emberi HERV70RM részeihez, míg az egér genom blastja csak egy BNIP3 exont talál, amely hasonló az emberi HERV70RM-hez. A GenBankban végzett blast keresés alapján a csirke (Gallus gallus) a humán BNIP3-hoz hasonló mRNS-szekvenciával rendelkezik. A 453 nt-ból 367, azaz 81%-os egyezést találunk egy nagy régióban, és más kisebb hasonlósági régiókra is van bizonyíték. Úgy tűnik, hogy a BNIP3 és a HERV70RM evolúciójának és kapcsolatainak teljes körű vizsgálata számos fajnál érdemes lenne.

Syncytin. Ezt a példát Smit (4) sorolta fel, és azért szerepel itt, mert a legújabb bizonyítékok azt mutatják, hogy a Syncytin egy működő gén az emberi placentában (21, 22). Az mRNS teljes egészében a HERV-W endogén retrovírusból származik, amely sok példányban van jelen a humán genomban. A szerzők (21) az ERVWE1-et azonosítják a gén régiójaként, amely a transzkriptum forrása, bár ez nem biztos. Az ERVWE1 10,2 kb hosszú, és a szokásos LTR-gag-pol-env-env-LTR elrendezésből áll. A Syncytin mRNS 2,8 kb hosszú, és az 5′ LTR-ből, néhány további szekvenciából, az env génből és a 3′ LTR-ből áll. Az 1617 nt hosszúságú cds csak az endogén retrovírus env génjét tartalmazza. Ezen belül olyan régiók azonosíthatók, amelyek funkcionálisan jelentősek a Syncytin számára. Nem világos, hogy mennyi evolúciós változás történt az env-génben ahhoz, hogy jelenlegi funkcióját átvegye. Az Entrez Gene felsorolja az úgynevezett GeneRIF-eket (www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html):

Env HERV-W glikoprotein a sejt-sejt fúziót közvetíti a D típusú emlős retrovírus receptorral való kölcsönhatás során. Az Env fehérjét kimutatták a placenta szinciotrofoblasztjában, ami fiziológiai szerepre utal a terhesség és a placenta kialakulása során.
Hozzájárul a normál placenta architektúrához, különösen a citotrofoblasztok és a szinciotrofoblasztok fúziós folyamataiban. A Syncytin génexpressziója megváltozhat olyan placenta diszfunkcióval járó esetekben, mint a preeclampsia vagy a HELLP-szindróma.
A Syncytin mRNS-bőségét a BeWo sejtekben forskolin stimulálta.
A Syncytin által közvetített trofoblasztfúziót emberi sejtekben a GCMa szabályozza.
A szincitin gén aktivációja a terminális placentában a legmagasabb.
A HERV-W Env glikoprotein közvetlenül részt vesz a humán villás citotrofoblasztok primer kultúráinak differenciálódásában.
A hipoxia megváltoztatja a Syncytin és receptorának expresszióját és funkcióját a humán placenta BeWo sejtek trofoblaszt sejtfúziója során:
A Syncytin génexpressziója hypoxia hatására lefelé szabályozódik, ami megerősíti azt a hipotézist, hogy a Syncytin a placentáris hypoxia során a terhességi zavarokban csökken.

HHCM. A HHCM-et egy humán hepatocelluláris karcinóma 3,0 kbyte-os DNS-szekvenciájaként azonosították, amely (egy 1440 nt-os cds-ban) egy 52 kDa fehérjét kódol. Patkánymájsejteket és NIH 3T3 fibroblasztokat egyaránt átalakít.† Az 1. táblázat azt mutatja, hogy csaknem 90%-ban L1 ME-kből áll. A szekvencia egyezés csak ≈70%, tehát sok szekvencia változás történt, mert az L1 szekvencia egy részéből származik. Megegyezik az L1MD2 18-331 nt és 437-1470 nt régióival. Ez nyilvánvalóan nem egy előnyös hozzájárulás, amit az L1 tett a genomunkhoz, bár az ME-k furcsa módon viselkednek. Az NM_006543 rekordot “a RefSeq munkatársai további felülvizsgálat céljából ideiglenesen eltávolították”, és Smit (személyes közlés) nem talált szorosan illeszkedő genomszekvenciát. Így ezt a példát a jövőbeni tanulmányok jelöltjének kell tekinteni.

LG30. Az LG30 egy ismeretlen funkciójú gén a 13. kromoszóma G72/G30 régiójában. A régió mutációi kapcsolatban állnak a bipoláris zavarral (23, 24), de úgy tűnik, hogy inkább a G72 a felelős (25). Az LG30 kódoló régió mindössze 216 nt hosszú, és hosszának 100%-a LTR osztályú ME (MLT1E, MLT1G)

GTF2IRD2. A GTF2IRD2-t eredetileg transzkripciós faktor génként írták le (26, 27), és az NCBI-bejegyzés az 1. táblázatban felsorolt fragmentumból állt. Ezért szerepel itt is. Nemrégiben részletesen tanulmányozták (28, 29), és kiderült, hogy ez a fragmentum valójában a 16. exon, a 3′ exon és az egyetlen hosszú exon, amely több mint fele a teljes kódoló szekvencia hosszának. Ez az exon teljes egészében a Charlie8 ME szekvenciából áll. A következőkben a 29. hivatkozásból idézünk. “A GTF2IRD2 a 7q11.23-on csoportosuló új TFII-I géncsalád harmadik tagja. A GTF2IRD2 fehérje két feltételezett helix-loop-hélix régiót (I-repeats) és egy szokatlan C-terminális CHARLIE8 transzpozon-szerű domént tartalmaz, amely feltehetően egy funkcionális fúziós gént generáló transzpozíciós elem véletlenszerű beillesztése következtében jött létre. A fehérjén belül számos konzervált transzpozáz-asszociált motívum megtartása arra utal, hogy a CHARLIE8-szerű régió még mindig rendelkezhet bizonyos fokú transzpozáz-funkcióval, amely befolyásolhatja a régió stabilitását a Charcot-Marie-Tooth 1A típusú neuropathia esetében javasolt mechanizmushoz hasonlóan. A GTF2IRD2 erősen konzervált az emlősökben, és az egér ortológját (Gtf2ird2) is izolálták.”

Egyéb, nyilvánvalóan ME-ből származó transzkriptkódoló szekvenciák. A 4. táblázat 49 olyan megfigyelt transzkript példát tartalmaz, amelyek kódoló szekvenciáit számítógépes programokkal határozták meg, és ezek a cds-ok legalább 80%-ban ME-kből állnak. Ez a gyűjtemény a repeatmasker futtatásával készült a génátírások NCBI gyűjteményével szemben 2004 februárjában, de amikor március elején ellenőrzéseket végeztünk, az összes így megjelölt átiratot eltávolították a gyűjteményből. Valószínűnek tűnik, hogy valaki úgy döntött, hogy ezek szemétnek minősülnek, ami bizonyos értelemben igaz is lehet, de e cikk szempontjából potenciálisan hasznosnak tekinthetők, és tovább kell vizsgálni őket. Némelyikük valószínűleg az ME töredékeinek átírásának példája, amely folyamat gyakran előfordul. Az ME 1. vonalának régiói egér-, patkány- és humán RNS-gyűjteményekben expresszálódnak (nem publikált adatok). Smit táblázata (4) kibővült (27), és 47 potenciális gént tartalmaz, amelyek legalább részben a ME-ből származnak. A központi kérdés azonban e két táblázat esetében az, hogy ezek a jelöltek valóban működő gének-e. Valójában az esetek többségében nincs bizonyíték arra, hogy ezeket az mRNS-eket működő gének termelik. Két olyan példa van ezekben a táblázatokban, ahol szinte a teljes mRNS egy ME-ből származik, és az egyiket fentebb Syncytin néven ismertettük (21, 22). A másik úgy tűnik, hogy a HERV3-hoz meglehetősen közel álló szekvencia egy töredékének átírása, beleértve az env gént és az LTR-t, és a transzkriptumot env gén mRNS-ként írják le. Funkciójának bizonyítéka a placenta trofoblaszt sejtekben történő transzkripció (28), ami emlékeztet az egérben található, az ERV-khez hasonló intracisztális A-részecskékre, amelyekről azt lehet állítani, hogy fontos szerepet játszanak a placentában (29).

A leírt esetek és esetleg az imént említett példa (4, 27) azt mutatják, hogy a ME részei lényegében teljes génkódoló szekvenciákká alakultak át. Valószínűleg több eset is van, amint azt a 4. táblázat jelzi. Ezek a megfigyelések hozzáadódnak ahhoz a sok ismert módhoz, ahogyan az ME-k hozzájárultak evolúciónkhoz. Ezt a témát nemrégiben Kazazian (30) tekintette át, aki úgy jellemzi őket, mint akik a vezetői székben ülnek, nem pedig egyszerűen csak hasznosak, hogy körülöttünk vannak. Ennek az áttekintésnek köszönhetően itt nincs okunk a részletes tárgyalásra.

Eredmények és vita

Vélemény, hozzászólás? Kilépés a válaszból