Kódovací sekvence fungujících lidských genů odvozené výhradně ze sekvencí mobilních prvků

Výsledky a diskuse

AD7C. AD7C je gen pro neuronální vláknový protein. Kóduje 41 kDa membránu pokrývající fosfoprotein, který je užitečný při diagnostice časné Alzheimerovy choroby (14, 15). Kódující sekvence je dlouhá 1 128 nt a repeatmasker ukazuje, že se skládá z fragmentů pěti (nebo čtyř, viz níže) Alu sekvencí. Všechny shody jsou s reverzními komplementy Alu repetic. Zarovnání je shrnuto v tabulce 2. Uvedeny jsou procenta podobnosti a délky jednotlivých oblastí z nejlépe odpovídajících sekvencí Alu, které se nepodstatně liší od těch publikovaných v ref. 14.

Zobrazit tuto tabulku:

  • Zobrazit inline
  • Zobrazit popup

Tabulka 2. Shrnutí zarovnání AD7C

První, AluSp odpovídá s 92% přesností prvním 281 nt kódující sekvence. Po mezeře 3 nt odpovídá 141 nt AluJo s přesností 87 %. Poté, po 2 nt, se další část sekvence AluJo shoduje s přesností 93 % na 167 nt včetně značné části poly(A) ocasu, modifikovaného dvěma substitucemi, které ovlivňují překlad. Zdá se, že tyto dva krátké fragmenty představují jeden homolog sekvence Alu v kódující sekvenci, ale zřejmě došlo k přeskupení, protože se překrývají oblasti AluJo. Následuje 92% shoda 302 nt s AluSc, včetně značné části poly(A) ocasu, který je modifikován. A nakonec je zde 88% shoda pro 239 nt s AluSx, která rovněž zahrnuje značnou část modifikovaného poly(A) ocasu. V genomu tato shoda pokračuje za koncem oblasti kódující sekvence a je zde další shoda se sekvencí Alu (údaje nejsou uvedeny).

Zdá se, že celá oblast kódujícího genu byla vytvořena ze shluku sekvencí Alu. Mezery o délce několika nukleotidů mezi jednotlivými shodami sekvencí Alu jsou pravděpodobně jen detaily procesu zarovnávání repeatmasker a lze je ignorovat. Zajímavé je, k jak velkým změnám v sekvencích došlo, aby se z ME sekvencí vytvořil použitelný gen. Sekvence Alu shrnuté v tabulce 2 jsou jednoduše nejlepší shody ze souboru repeatmasker a nemusí se nutně jednat o sekvence Alu, které byly přítomny v původním shluku Alu, takže není možné obecně určit, k jakým změnám sekvence došlo. Vzorek lze odhadnout na základě zkoumání tří poly(A) řetězců, které jsou v něm zahrnuty. Jejich celkový počet v komplementárních sekvencích Alu je 60 Ts. V těchto poly(T) oblastech došlo k osmi změnám, které všechny vedou k translatabilním kodonům pro jiné aminokyseliny než fenylalanin. Skládají se ze šesti záměn A a dvou vložení po dvou As. Tato ≈17% změna v tomto malém vzorku naznačuje pozitivní selekci. Samozřejmě existuje pouze jedna možná tichá záměna v řadě Ts, přechod z T na C ve třetí bázi. Kromě toho existují čtyři případy vnitřních sekvencí bohatých na T v pěti dotčených sekvencích Alu a v jednom z nich k takové tiché substituci došlo. Ve dvou z těchto případů došlo k délkovým rozdílům, které jsou výsledkem delece šesti bází a inzerce čtyř bází, což samozřejmě vede k translatabilním kodonům. Jedná se o jasný případ, kdy byl shluk Alu repetic přeměněn na aktivní lidský gen. Zatím nevíme, jak je uspořádána 5′ kontrolní oblast. S touto informací budeme jednou schopni říci více o evolučním procesu, který gen vytvořil. Bylo poukázáno na to, že identifikovatelné zastoupení v plné délce v lidském genomu (build 34) je pouze z 97 % podobné sekvenci mRNA AD7C (A. F. Smit, osobní sdělení) (14). Rozdíly jsou takové, že genomovou sekvenci nelze přeložit na značnou délku. Nebyla nalezena lepší genomická kopie mRNA, ale gen by mohl obsahovat introny a mohl by být obtížně identifikovatelný kvůli Alu sekvencím.

BNIP3. BNIP3 je gen pro protein, který se podílí na řízení apoptózy prostřednictvím interakce s jinými proteiny (16-18). Záhlaví položky v OMIM (Online Mendelian Inheritance in Man) je BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3: BNIP3. Tabulka 1 ukazuje, že 97 % kódující sekvence je úzce příbuzné sekvenci HERV70RM. HERV70RM je název, který používám pro verzi HERV70, která je obsažena v knihovně repeatmasker a je označována jako lidský endogenní retrovirus, ačkoli neobsahuje rozpoznatelné zbytky retrovirálního genu. Je dlouhý více než 7 kb a vztahy ke kódující sekvenci BNIP3 se vyskytují za nukleotidem 4641 HERV70RM. Kódující sekvence mRNA BNIP3 se plně shoduje se sekvencí HERV70RM, přestože se gen skládá ze 6 exonů rozložených na téměř 15 kb DNA. Abychom pomohli vyřešit tento vztah, byl proti celému genu spuštěn repeatmasker a výsledky jsou uvedeny v tabulce 3. Většina těchto údajů pochází z výstupu repeatmaskeru a jsou přidány dva sloupce, které ukazují umístění exonů v genu. Ve většině případů se identifikace segmentu HERV70RM v genu přesně shoduje s exony. Tato shoda je tak dobrá, že se historie zdá být zřejmá. Je pravděpodobné, že část HERV70RM od přibližně 4-7 kb byla přeměněna na gen bez intronů, který se musel vyvinout a stát se užitečným, a později do něj byly vloženy introny, což vedlo k modernímu genu BNIP3. Ve skutečnosti existuje sekvence BNIP3P na chromozomu 14, která je identifikována jako pseudogen, protože postrádá introny a poskytuje velmi dobrou shodu při hledání provedeném s mRNA BNIP3 pomocí blastování lidského genomu. Je možné, že se jedná o fosilii z rané fáze této události, nebo se může jednat o skutečný pseudogen vytvořený z mRNA v pozdější fázi.

Zobrazit tuto tabulku:

  • Zobrazit inline
  • Zobrazit popup

Tabulka 3. ME v genu BNIP3

Pro další zkoumání této interpretace byla kódující sekvence zarovnána se sekvencí HERV70RM pomocí sekvencí blast2. Výsledek ukázal dvě kopie téměř kompletní oblasti cds na místech 5507-6073 a 6732-7289 v sekvenci HERV70RM, které se shodují na ≈80 %. Místa uvedená v tabulce 3 v HERV70RM jsou tedy pouze nejlepší shody repeatmaskeru a nemusí nutně ukazovat skutečný původ sekvence kódující sekvence BNIP3. Zdá se pravděpodobné, že vznikla jako kopie jedné z oblastí v HERV70RM. Tabulka 3 ukazuje jeden příklad sekvenční podobnosti mezi HERV70RM a oblastí genu, která není exonem v BNIP3. Historie této oblasti je nejasná. V každém případě je jasné, že většina exonů genu BNIP3 pochází ze souvislého úseku HERV70RM. Zdá se, že jde o dobrý případ „pozdních intronů“, protože mě nenapadá žádné jiné vysvětlení přítomnosti řady spojených kusů HERV70RM široce rozprostřených v genu BNIP3.

Důležitou otázkou je povaha HERV70RM. Kopie použitá v těchto studiích je uvedena v knihovně lidských opakovaných sekvencí uvedené v repeatmaskeru. Je neúplná a není to klasický endogenní retrovirus. Databáze hervd (http://herv.img.cas.cz) uvádí mnoho oblastí v lidském genomu, které jsou sekvenčně podobné tomu, co zde nazývám HERV70RM, ačkoli žádná z nich neodpovídá délce větší než ≈1 kb. Ve skutečnosti je v této databázi soubor 63 sekvencí, které se shodují s cds BNIP3, ačkoli většina z nich vykazuje pouze krátkou shodnou oblast. Situaci je třeba objasnit, protože v databázi hervd je mnoho záznamů s názvem HERV70, které nevykazují žádnou sekvenční podobnost s HERV70RM. V současné verzi lidského genomu není žádná kopie HERV70RM v plné délce, takže jeho status jako sekvence lidského endogenního retroviru je pochybný. blast lidského genomu (filtr vypnut) hledající s HERV70RM najde mnoho shod a některé příklady graficky znázorní, jako by šlo o shody v plné délce. Neexistují a program je sestavil ze skupin blízkých fragmentárních shod.

Při spuštění repeatmaskeru proti HERV70RM jsou nalezeny dva malé fragmenty Alu sekvencí a další ME v něm. Existují oblasti, které repeatmasker identifikuje jako HERV70 (HERV70RM), a ty zahrnují oblast kopií kódujících sekvencí BNIP3. Zde je nutné upozornění, protože blast lidského genomu (filtr vypnut, výchozí nastavení) nalezne pouze 3 shodné sekvence pro kódující sekvenci BNIP3 z 63, které existují v databázi hervd. Potvrzuji skutečnost, že existuje mnoho odpovídajících fragmentů ke kódující sekvenci (cds), přičemž pomocí blast jich v lidském genomu nalezl 120. To je důležitý bod, protože tato data, bez ohledu na interpretaci HERV70RM, ukazují, že cds sekvence genu BNIP3 je in toto úzce příbuzná sekvencím ME. Nemusíme přesně vědět, co je to ME, ale v lidském genomu existuje mnoho kopií této jeho oblasti, od přesných až po značně odlišné.

Gen BNIP3 se vyskytuje v myším genomu , a kódující sekvence se shoduje s lidskou s 89% přesností. Sekvence proteinů se shodují s přesností 90 % s výjimkou mezery 5 aa a mezery 1 aa v myším proteinu. Uspořádání genu je podobné, 6 exonů se táhne na ≈15 kb. Délka exonů je shodná s délkou lidských exonů s výjimkou mezer 15 a 3 nt odpovídajících rozdílům v proteinu. Vzhledem k tomu, že se cds tak těsně shodují v sekvenci, vykazují myší exony BNIP3 stejný vztah k lidskému HERV70RM jako lidské exony BNIP3. Zajímavé je, že v myším genomu se nenachází žádná sekvence, kterou bychom viděli při blastování myšího genomu a která by se shodovala s lidským HERV70RM, s výjimkou exonů BNIP3. V myším genomu zřejmě není žádný ekvivalentní ERV, i když samozřejmě mnoho jiných HERV a MERV sdílí sekvenci. repeatmasker lze použít buď s lidskými repeticemi, nebo s myšími repeticemi ke zkoumání oblasti myšího genu BNIP3. S lidskými repeticemi jsou myší exony BNIP3 rozpoznány jako sekvence HERV70RM, ale s myšími repeticemi se žádné sekvence neshodují. Exony v obou genech jsou téměř identické. Nukleotidové sekvence myšího a lidského kódu BNIP3 se těsně shodují (90 %). K s mezi kódujícími sekvencemi myši a člověka je 0,41 a K a = 0,047 (K s je divergence v důsledku synonymních záměn a K a je divergence v důsledku změn, které způsobují záměnu aminokyselin) (19). Tato podobnost naznačuje, že ať už se jednalo o jakékoliv události, došlo k nim daleko v minulosti.

Gen BNIP3 byl sekvenován také u potkana a cds je z 95 % podobný myšímu BNIP3, takže platí stejné argumenty. K s mezi kódujícími sekvencemi potkana a člověka je 0,37 a K a = 0,048 (20). blast genomu potkana nachází exon BNIP3 a dvě další sekvence potkana podobné částem lidského HERV70RM, zatímco blast genomu myši nachází pouze exon BNIP3 s podobností s lidským HERV70RM. Na základě blastového vyhledávání v GenBank má kuře (Gallus gallus) sekvenci mRNA podobnou lidské BNIP3. V jedné velké oblasti je shoda 367 ze 453 nt, tj. 81 %, a existují důkazy o dalších menších oblastech podobnosti. Zdá se, že by stálo za to kompletně prozkoumat evoluci a vztahy BNIP3 a HERV70RM u řady druhů.

Syncytin. Tento příklad uvádí Smit (4) a je zde uveden, protože nedávné důkazy ukazují, že Syncytin je funkční gen v lidské placentě (21, 22). Tato mRNA pochází in toto z endogenního retroviru HERV-W, který je v lidském genomu přítomen v mnoha kopiích. Autoři (21) identifikují oblast genu ERVWE1 jako zdroj transkriptu, i když to nemusí být jisté. ERVWE1 je dlouhý 10,2 kb a skládá se z obvyklého uspořádání LTR-gag-pol-env-LTR. Syncytinová mRNA je dlouhá 2,8 kb a skládá se z 5′ LTR, některé další sekvence, genu env a 3′ LTR. Cds o délce 1 617 nt zahrnuje pouze env gen endogenního retroviru. V něm lze identifikovat oblasti, které jsou pro syncytin funkčně významné. Není jasné, k jak velké evoluční změně v genu env došlo, aby nabyl své současné funkce. Entrez Gene uvádí seznamy, které se označují jako GeneRIF (www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html):

  1. Env HERV-W glykoprotein zprostředkovává fúzi buněk při interakci s receptorem pro savčí retroviry typu D. Glykoprotein HERV-W zprostředkovává fúzi buněk. Env protein byl detekován v placentárním syncytiotrofoblastu, což naznačuje fyziologickou roli během těhotenství a tvorby placenty.

  2. Přispívá k normální struktuře placenty, zejména v procesech fúze cytotrofoblastu se syncytiotrofoblastem. Exprese genu pro syncytin může být změněna v případech s placentární dysfunkcí, jako je preeklampsie nebo HELLP syndrom.

  3. množství mRNA pro syncytin vykazovalo stimulaci forskolinem v buňkách BeWo.

  4. Syncytinem zprostředkovaná trofoblastická fúze v lidských buňkách je regulována GCMa.

  5. Aktivace genu pro syncytin je nejvyšší v termální placentě.

  6. HERV-W Env glykoprotein se přímo podílí na diferenciaci primárních kultur lidských vilózních cytotrofoblastů.

  7. Hypoxie mění expresi a funkci syncytinu a jeho receptoru během fúze buněk trofoblastu lidských placentárních buněk BeWo:

  8. Exprese genu pro syncytin je snížena hypoxií, což posiluje hypotézu, že syncytin je snížen u narušených těhotenství v průběhu placentární hypoxie.

HHCM. HHCM je identifikován jako sekvence DNA lidského hepatocelulárního karcinomu o velikosti 3,0 kb, která kóduje (v 1 404-nt cds) protein o velikosti 52 kDa. Transformuje jaterní buňky potkanů i fibroblasty NIH 3T3.† Tabulka 1 ukazuje, že je téměř z 90 % tvořen L1 ME. Shoda sekvence je pouze ≈70 %, takže došlo k velké sekvenční změně, protože jeho původ je z části sekvence L1. Shoduje se s oblastmi 18-331 nt a 437-1470 nt L1MD2. Nejedná se zřejmě o přínos, který L1 vnesl do našeho genomu, ačkoli ME působí zvláštním způsobem. Záznam NM_006543 byl „dočasně odstraněn pracovníky RefSeq k dodatečnému přezkoumání“ a Smit (osobní sdělení) nenašel přesně odpovídající genomovou sekvenci. Tento příklad je tedy třeba považovat za kandidáta na budoucí studium.

LG30. LG30 je gen neznámé funkce v oblasti G72/G30 na 13. chromozomu. Mutace v této oblasti jsou spojovány s bipolární poruchou (23, 24), ale zdá se, že za ni může spíše oblast G72 (25). Kódující oblast LG30 je dlouhá pouze 216 nt a 100 % její délky souvisí s třídou LTR ME (MLT1E, MLT1G).

GTF2IRD2. GTF2IRD2 byl původně popsán jako gen transkripčního faktoru (26, 27) a záznam NCBI se skládal z fragmentu uvedeného v tabulce 1. Proto je zde zařazen. Nedávno byl podrobně studován (28, 29) a ukázalo se, že tento fragment je ve skutečnosti exon 16, 3′ exon a jediný dlouhý exon, více než polovina délky celé kódující sekvence. Tento exon se skládá výhradně z ME sekvence Charlie8. Následující text je citací z citace 29. „GTF2IRD2 je třetím členem nové rodiny genů TFII-I seskupené na 7q11.23. V této rodině se vyskytují geny, které se nacházejí na 7q11.23. Protein GTF2IRD2 obsahuje dvě domnělé oblasti helix-loop-helix (I-repeats) a neobvyklou C-koncovou doménu podobnou transpozonu CHARLIE8, o níž se předpokládá, že vznikla jako důsledek náhodného vložení transpozibilního elementu generujícího funkční fúzní gen. Zachování řady konzervovaných transpozičních motivů v proteinu naznačuje, že oblast podobná CHARLIE8 může mít stále určitý stupeň transpoziční funkčnosti, která by mohla ovlivňovat stabilitu oblasti podobným mechanismem, jaký byl navržen pro neuropatii Charcot-Marie-Tooth typu 1A. GTF2IRD2 je vysoce konzervovaný u savců a byl také izolován myší ortolog (Gtf2ird2).“

Další sekvence kódující transkripty zřejmě odvozené od ME. V tabulce 4 je uveden seznam 49 příkladů pozorovaných transkriptů, u nichž byly kódovací sekvence určeny počítačovými programy a tyto cds jsou tvořeny z ME alespoň z 80 %. Tato sbírka byla vytvořena spuštěním repeatmaskeru proti sbírce genových transkriptů NCBI v únoru 2004, ale při kontrole na začátku března byly všechny takto označené transkripty ze sbírky odstraněny. Zdá se pravděpodobné, že někdo rozhodl, že jsou nevyžádané, což může být v jistém smyslu pravda, ale z hlediska tohoto článku je lze považovat za potenciálně užitečné a měly by být dále zkoumány. Některé z nich jsou pravděpodobně příkladem přepisu fragmentů ME, což je proces, který se vyskytuje často. Oblasti ME linie 1 jsou exprimovány v myších a potkaních a lidských sbírkách RNA (nepublikované údaje). Smitova tabulka (4) byla rozšířena (27) a zahrnuje 47 potenciálních genů odvozených alespoň částečně z ME. Ústřední otázkou těchto dvou tabulek však je, zda jsou tito kandidáti skutečně funkčními geny. Ve skutečnosti ve většině případů neexistuje žádný důkaz, že tyto mRNA jsou produkovány fungujícími geny. V těchto tabulkách jsou dva příklady, kdy téměř celá mRNA pochází z ME, a jeden z nich je popsán výše jako Syncytin (21, 22). Druhý je zřejmě transkripcí fragmentu sekvence poměrně úzce příbuzné HERV3, včetně genu env a LTR, a transkript je popsán jako mRNA genu env. Důkazem jeho funkce je transkripce v buňkách placentárního trofoblastu (28), připomínající intracysternální A-částice u myši, které jsou podobné ERV a lze tvrdit, že mají důležitou roli v placentě (29).

Popsané případy a případně právě uvedený příklad (4, 27) ukazují, že části ME byly převedeny do podoby v podstatě kompletních kódujících sekvencí genů. Případů je pravděpodobně více, jak naznačuje tabulka 4. Tato pozorování doplňují mnoho známých způsobů, jimiž ME přispěly k naší evoluci. Toto téma nedávno rozebral Kazazian (30), který je charakterizuje tak, že jsou spíše na místě řidiče, než že by byly jen užitečné, aby byly nablízku. Vzhledem k tomuto přehledu zde není důvod k rozsáhlé diskusi.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.