Sekwencje kodujące funkcjonujących genów ludzkich wyprowadzone w całości z sekwencji elementów ruchomych

Wyniki i dyskusja

AD7C. AD7C jest genem białka nici neuronalnych. Koduje 41-kDa fosfoproteinę o rozpiętości błonowej, która jest przydatna w diagnostyce wczesnej choroby Alzheimera (14, 15). Sekwencja kodująca ma długość 1,128 nt, a repeatmasker pokazuje, że składa się ona z fragmentów pięciu (lub czterech, patrz niżej) sekwencji Alu. Wszystkie dopasowania są z odwrotnymi dopełnieniami powtórzeń Alu. Wyrównanie jest podsumowane w Tabeli 2. Podane są procentowe podobieństwo i długość każdego z regionów z najlepiej dopasowanych sekwencji Alu, które różnią się nieistotnie od tych opublikowanych w ref. 14.

Zobacz tę tabelę:

  • View inline
  • View popup

Tabela 2. Alignment summary of AD7C

Po pierwsze, AluSp dopasowuje z 92% dokładnością pierwsze 281 nt sekwencji kodującej. Po przerwie 3 nt, 141 nt AluJo dopasowuje się z 87% dokładnością. Następnie, po 2 nt, dodatkowa część sekwencji AluJo pasuje na 93% do 167 nt, włączając w to sporą część ogona poli(A), zmodyfikowaną przez dwie substytucje, które wpływają na translację. Te dwa krótkie fragmenty wydają się reprezentować jeden homolog sekwencji Alu w sekwencji kodującej, ale najwyraźniej doszło do rearanżacji, ponieważ regiony AluJo nakładają się na siebie. Następnie mamy 92% dopasowanie 302 nt do AluSc, w tym znaczną część ogona poli(A), który jest zmodyfikowany. Wreszcie, istnieje 88% dopasowanie dla 239 nt do AluSx, również zawierającego znaczną część ogona poli(A), który jest zmodyfikowany. W genomie, to dopasowanie jest kontynuowane po zakończeniu regionu sekwencji kodującej i tam jest kolejne dopasowanie do sekwencji Alu (dane nie pokazane).

Wygląda na to, że cały region kodujący genu został utworzony z klastra sekwencji Alu. Odstępy kilku nukleotydów pomiędzy poszczególnymi sekwencjami Alu są prawdopodobnie tylko szczegółami procesu wyrównywania repeatmasker i mogą być zignorowane. Interesuj±ce jest, jak wiele zmian zaszło w sekwencjach, aby z sekwencji ME utworzyć użyteczny gen. Sekwencje Alu podsumowane w Tabeli 2 są po prostu najlepszymi dopasowaniami ze zbioru repeatmasker i niekoniecznie są sekwencjami Alu, które były obecne w oryginalnym klastrze Alu, tak że nie jest możliwe w ogólności zidentyfikowanie zmian sekwencji, które nastąpiły. Próbka może być oszacowana poprzez zbadanie trzech łańcuchów poli(A), które są w niej zawarte. Łącznie stanowią one 60 Ts w komplementarnych sekwencjach Alu. W tych regionach poli(T) nastąpiło osiem zmian, wszystkie prowadzące do translatywnych kodonów dla aminokwasów innych niż fenyloalanina. Składają się one z sześciu substytucji A i dwóch insercji po dwa As. Ta ≈17% zmiana w tej małej próbce sugeruje pozytywną selekcję. Oczywiście, istnieje tylko jedna możliwa cicha substytucja w rzędzie Ts, przejście z T na C w trzeciej bazie. Ponadto istnieją cztery przypadki wewnętrznych sekwencji bogatych w T w pięciu sekwencjach Alu, a w jednej z nich doszło do takiej cichej substytucji. W dwóch z tych przypadków wystąpiły różnice długości wynikające z sześciobazowej delecji i czterobazowej insercji, co oczywiście prowadzi do powstania kodonów translatywnych. Jest to wyraźny przypadek, w którym skupisko powtórzeń Alu zostało przekształcone w aktywny gen ludzki. Nie wiemy jeszcze, jak zorganizowany jest region kontrolny 5′. Dzięki tej informacji będziemy mogli kiedyś powiedzieć więcej o procesie ewolucyjnym, który doprowadził do powstania tego genu. Zwrócono uwagę, że możliwa do zidentyfikowania pełnometrażowa reprezentacja w ludzkim genomie (budowa 34) jest tylko w 97% podobna do sekwencji AD7C mRNA (A. F. Smit, komunikacja osobista) (14). Różnice są takie, że sekwencja genomowa nie jest przetłumaczalna na znaczną długość. Nie znaleziono lepszej genomowej kopii mRNA, ale gen może zawierać introny i może być trudny do zidentyfikowania ze względu na sekwencje Alu.

BNIP3. BNIP3 jest genem dla białka zaangażowanego w kontrolę apoptozy poprzez interakcję z innymi białkami (16-18). Nagłówek wpisu w OMIM (Online Mendelian Inheritance in Man) brzmi: BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3: BNIP3. Tabela 1 pokazuje, że 97% sekwencji kodującej jest blisko spokrewniona z sekwencją HERV70RM. HERV70RM jest nazwą, której używam dla wersji HERV70, która jest zawarta w bibliotece repeatmasker i jest nazywana ludzkim endogennym retrowirusem, chociaż nie zawiera rozpoznawalnych reszt genów retrowirusowych. Ma on ponad 7 kb długości, a związki z sekwencją kodującą BNIP3 występują po nukleotydzie 4641 HERV70RM. Sekwencja kodująca mRNA BNIP3 w pełni pokrywa się z sekwencją HERV70RM, mimo że gen ten składa się z 6 eksonów rozmieszczonych na prawie 15 kb DNA. Aby pomóc w rozwiązaniu tego problemu, przeprowadzono test repeatmasker na całym genie, a wyniki przedstawiono w Tabeli 3. Większość z tych danych pochodzi z wyjścia repeatmaskera, a dwie kolumny zostały dodane, aby pokazać lokalizację eksonów w genie. W większości przypadków identyfikacja segmentu HERV70RM w genie pokrywa się ściśle z eksonami. Zgodność ta jest tak dobra, że historia wydaje się oczywista. Prawdopodobnie część HERV70RM od około 4-7 kb została przekształcona w gen bez intronów, który musiał wyewoluować i stać się użyteczny, a później introny zostały do niego wstawione, by doprowadzić do powstania współczesnego genu BNIP3. W rzeczywistości istnieje sekwencja BNIP3P na chromosomie 14, która jest identyfikowana jako pseudogen, ponieważ brakuje w niej intronów i daje bardzo dobre dopasowanie w wyszukiwaniu z mRNA BNIP3 przy użyciu blastów ludzkiego genomu. Jest to prawdopodobnie skamielina wczesnego etapu tego wydarzenia lub może to być rzeczywisty pseudogen utworzony z mRNA na późniejszym etapie.

Zobacz tę tabelę:

  • View inline
  • View popup

Tabela 3. MEs w genie BNIP3

Aby dokładniej zbadać tę interpretację, sekwencja kodująca została wyrównana z sekwencją HERV70RM za pomocą sekwencji blast2. Wynik pokazał dwie kopie prawie kompletnego regionu cds w miejscach 5507-6073 i 6732-7289 w sekwencji HERV70RM, pasujące do siebie w ≈80%. Tak więc, lokalizacje pokazane w Tabeli 3 w HERV70RM są po prostu najlepiej dopasowane przez repeatmasker i niekoniecznie pokazują rzeczywiste pochodzenie sekwencji kodującej BNIP3. Wydaje się prawdopodobne, że powstała ona jako kopia jednego z regionów w HERV70RM. Tabela 3 pokazuje jeden przykład podobieństwa sekwencji między HERV70RM i regionem genu, który nie jest eksonem w BNIP3. Historia tego regionu jest niejasna. W każdym razie jasne jest, że większość eksonów genu BNIP3 pochodzi z ciągłego odcinka HERV70RM. To wydaje się być dobrym przypadkiem „intronów późno”, ponieważ nie ma innego wyjaśnienia, które przychodzi do głowy dla obecności serii połączonych kawałków HERV70RM szeroko rozprzestrzenionych w genie BNIP3.

Ważną kwestią jest natura HERV70RM. Kopia użyta w tych badaniach jest wymieniona w bibliotece ludzkich sekwencji powtórzonych wymienionych w repeatmasker. Jest ona niekompletna i nie jest klasycznym endogennym retrowirusem. Baza danych hervd (http://herv.img.cas.cz) wymienia wiele regionów w ludzkim genomie, które są podobne w sekwencji do tego, co nazywam tutaj HERV70RM, chociaż żaden z nich nie pasuje do długości większej niż ≈1 kb. W rzeczywistości, w tej bazie danych znajduje się zestaw 63 sekwencji, które pasują do cds BNIP3, chociaż większość z nich wykazuje tylko krótki pasujący region. Sytuacja wymaga wyjaśnienia, ponieważ w bazie danych hervd znajduje się wiele wpisów o nazwie HERV70, które nie wykazują podobieństwa sekwencji do HERV70RM. Nie ma pełnej długości kopii HERV70RM w obecnej wersji ludzkiego genomu, więc jego status jako sekwencji ludzkiego endogennego retrowirusa jest wątpliwy. blast of the human genome (filter off) przeszukując HERV70RM znajduje wiele trafień i wykreśla niektóre przykłady tak, jakby były dopasowaniami pełnej długości. One nie istnieją, a program złożył je z grup pobliskich fragmentarycznych dopasowań.

Gdy repeatmasker jest uruchomiony przeciwko HERV70RM, dwa małe fragmenty sekwencji Alu są znalezione, jak również inne ME wewnątrz niego. Istnieją regiony, które repeatmasker identyfikuje jako HERV70 (HERV70RM), a wśród nich region kopii sekwencji kodujących BNIP3. Ostrzeżenie jest wymagane tutaj, ponieważ blast ludzkiego genomu (filtr wyłączony, domyślnie) znajduje tylko 3 pasujące sekwencje dla sekwencji kodującej BNIP3 z 63, które istnieją w bazie danych hervd. Potwierdzam fakt, że istnieje wiele pasujących fragmentów do sekwencji kodującej (cds), znajdując 120 w ludzkim genomie za pomocą blast. Jest to ważny punkt, ponieważ dane te, niezależnie od interpretacji HERV70RM, pokazują, że sekwencja cds genu BNIP3 jest blisko spokrewniona in toto z sekwencjami ME. Możemy nie wiedzieć dokładnie, czym jest ten ME, ale istnieje wiele kopii tego regionu w ludzkim genomie, od dokładnych do dość rozbieżnych.

Gen BNIP3 występuje w genomie myszy , a sekwencja kodująca pasuje do ludzkiej z 89% dokładnością. Sekwencje białkowe pasują z dokładnością do 90%, z wyjątkiem luki 5aa i luki 1aa w białku mysim. Układ genów jest podobny, z 6 eksonami rozciągającymi się na ≈15 kb. Długość egzonów jest identyczna jak u człowieka, z wyjątkiem przerw 15 i 3 nt odpowiadających różnicom w białkach. Ponieważ cds pasują do siebie tak ściśle pod względem sekwencji, mysie egzony BNIP3 wykazują takie samo pokrewieństwo z ludzkim HERV70RM, jak ludzkie egzony BNIP3. Co ciekawe, nie ma żadnej sekwencji w genomie myszy, widzianej przez blast genomu myszy, która pasowałaby do ludzkiego HERV70RM z wyjątkiem eksonów BNIP3. Najwyraźniej w genomie myszy nie ma odpowiednika ERV, choć oczywiście wiele innych HERV i MERV ma wspólną sekwencję. repeatmasker może być użyty z ludzkimi lub mysimi powtórzeniami do zbadania mysiego regionu genu BNIP3. Z ludzkimi powtórzeniami, eksony mysiego BNIP3 są rozpoznawane jako sekwencje HERV70RM, ale z powtórzeniami mysimi, żadne sekwencje nie pasują. Eksony w tych dwóch genach są prawie identyczne. Sekwencje nukleotydowe cds mysiego i ludzkiego BNIP3 są ściśle dopasowane (90%). K s między sekwencjami kodującymi myszy i człowieka wynosi 0,41, a K a = 0,047 (K s to rozbieżność spowodowana substytucjami synonimicznymi, a K a to rozbieżność spowodowana zmianami powodującymi wymianę aminokwasów) (19). To podobieństwo sugeruje, że jakiekolwiek były te wydarzenia, miały one miejsce daleko w przeszłości.

Gen BNIP3 został również zsekwencjonowany ze szczura, a cds jest w 95% podobny do mysiego BNIP3, więc te same argumenty mają zastosowanie. K s między sekwencjami kodującymi szczura i człowieka wynosi 0,37, a K a = 0,048 (20). blast genomu szczura znajduje egzon BNIP3 i dwie inne sekwencje szczura podobne do części ludzkiego HERV70RM, podczas gdy blast genomu myszy znajduje tylko egzon BNIP3 z podobieństwem do ludzkiego HERV70RM. W oparciu o przeszukiwanie GenBank, kurczak (Gallus gallus) ma podobną sekwencję mRNA do ludzkiego BNIP3. Istnieje zgodność 367 z 453 nt, lub 81%, w jednym dużym regionie i dowody na inne mniejsze regiony podobieństwa. Wydaje się, że pełne badanie ewolucji i relacji BNIP3 i HERV70RM byłoby warte uwagi u wielu gatunków.

Syncytina. Ten przykład został wymieniony przez Smita (4) i jest tu zamieszczony, ponieważ ostatnie dowody wskazują, że syncytina jest funkcjonującym genem w ludzkim łożysku (21, 22). MRNA pochodzi in toto z endogennego retrowirusa HERV-W, który jest obecny w wielu kopiach w ludzkim genomie. Autorzy (21) identyfikują ERVWE1 jako region genu, który jest źródłem transkryptu, choć może to nie być pewne. ERVWE1 ma długość 10,2 kb i składa się z typowego układu LTR-gag-pol-env-LTR. Syncytin mRNA ma długość 2,8 kb i składa się z 5′ LTR, pewnej dodatkowej sekwencji, genu env i 3′ LTR. Cds o długości 1,617 nt zawiera tylko gen env endogennego retrowirusa. W jego obrębie można zidentyfikować regiony, które są funkcjonalnie istotne dla Syncytiny. Nie jest jasne, jak wiele zmian ewolucyjnych zaszło w genie env, aby przyjąć jego obecną funkcję. Entrez Gene wymienia listy określane jako GeneRIFs (www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html):

  1. Glikoproteina env HERV-W pośredniczy w fuzji komórka-komórka po interakcji z receptorem retrowirusowym ssaków typu D. Białko Env zostało wykryte w syncytiotrofoblastach łożyska, co sugeruje jego fizjologiczną rolę podczas ciąży i tworzenia łożyska.

  2. Udział w prawidłowej architekturze łożyska, szczególnie w procesach fuzji cytotrofoblastów z syncytiotrofoblastami. Ekspresja genu dla syncytyny może być zmieniona w przypadkach dysfunkcji łożyska, takich jak stan przedrzucawkowy lub zespół HELLP.

  3. Liczba mRNA dla syncytyny wykazuje stymulację przez forskolinę w komórkach BeWo.

  4. Fuzja trofoblastu w ludzkich komórkach jest regulowana przez GCMa.

  5. Aktywacja genu sycytyny jest najwyższa w łożysku przodującym.

  6. Glikoproteina HERV-W Env jest bezpośrednio zaangażowana w różnicowanie pierwotnych hodowli ludzkich cytotrofoblastów kosmówkowych.

  7. Hypoxia alters expression and function of Syncytin and its receptor during trophoblast cell fusion of human placental BeWo cells: Implications for impaired trophoblast syncytialization in preeclampsia.

  8. Ekspresja genu Syncytyny jest regulowana w dół przez hipoksję, co wzmacnia hipotezę, że Syncytyna jest zmniejszona w zaburzonych ciążach w przebiegu niedotlenienia łożyska.

HHCM. HHCM jest identyfikowany jako 3,0-kb sekwencja DNA ludzkiego raka wątrobowokomórkowego, która koduje (w 1,404-nt cds) białko o masie 52-kDa. Transformuje on zarówno komórki wątroby szczura, jak i fibroblasty NIH 3T3.† Tabela 1 pokazuje, że w prawie 90% składa się on z L1 ME. Zgodność sekwencji wynosi tylko ≈70%, tak wiele zmian sekwencji nastąpiło, ponieważ pochodzi z części sekwencji L1. Pasuje do regionów 18-331 nt i 437-1470 nt z L1MD2. Nie jest to najwyraźniej korzystny wkład L1 do naszego genomu, choć ME działają w dziwny sposób. Rekord NM_006543 został „tymczasowo usunięty przez pracowników RefSeq w celu dodatkowego przeglądu”, a Smit (komunikacja osobista) nie znalazł blisko pasującej sekwencji genomowej. Tak więc ten przykład musi być uznany za kandydata do przyszłych badań.

LG30. LG30 jest genem o nieznanej funkcji w regionie G72/G30 chromosomu 13. Mutacje w tym regionie są związane z zaburzeniem dwubiegunowym (23, 24), ale wydaje się, że bardziej prawdopodobne jest, że odpowiedzialny jest region G72 (25). Region kodujący LG30 ma długość zaledwie 216 nt, a 100% jego długości związane jest z LTR klasy ME (MLT1E, MLT1G).

GTF2IRD2. GTF2IRD2 został początkowo opisany jako gen czynnika transkrypcyjnego (26, 27), a wpis do NCBI składał się z fragmentu wymienionego w Tabeli 1. Dlatego też jest on tutaj uwzględniony. Ostatnio został on szczegółowo przebadany (28, 29) i okazuje się, że fragment ten jest w rzeczywistości eksonem 16, eksonem 3′ i jedynym długim eksonem, o długości ponad połowy długości całej sekwencji kodującej. Egzon ten składa się w całości z sekwencji ME Charlie8. To, co następuje, jest cytatem z ref. 29. „GTF2IRD2 jest trzecim członkiem nowej rodziny genów TFII-I skupionych na 7q11.23. Białko GTF2IRD2 zawiera dwa przypuszczalne regiony helisa-pętla-helisa (I-repeats) i niezwykłą C-końcową domenę CHARLIE8 transpozonopodobną, która, jak się uważa, powstała w wyniku przypadkowego wstawienia elementu transpozycyjnego generującego funkcjonalny gen fuzyjny. Zachowanie szeregu konserwatywnych motywów związanych z transpozazą w obrębie białka sugeruje, że region CHARLIE8-podobny może nadal posiadać pewien stopień funkcjonalności transpozazowej, która może wpływać na stabilność regionu w mechanizmie podobnym do tego, który zaproponowano dla neuropatii Charcot-Marie-Tooth typu 1A. GTF2IRD2 jest wysoce konserwowany u ssaków i mysi ortolog (Gtf2ird2) został również wyizolowany.”

Inne sekwencje kodujące transkryptu najwyraźniej pochodzące z ME. Tabela 4 jest listą 49 przykładów zaobserwowanych transkryptów, dla których sekwencje kodujące zostały określone przez programy komputerowe, a te cds są zbudowane z ME co najmniej w 80%. Kolekcja ta została utworzona przez uruchomienie repeatmaskera wobec kolekcji transkryptów genów NCBI w lutym 2004 roku, ale kiedy sprawdzano ją na początku marca, wszystkie tak oznaczone transkrypty zostały usunięte z kolekcji. Wydaje się prawdopodobne, że ktoś uznał je za śmieci, co w pewnym sensie może być prawdą, ale z punktu widzenia tego artykułu można je uznać za potencjalnie użyteczne i powinny być dalej badane. Niektóre z nich są prawdopodobnie przykładami transkrypcji fragmentów ME, procesu, który zachodzi często. Regiony ME linii 1 ulegają ekspresji w kolekcjach RNA myszy, szczurów i ludzi (dane niepublikowane). Tabela Smita (4) została rozszerzona (27) o 47 potencjalnych genów pochodzących przynajmniej częściowo z ME. Jednak centralną kwestią dla tych dwóch tabel jest to, czy ci kandydaci są rzeczywiście funkcjonującymi genami. W rzeczywistości, w większości przypadków nie ma dowodów na to, że te mRNA są produkowane przez funkcjonujące geny. W tych tabelach znajdują się dwa przykłady, gdzie prawie całe mRNA pochodzi z ME, a jeden z nich jest opisany powyżej jako Syncytina (21, 22). Drugi wydaje się być transkrypcją fragmentu sekwencji związanej dość blisko z HERV3, w tym genu env i LTR, a transkrypt jest opisany jako mRNA genu env. Dowodem na jego funkcję jest transkrypcja w komórkach trofoblastu łożyskowego (28), przypominająca wewnątrzmaciczne cząsteczki A u myszy, które są podobne do ERV i można twierdzić, że mają ważną rolę w łożysku (29).

Opisane przypadki i być może właśnie wspomniany przykład (4, 27) pokazują, że fragmenty ME zostały przekształcone w zasadniczo kompletne sekwencje kodujące gen. Prawdopodobnie istnieje więcej takich przypadków, na co wskazuje tabela 4. Obserwacje te dodają się do wielu znanych sposobów, w jakie ME przyczyniły się do naszej ewolucji. Temat ten został ostatnio przejrzany przez Kazaziana (30), który charakteryzuje je jako będące na miejscu kierowcy, a nie po prostu przydatne do posiadania w pobliżu. Z powodu tego przeglądu nie ma powodu do obszernej dyskusji tutaj.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.