Secvențe codificatoare de gene umane funcționale derivate în întregime din secvențe de elemente mobile

Rezultate și discuții

AD7C. AD7C este o genă a proteinei firului neuronal. Aceasta codifică o fosfoproteină de 41 kDa care se întinde pe membrană și care este utilă în diagnosticul bolii Alzheimer precoce (14, 15). Secvența codificatoare are o lungime de 1 128 nt, iar repeatmasker arată că aceasta este formată din fragmente de cinci (sau patru, a se vedea mai jos) secvențe Alu. Toate corespondențele sunt cu complementele inverse ale repetițiilor Alu. Alinierea este rezumată în tabelul 2. Sunt enumerate similaritatea procentuală și lungimea fiecăreia dintre regiunile din cele mai bune secvențe Alu care se potrivesc cel mai bine, care diferă nesemnificativ de cele publicate în ref. 14.

Vezi acest tabel:

  • View inline
  • View popup

Tabelul 2. Rezumatul alinierii AD7C

În primul rând, un AluSp se potrivește cu o precizie de 92% cu primii 281 nt din secvența codificatoare. După un decalaj de 3 nt, 141 nt de AluJo se potrivește cu o precizie de 87%. Apoi, după 2 nt, o parte suplimentară a secvenței AluJo se potrivește la 93% pentru 167 nt, inclusiv o parte considerabilă a cozii poli(A), modificată prin două substituții care afectează traducerea. Aceste două fragmente scurte par să reprezinte un omolog al secvenței Alu în secvența de codificare, dar se pare că a avut loc o rearanjare, deoarece există regiuni suprapuse ale AluJo. Urmează o potrivire de 92% pentru 302 nt cu un AluSc, inclusiv o parte considerabilă a cozii poli(A) care este modificată. În cele din urmă, există o potrivire de 88% pentru 239 nt cu un AluSx, incluzând, de asemenea, o regiune considerabilă din coada poli(A) care este modificată. În genom, această potrivire continuă după sfârșitul regiunii secvenței codificatoare și există o altă potrivire cu o secvență Alu (datele nu sunt prezentate).

Se pare că întreaga regiune codificatoare a genei a fost realizată dintr-un grup de secvențe Alu. Lacunele de câteva nucleotide dintre potrivirile individuale ale secvențelor Alu sunt probabil doar detalii ale procesului de aliniere repeatmasker și pot fi ignorate. O chestiune de interes este cât de multe modificări au avut loc în secvențe pentru a forma o genă utilă din secvențele ME. Secvențele Alu rezumate în tabelul 2 sunt pur și simplu cele mai bune potriviri din colecția repeatmasker și nu sunt neapărat secvențele Alu care erau prezente în clusterul Alu original, astfel încât nu este posibil, în general, să se identifice modificările de secvență care au avut loc. Un eșantion poate fi estimat prin examinarea celor trei lanțuri poli(A) care sunt incluse. Acestea totalizează 60 Ts în secvențele Alu complementare. În aceste regiuni poli(T), au avut loc opt modificări, toate ducând la codoni traductibili pentru alți aminoacizi decât fenilalanina. Acestea constau în șase substituții A și două inserții de câte doi As fiecare. Această schimbare de ≈17% în acest eșantion mic sugerează o selecție pozitivă. Desigur, există doar o singură substituție silențioasă posibilă într-un rând de Ts, trecerea de la T la C în a treia bază. În plus, există patru cazuri de secvențe interne bogate în T în cele cinci secvențe Alu implicate, iar în unul dintre acestea a avut loc o astfel de substituție silențioasă. În două dintre aceste cazuri, au apărut diferențe de lungime ca urmare a unei eliminări de șase baze și a unei inserții de patru baze, ceea ce conduce, desigur, la codoni traductibili. Acesta este un caz clar în care un grup de repetări Alu a fost transformat într-o genă umană activă. Nu știm încă cum este organizată regiunea de control 5′. Cu aceste informații, într-o zi vom putea spune mai multe despre procesul evolutiv care a creat gena. S-a subliniat faptul că o reprezentare identificabilă de lungime completă în genomul uman (build 34) este doar 97% similară cu secvența ARNm AD7C (A. F. Smit, comunicare personală) (14). Diferențele sunt de așa natură încât secvența genomică nu este traductibilă pe o lungime semnificativă. Nu a fost găsită o copie genomică mai bună a ARNm, dar gena ar putea conține introni și ar putea fi greu de identificat din cauza secvențelor Alu.

BNIP3. BNIP3 este gena pentru o proteină implicată în controlul apoptozei prin interacțiunea cu alte proteine (16-18). Titlul pentru intrarea în OMIM (Online Mendelian Inheritance in Man) este BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3: BNIP3. Tabelul 1 arată că 97 % din secvența de codificare este strâns legată de cea a HERV70RM. HERV70RM este numele pe care îl folosesc pentru versiunea de HERV70 care este inclusă în biblioteca repeatmasker și este denumită un retrovirus endogen uman, deși nu conține reziduuri de gene retrovirale recognoscibile. Are o lungime de peste 7 kb, iar relațiile cu secvența codificatoare BNIP3 apar după nucleotidul 4641 din HERV70RM. Secvența codificatoare a ARNm BNIP3 se aliniază complet cu secvența HERV70RM, chiar dacă gena este formată din 6 exoni răspândiți pe aproape 15 kb de ADN. Pentru a ajuta la rezolvarea acestei relații, a fost rulat repeatmasker împotriva întregii gene, iar rezultatele sunt prezentate în tabelul 3. Majoritatea acestor date provin din rezultatele repeatmasker, iar două coloane sunt adăugate pentru a arăta localizarea exonilor în genă. În majoritatea cazurilor, identificarea unui segment HERV70RM în genă se aliniază strâns cu exonii. Această concordanță este atât de bună încât istoricul pare evident. Probabil, o parte din HERV70RM de aproximativ 4-7 kb a fost transformată într-o genă fără introni, care trebuie să fi evoluat și să fi devenit utilă, iar mai târziu intronii au fost introduși în ea pentru a duce la gena modernă BNIP3. De fapt, există o secvență BNIP3P pe cromozomul 14 care este identificată ca fiind o pseudogena, deoarece nu are introni și oferă o potrivire foarte bună într-o căutare făcută cu ARNm BNIP3 prin utilizarea blastului genomului uman. Este posibil să fie o fosilă a etapei timpurii a acestui eveniment sau poate fi o pseudogena reală realizată din ARNm într-o etapă ulterioară.

Vezi acest tabel:

  • View inline
  • View popup

Tabelul 3. ME în gena BNIP3

Pentru a explora în continuare această interpretare, secvența codificatoare a fost aliniată cu secvența HERV70RM prin utilizarea secvențelor blast2. Rezultatul a arătat două copii ale regiunii cds aproape complete la locațiile 5507-6073 și 6732-7289 în secvența HERV70RM, cu o potrivire de ≈80%. Astfel, locațiile prezentate în tabelul 3 în HERV70RM sunt pur și simplu cele mai bune potriviri ale lui repeatmasker și nu arată neapărat originile secvenței reale ale secvenței codificatoare BNIP3. Pare probabil ca aceasta să provină ca o copie a uneia dintre regiunile din HERV70RM. Tabelul 3 prezintă un exemplu de similaritate de secvență între HERV70RM și o regiune a genei care nu este un exon în BNIP3. Istoricul acestei regiuni este neclar. În orice caz, este clar că majoritatea exonilor din gena BNIP3 au derivat dintr-o porțiune continuă din HERV70RM. Acesta pare a fi un caz bun de „introni tardivi”, deoarece nu există nicio altă explicație care să ne vină în minte pentru prezența unei serii de bucăți conectate de HERV70RM răspândite pe scară largă în gena BNIP3.

O problemă importantă este natura HERV70RM. Exemplarul folosit în aceste studii este listat în biblioteca de secvențe umane repetate listate în repeatmasker. Acesta este incomplet și nu este un retrovirus endogen clasic. Baza de date hervd (http://herv.img.cas.cz) enumeră multe regiuni din genomul uman care sunt similare ca secvență cu ceea ce eu numesc aici HERV70RM, deși niciuna dintre ele nu se potrivește la o lungime mai mare de ≈1 kb. De fapt, există un set de 63 de secvențe în această bază de date care se potrivesc cu cds BNIP3, deși majoritatea dintre ele prezintă doar o regiune de potrivire scurtă. Situația trebuie clarificată, deoarece există multe intrări în baza de date hervd denumite HERV70 care nu prezintă nicio similitudine de secvență cu HERV70RM. Nu există nicio copie de lungime completă a HERV70RM în versiunea actuală a genomului uman, astfel încât statutul său ca secvență de retrovirus endogen uman este îndoielnic. căutarea în blast of the human genome (filter off) cu HERV70RM găsește multe rezultate și reprezintă grafic unele exemple ca și cum ar fi corespondențe de lungime completă. Acestea nu există, iar programul le-a asamblat din grupuri de potriviri fragmentare apropiate.

Când repeatmasker este rulat împotriva HERV70RM, se găsesc două fragmente mici de secvențe Alu, precum și alte ME în cadrul acestuia. Există regiuni pe care repeatmasker le identifică ca fiind HERV70 (HERV70RM), iar acestea includ regiunea copiilor secvențelor codificatoare BNIP3. Aici este necesar un avertisment, deoarece blastul genomului uman (filter off, implicit) găsește doar 3 secvențe corespunzătoare pentru secvența codificatoare BNIP3 din cele 63 care există în baza de date hervd. Confirm faptul că există multe fragmente care se potrivesc cu secvența codificatoare (cds), găsind 120 în genomul uman prin utilizarea blast. Acesta este un punct important, deoarece aceste date, indiferent de interpretarea HERV70RM, arată că secvența cds a genei BNIP3 este strâns legată in toto de secvențele unui ME. S-ar putea să nu știm exact ce este acest ME, dar există multe copii ale acestei regiuni ale sale în genomul uman, variind de la precise la destul de divergente.

Gena BNIP3 apare în genomul șoarecilor , iar secvența codificatoare se potrivește cu cea umană cu o precizie de 89%. Secvențele proteice se potrivesc cu o precizie de 90%, cu excepția unui decalaj de 5 aa și a unui decalaj de 1 aa în proteina de șoarece. Aranjamentul genei este similar, cu 6 exoni care se întind pe ≈15 kb. Lungimea exonilor este identică cu cea a exonilor umani, cu excepția lacunelor de 15 și 3 nt care corespund diferențelor dintre proteine. Deoarece cds se potrivesc atât de strâns în secvență, exonii BNIP3 de șoarece prezintă aceeași relație cu HERV70RM uman ca și exonii BNIP3 uman. În mod interesant, nu există nicio secvență în genomul de șoarece, observată prin explozia genomului de șoarece, care să se potrivească cu HERV70RM uman, cu excepția exonilor BNIP3. Se pare că nu există un ERV echivalent în genomul de șoarece, deși, desigur, multe alte HERV și MERV au secvențe comune. repeatmasker poate fi utilizat fie cu repetările umane, fie cu cele de șoarece pentru a examina regiunea genei BNIP3 de șoarece. Cu repetările umane, exonii BNIP3 de șoarece sunt recunoscuți ca fiind secvențe HERV70RM, dar cu repetările de șoarece, nicio secvență nu se potrivește. Exonii din cele două gene sunt aproape identici. Secvențele de nucleotide ale cds BNIP3 de șoarece și de om corespund îndeaproape (90%). K s între secvențele codificatoare de la șoarece și de la om sunt 0,41 și K a = 0,047 (K s este divergența datorată substituțiilor sinonime, iar K a este divergența datorată modificărilor care determină înlocuirea aminoacizilor) (19). Această asemănare sugerează că, oricare ar fi fost evenimentele, acestea au avut loc într-un trecut îndepărtat.

Gena BNIP3 a fost, de asemenea, secvențiată de la șobolan, iar cds-ul este asemănător în proporție de 95% cu cel al BNIP3 de șoarece, deci se aplică aceleași argumente. K s între secvențele codificatoare ale șobolanului și omului este de 0,37 și K a = 0,048 (20). blast-ul genomului șobolanului găsește un exon BNIP3 și alte două secvențe de șobolan similare cu părți din HERV70RM uman, în timp ce blast-ul genomului șoricelului găsește doar un exon BNIP3 cu similaritate cu HERV70RM uman. Pe baza unei căutări de tip blast în GenBank, puiul (Gallus gallus) are o secvență de ARNm similară cu BNIP3 uman. Există o potrivire de 367 din 453 nt, sau 81%, într-o regiune mare și există dovezi ale altor regiuni mai mici de similaritate. Se pare că o examinare completă a evoluției și a relațiilor dintre BNIP3 și HERV70RM ar merita o examinare completă a evoluției și a relațiilor dintre BNIP3 și HERV70RM la o serie de specii.

Syncytin. Acest exemplu este enumerat de Smit (4) și este inclus aici deoarece dovezi recente arată că Syncytin este o genă funcțională în placenta umană (21, 22). ARNm este derivat in toto din retrovirusul endogen HERV-W, care este prezent în multe copii în genomul uman. Autorii (21) identifică ERVWE1 ca fiind regiunea genei care este sursa transcriptului, deși acest lucru poate să nu fie sigur. ERVWE1 are o lungime de 10,2 kb și constă în aranjamentul obișnuit LTR-gag-pol-env-LTR. ARNm Syncytin are o lungime de 2,8 kb și este format din LTR 5′, o secvență suplimentară, gena env și LTR 3′. Cds de 1 617 nt include doar gena env a retrovirusului endogen. În cadrul acesteia, pot fi identificate regiuni care sunt semnificative din punct de vedere funcțional pentru Syncytin. Nu este clar cât de multe modificări evolutive au avut loc în gena env pentru a-și asuma funcția actuală. Entrez Gene enumeră ceea ce se numește GeneRIF (www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html):

  1. Env Glicoproteina HERV-W mediază fuziunea celulă-celulă în urma interacțiunii cu receptorul retrovirusului de mamifere de tip D. Proteina Env a fost detectată în sincitiotrofoblastul placentar, sugerând un rol fiziologic în timpul sarcinii și formării placentei.

  2. Contribuie la arhitectura normală a placentei, în special în procesele de fuziune a citotrofoblastelor cu sinciotrofoblastele. Expresia genetică a Syncytin poate fi modificată în cazurile cu disfuncție placentară, cum ar fi preeclampsia sau sindromul HELLP.

  3. Abordanța ARNm pentru Syncytin a arătat o stimulare prin forskolină în celulele BeWo.

  4. Fuziunea trofoblastică mediată de Syncytin în celulele umane este reglată de GCMa.

  5. Activarea genei sincitinei este cea mai mare în placenta la termen.

  6. Glicoproteina HERV-W Env este direct implicată în diferențierea culturilor primare de citotrofoblaste viloase umane.

  7. Hipoxia modifică expresia și funcția Syncytin și a receptorului său în timpul fuziunii celulelor trofoblaste ale celulelor BeWo din placenta umană: Implicații pentru sincitarea trofoblastică afectată în preeclampsie.

  8. Expresia genei Syncytin este reglată în jos de hipoxie, ceea ce întărește ipoteza că Syncytin este redusă în sarcinile perturbate în cursul hipoxiei placentare.

HHCM. HHCM este identificat ca o secvență de ADN de 3,0-kb a carcinomului hepatocelular uman care codifică (într-un cds de 1.404-nt) o proteină de 52-kDa. Aceasta transformă atât celulele hepatice de șobolan, cât și fibroblastele NIH 3T3. † Tabelul 1 arată că este alcătuită în proporție de aproape 90 % din L1 MEs. Potrivirea secvenței este de numai ≈70%, deci au avut loc multe modificări de secvență, deoarece originea sa provine dintr-o parte a secvenței L1. Se potrivește cu regiunile 18-331 nt și 437-1470 nt din L1MD2. Aparent, aceasta nu este o contribuție benefică pe care L1 a adus-o genomului nostru, deși MEs acționează în moduri ciudate. Înregistrarea NM_006543 a fost „retrasă temporar de către personalul RefSeq pentru o revizuire suplimentară”, iar Smit (comunicare personală) nu a găsit o secvență genomică care să corespundă îndeaproape. Astfel, acest exemplu trebuie să fie considerat un candidat pentru un studiu viitor.

LG30. LG30 este o genă cu funcție necunoscută în regiunea G72/G30 a cromozomului 13. Mutațiile din această regiune sunt legate de tulburarea bipolară (23, 24), dar se pare că este mai probabil ca G72 să fie responsabilă (25). Regiunea codantă LG30 are o lungime de numai 216 nt, iar 100% din lungimea sa este legată de LTR clasa ME (MLT1E, MLT1G).

GTF2IRD2. GTF2IRD2 a fost descrisă inițial ca o genă a factorului de transcripție (26, 27), iar intrarea NCBI a constat din fragmentul enumerat în tabelul 1. Acesta este motivul pentru care este inclus aici. Recent, acesta a fost studiat în detaliu (28, 29) și s-a dovedit că acest fragment este de fapt exonul 16, exonul 3′ și singurul exon lung, mai mult de jumătate din lungimea întregii secvențe de codificare. Acest exon este format în întregime din secvența ME Charlie8. Ceea ce urmează este un citat din ref. 29. „GTF2IRD2 este cel de-al treilea membru al noii familii de gene TFII-I grupate pe 7q11.23. Proteina GTF2IRD2 conține două regiuni helix-loop-helix presupuse (I-repeats) și un domeniu neobișnuit C-terminal CHARLIE8 asemănător transpozonului, despre care se crede că a apărut ca o consecință a inserției aleatorii a unui element transpozabil care a generat o genă de fuziune funcțională. Păstrarea în cadrul proteinei a unui număr de motive conservate asociate transpoziției sugerează că regiunea asemănătoare cu CHARLIE8 poate avea încă un anumit grad de funcționalitate a transpoziției care ar putea influența stabilitatea regiunii într-un mecanism similar celui propus pentru neuropatia Charcot-Marie-Tooth de tip 1A. GTF2IRD2 este foarte conservată la mamifere, iar ortologul de șoarece (Gtf2ird2) a fost, de asemenea, izolat.”

Alte secvențe codificatoare de transcriere aparent derivate din ME. Tabelul 4 este o listă de 49 de exemple de transcripte observate pentru care secvențele codificatoare au fost determinate de programe informatice, iar aceste cds sunt alcătuite din ME cel puțin în proporție de 80%. Această colecție a fost realizată prin rularea repeatmasker împotriva colecției NCBI de transcripte genetice în februarie 2004, dar când s-au făcut verificări la începutul lunii martie, toate transcriptele astfel marcate fuseseră eliminate din colecție. Se pare că cineva a decis că acestea sunt „gunoi”, ceea ce, într-un anumit sens, poate fi adevărat, dar, din punctul de vedere al acestui articol, ele pot fi considerate potențial utile și ar trebui examinate în continuare. Este probabil ca unele dintre ele să fie exemple de transcriere a unor fragmente de ME, un proces care are loc frecvent. Regiuni ale liniei ME 1 sunt exprimate în colecții de ARN de șoarece și șobolan și uman (date nepublicate). Tabelul lui Smit (4) a fost extins (27) pentru a include 47 de gene potențiale derivate cel puțin în parte din ME. Cu toate acestea, problema centrală pentru aceste două tabele este dacă aceste candidate sunt de fapt gene funcționale. De fapt, în majoritatea cazurilor, nu există dovezi că aceste ARNm sunt produse de gene funcționale. Există două exemple în aceste tabele în care aproape întregul ARNm derivă dintr-o ME, iar unul dintre ele este descris mai sus ca fiind Syncytin (21, 22). Celălalt pare a fi transcrierea unui fragment dintr-o secvență înrudită destul de strâns cu HERV3, inclusiv gena env și LTR, iar transcrierea este descrisă ca ARNm al genei env. Dovada funcției sale este transcrierea în celulele trofoblastului placentar (28), ceea ce amintește de particulele A intracisternale la șoarece, care sunt similare cu ERV-urile și despre care se poate afirma că au un rol important în placentă (29).

Cazurile descrise și, posibil, exemplul tocmai menționat (4, 27) arată că părți din ME au fost convertite pentru a forma secvențe codificatoare de gene practic complete. Există probabil mai multe cazuri, după cum indică tabelul 4. Aceste observații se adaugă la numeroasele moduri cunoscute în care ME au contribuit la evoluția noastră. Acest subiect a fost revizuit recent de Kazazian (30), care le caracterizează ca fiind în scaunul șoferului, mai degrabă decât ca fiind pur și simplu utile pentru a le avea în preajmă. Din cauza acestei revizuiri nu există motive pentru o discuție extinsă aici.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.