Sequenze codificanti di geni umani funzionanti derivati interamente da sequenze di elementi mobili

Risultati e discussione

AD7C. AD7C è un gene della proteina filo neuronale. Codifica una fosfoproteina di 41 kDa che attraversa la membrana e che è utile nella diagnosi della malattia di Alzheimer precoce (14, 15). La sequenza codificante è lunga 1.128 nt e repeatmasker mostra che consiste di frammenti di cinque (o quattro, vedi sotto) sequenze Alu. Tutte le corrispondenze sono con i complementi inversi delle ripetizioni Alu. L’allineamento è riassunto nella tabella 2. Sono elencati la somiglianza percentuale e la lunghezza di ciascuna delle regioni dalle migliori sequenze Alu corrispondenti, che differiscono in modo irrilevante da quelle pubblicate in rif. 14.

Visualizza questa tabella:

Vedi in linea
Vedi popup

Tabella 2. Riassunto dell’allineamento di AD7C

Prima, un AluSp corrisponde al 92% di precisione ai primi 281 nt della sequenza codificante. Dopo un intervallo di 3 nt, 141 nt di AluJo corrispondono all’87% di precisione. Poi, dopo 2 nt, un’ulteriore parte della sequenza AluJo corrisponde al 93% per 167 nt, compresa una parte considerevole della coda poly(A), modificata da due sostituzioni che influenzano la traduzione. Questi due brevi frammenti sembrano rappresentare un omologo della sequenza Alu nella sequenza codificante, ma il riarrangiamento è apparentemente avvenuto perché ci sono regioni sovrapposte dell’AluJo. Successivamente c’è una corrispondenza del 92% per 302 nt a un AluSc, compresa una parte considerevole della coda poly(A) che è modificata. Infine, c’è una corrispondenza dell’88% per 239 nt a un AluSx, che include anche una regione considerevole della coda poly(A) che è modificata. Nel genoma, questa corrispondenza continua dopo la fine della regione della sequenza codificante e c’è un’altra corrispondenza con una sequenza Alu (dati non mostrati).

Sembra che l’intera regione codificante del gene sia stata fatta da un gruppo di sequenze Alu. Le lacune di alcuni nucleotidi tra le singole corrispondenze di sequenze Alu sono probabilmente solo dettagli del processo di allineamento repeatmasker e possono essere ignorati. Una questione di interesse è quanto cambiamento si è verificato nelle sequenze per formare un gene utile dalle sequenze ME. Le sequenze Alu riassunte nella tabella 2 sono semplicemente le migliori corrispondenze dalla raccolta repeatmasker e non sono necessariamente le sequenze Alu che erano presenti nel cluster Alu originale, così che non è possibile in generale identificare i cambiamenti di sequenza che sono avvenuti. Un campione può essere stimato esaminando le tre catene poly(A) che sono incluse. Esse ammontano a 60 T nelle sequenze Alu complementari. In queste regioni poli(T), si sono verificati otto cambiamenti, tutti che portano a codoni traducibili per aminoacidi diversi dalla fenilalanina. Essi consistono in sei sostituzioni A e due inserzioni di due As ciascuna. Questo cambiamento del ≈17% in questo piccolo campione suggerisce una selezione positiva. Naturalmente, c’è solo una sostituzione silenziosa possibile in una fila di T, la transizione da T a C nella terza base. Inoltre, ci sono quattro casi di sequenze interne ricche di T nelle cinque sequenze Alu coinvolte, e in uno di questi si è verificata una tale sostituzione silenziosa. In due di questi casi, si sono verificate differenze di lunghezza derivanti da una delezione di sei basi e un’inserzione di quattro basi, che portano, ovviamente, a codoni traducibili. Questo è un chiaro caso in cui un cluster di ripetizioni Alu è stato convertito in un gene umano attivo. Non sappiamo ancora come è organizzata la regione di controllo 5′. Con queste informazioni un giorno saremo in grado di dire di più sul processo evolutivo che ha creato il gene. È stato sottolineato che una rappresentazione identificabile a lunghezza intera nel genoma umano (build 34) è solo il 97% simile alla sequenza di mRNA AD7C (A. F. Smit, comunicazione personale) (14). Le differenze sono tali che la sequenza genomica non è traducibile per una lunghezza significativa. Non è stata trovata una copia genomica migliore dell’mRNA, ma il gene potrebbe contenere introni e potrebbe essere difficile da identificare a causa delle sequenze Alu.

BNIP3. BNIP3 è il gene di una proteina coinvolta nel controllo dell’apoptosi attraverso l’interazione con altre proteine (16-18). Il titolo della voce in OMIM (Online Mendelian Inheritance in Man) è BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3: BNIP3. La tabella 1 mostra che il 97% della sequenza codificante è strettamente correlata a quella di HERV70RM. HERV70RM è il nome che sto usando per la versione di HERV70 che è inclusa nella libreria repeatmasker ed è chiamato un retrovirus endogeno umano, anche se non contiene residui di geni retrovirali riconoscibili. È lungo più di 7 kb, e le relazioni con la sequenza codificante BNIP3 si verificano dopo il nucleotide 4641 di HERV70RM. La sequenza codificante dell’mRNA di BNIP3 si allinea completamente con la sequenza di HERV70RM anche se il gene consiste di 6 esoni distribuiti su quasi 15 kb di DNA. Per aiutare a risolvere questa relazione, repeatmasker è stato eseguito contro l’intero gene, e i risultati sono mostrati nella tabella 3. La maggior parte di questi dati provengono dall’output di repeatmasker, e sono state aggiunte due colonne per mostrare la posizione degli esoni nel gene. Nella maggior parte dei casi, l’identificazione di un segmento HERV70RM nel gene si allinea strettamente con gli esoni. Questo accordo è così buono che la storia sembra ovvia. Probabilmente, una parte di HERV70RM da circa 4-7 kb è stata convertita in un gene senza introni, che deve essersi evoluto e diventato utile, e successivamente gli introni sono stati inseriti in esso per portare al moderno gene BNIP3. Infatti, c’è una sequenza BNIP3P sul cromosoma 14 che viene identificata come uno pseudogene perché manca di introni e dà un’ottima corrispondenza in una ricerca fatta con l’mRNA di BNIP3 usando l’esplosione del genoma umano. È forse un fossile della fase iniziale di questo evento o può essere un vero pseudogene fatto dal mRNA in una fase successiva.

Visualizza questa tabella:

Vedi in linea
Vedi popup

Tabella 3. MEs nel gene BNIP3

Per esplorare ulteriormente questa interpretazione, la sequenza codificante è stata allineata con la sequenza HERV70RM utilizzando le sequenze blast2. Il risultato ha mostrato due copie della regione cds quasi completa nelle posizioni 5507-6073 e 6732-7289 nella sequenza HERV70RM, corrispondenti ≈80%. Quindi, le posizioni mostrate nella tabella 3 in HERV70RM sono semplicemente i migliori risultati di repeatmasker e non mostrano necessariamente le reali origini della sequenza codificante di BNIP3. Sembra probabile che abbia avuto origine come copia di una delle regioni in HERV70RM. La tabella 3 mostra un esempio di somiglianza di sequenza tra HERV70RM e una regione del gene che non è un esone in BNIP3. La storia di questa regione non è chiara. In ogni caso, è chiaro che la maggior parte degli esoni del gene BNIP3 deriva da un tratto continuo di HERV70RM. Questo sembra essere un buon caso di “introni in ritardo” perché non c’è nessun’altra spiegazione che mi viene in mente per la presenza di una serie di pezzi collegati di HERV70RM diffusi ampiamente nel gene BNIP3.

Un problema importante è la natura di HERV70RM. La copia usata in questi studi è elencata nella libreria di sequenze ripetute umane elencate in repeatmasker. È incompleta e non è un classico retrovirus endogeno. Il database hervd (http://herv.img.cas.cz) elenca molte regioni nel genoma umano che sono simili in sequenza a quello che qui chiamo HERV70RM, anche se nessuna di esse ha una lunghezza superiore a ≈1 kb. In effetti, c’è un insieme di 63 sequenze in questo database che corrispondono al BNIP3 cds, anche se la maggior parte di loro mostra solo una breve regione corrispondente. La situazione deve essere chiarita perché ci sono molte voci nel database hervd chiamate HERV70 che non mostrano alcuna somiglianza di sequenza con HERV70RM. Non c’è una copia completa di HERV70RM nella versione attuale del genoma umano, quindi il suo status come sequenza di retrovirus endogeno umano è dubbio. blast of the human genome (filter off) cercando con HERV70RM trova molti risultati e grafici alcuni esempi come se fossero corrispondenze complete. Non esistono, e il programma li ha assemblati da gruppi di corrispondenze frammentarie vicine.

Quando repeatmasker viene eseguito contro HERV70RM, vengono trovati due piccoli frammenti di sequenze Alu, così come altri ME al suo interno. Ci sono regioni che repeatmasker identifica come HERV70 (HERV70RM), e queste includono la regione delle copie delle sequenze codificanti BNIP3. Un avvertimento è necessario qui perché blast del genoma umano (filtro off, default) trova solo 3 sequenze corrispondenti per la sequenza codificante BNIP3 delle 63 che esistono nel database hervd. Confermo il fatto che ci sono molti frammenti corrispondenti alla sequenza codificante (cds), trovandone 120 nel genoma umano usando blast. Questo è un punto importante perché questi dati, indipendentemente dall’interpretazione di HERV70RM, mostrano che la sequenza cds del gene BNIP3 è strettamente legata in toto a sequenze di un ME. Possiamo non sapere esattamente cosa sia questo ME, ma ci sono molte copie di questa regione di esso nel genoma umano che vanno da precise a abbastanza divergenti.

Il gene BNIP3 si trova nel genoma del topo, e la sequenza codificante corrisponde all’umano con l’89% di precisione. Le sequenze proteiche corrispondono al 90% di precisione, tranne che per una lacuna di 5 aa e una lacuna di 1 aa nella proteina del topo. La disposizione del gene è simile, con 6 esoni che si estendono su ≈15 kb. Gli esoni sono identici in lunghezza agli esoni umani tranne che per le lacune di 15 e 3 nt corrispondenti alle differenze proteiche. Poiché i cds corrispondono così strettamente nella sequenza, gli esoni BNIP3 del topo mostrano la stessa relazione con l’HERV70RM umano come gli esoni BNIP3 umani. È interessante notare che non c’è alcuna sequenza nel genoma del topo, visto da blast del genoma del topo, che corrisponde al HERV70RM umano tranne gli esoni BNIP3. Non c’è apparentemente nessun ERV equivalente nel genoma del topo, anche se, naturalmente, molti altri HERVs e MERVs condividere sequenza. repeatmasker può essere utilizzato sia con le ripetizioni umane o ripetizioni del mouse per esaminare la regione del gene BNIP3 del mouse. Con le ripetizioni umane, gli esoni BNIP3 del topo sono riconosciuti come sequenze HERV70RM, ma con le ripetizioni del topo, nessuna sequenza corrisponde. Gli esoni dei due geni sono quasi identici. Le sequenze nucleotidiche del BNIP3 topo e umano corrispondono strettamente (90%). K s tra le sequenze codificanti del topo e dell’uomo sono 0,41 e K a = 0,047 (K s è la divergenza dovuta alle sostituzioni sinonime, e K a è la divergenza dovuta ai cambiamenti che causano la sostituzione degli amminoacidi) (19). Questa somiglianza suggerisce che qualunque siano stati gli eventi, si sono verificati molto nel passato.

Il gene BNIP3 è stato sequenziato anche dal ratto, e il cds è simile al 95% a quello del BNIP3 del topo, quindi si applicano gli stessi argomenti. Il K s tra le sequenze codificanti del ratto e dell’uomo è 0,37 e K a = 0,048 (20). blast del genoma del ratto trova un esone BNIP3 e altre due sequenze di ratto simili a parti di HERV70RM umano, mentre blast del genoma del topo trova solo un esone BNIP3 con similarità a HERV70RM umano. Sulla base di una ricerca a tappeto di GenBank, il pollo (Gallus gallus) ha una sequenza di mRNA simile al BNIP3 umano. C’è una corrispondenza di 367 su 453 nt, o 81%, in una grande regione e l’evidenza di altre regioni più piccole di somiglianza. Sembra che un esame completo dell’evoluzione e delle relazioni di BNIP3 e HERV70RM sarebbe utile in un certo numero di specie.

Syncytin. Questo esempio è elencato da Smit (4) ed è incluso qui perché prove recenti mostrano che Syncytin è un gene funzionante nella placenta umana (21, 22). L’mRNA deriva in toto dal retrovirus endogeno HERV-W, che è presente in molte copie nel genoma umano. Gli autori (21) identificano ERVWE1 come la regione del gene che è la fonte del trascritto, anche se questo potrebbe non essere certo. ERVWE1 è lungo 10,2 kb e consiste nella solita disposizione LTR-gag-pol-env-LTR. L’mRNA di Syncytin è lungo 2,8 kb e consiste nella 5′ LTR, in alcune sequenze aggiuntive, nel gene env e nella 3′ LTR. Il cds di 1.617 nt comprende solo il gene env del retrovirus endogeno. Al suo interno si possono identificare regioni funzionalmente significative per la Syncytin. Non è chiaro quanto cambiamento evolutivo sia avvenuto nel gene env per assumere la sua funzione attuale. Entrez Gene elenca i cosiddetti GeneRIF (www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html):

La glicoproteina Env HERV-W media la fusione cellula-cellula su interazione con il recettore del retrovirus mammifero di tipo D. La proteina Env è stata rilevata nel sinciziotrofoblasto placentare, suggerendo un ruolo fisiologico durante la gravidanza e la formazione della placenta.
Contribuisce alla normale architettura placentare, soprattutto nei processi di fusione dei citotrofoblasti in sinciziotrofoblasti. L’espressione genica della Syncytin può essere alterata nei casi di disfunzione placentare come la preeclampsia o la sindrome HELLP.
L’abbondanza di mRNA per la Syncytin ha mostrato una stimolazione da parte della forskolina nelle cellule BeWo.
La fusione trofoblastica mediata dalla Syncytin nelle cellule umane è regolata dal GCMa.
L’attivazione del gene della sincitina è più alta nella placenta a termine.
La glicoproteina HERV-W Env è direttamente coinvolta nella differenziazione delle colture primarie dei citotrofoblasti villosi umani.
L’ipossia altera l’espressione e la funzione della Syncytin e del suo recettore durante la fusione delle cellule del trofoblasto delle cellule BeWo della placenta umana: Implicazioni per la compromissione della sincizializzazione dei trofoblasti nella preeclampsia.
L’espressione genica della Syncytin è down-regolata dall’ipossia, il che rafforza l’ipotesi che la Syncytin sia ridotta nelle gravidanze disturbate in corso di ipossia placentare.

HHCM. HHCM è identificato come una sequenza di DNA di 3,0 kb del carcinoma epatocellulare umano che codifica (in un cds di 1.404-nt) una proteina di 52-kDa. Trasforma sia cellule epatiche di ratto che fibroblasti NIH 3T3.† La tabella 1 mostra che è composta quasi al 90% da L1 ME. La corrispondenza di sequenza è solo ≈70%, quindi si sono verificati molti cambiamenti di sequenza perché ha origine da una parte della sequenza L1. Corrisponde alle regioni 18-331 nt e 437-1470 nt di L1MD2. Questo non è apparentemente un contributo benefico che L1 ha dato al nostro genoma, anche se i ME agiscono in modi strani. Il record NM_006543 è stato “temporaneamente rimosso dal personale RefSeq per un’ulteriore revisione” e Smit (comunicazione personale) non ha trovato una sequenza genomica strettamente corrispondente. Pertanto, questo esempio deve essere considerato un candidato per lo studio futuro.

LG30. LG30 è un gene di funzione sconosciuta nella regione G72/G30 del cromosoma 13. Mutazioni nella regione sono collegate al disturbo bipolare (23, 24), ma sembra che il G72 sia più probabilmente responsabile (25). La regione codificante LG30 è lunga solo 216 nt, e il 100% della sua lunghezza è legata alla classe LTR ME (MLT1E, MLT1G).

GTF2IRD2. GTF2IRD2 è stato inizialmente descritto come un gene fattore di trascrizione (26, 27), e la voce NCBI consisteva nel frammento elencato nella tabella 1. Questo è il motivo per cui è incluso qui. Recentemente è stato studiato in dettaglio (28, 29), e si è scoperto che questo frammento è in realtà l’esone 16, l’esone 3′ e l’unico esone lungo, più della metà della lunghezza dell’intera sequenza codificante. Questo esone consiste interamente nella sequenza ME Charlie8. Ciò che segue è una citazione dal rif. 29. “GTF2IRD2 è il terzo membro della nuova famiglia di geni TFII-I raggruppati su 7q11.23. La proteina GTF2IRD2 contiene due regioni putative helix-loop-helix (I-repeat) e un insolito dominio C-terminale CHARLIE8 transposon-like, che si pensa sia sorto come conseguenza dell’inserimento casuale di un elemento trasponibile che genera un gene di fusione funzionale. Il mantenimento di un certo numero di motivi conservati associati alla trasposasi all’interno della proteina suggerisce che la regione CHARLIE8-like può avere ancora un certo grado di funzionalità della trasposasi che potrebbe influenzare la stabilità della regione in un meccanismo simile a quello proposto per la neuropatia Charcot-Marie-Tooth di tipo 1A. GTF2IRD2 è altamente conservato nei mammiferi e l’omologo del topo (Gtf2ird2) è stato isolato.”

Altre sequenze di codifica di trascrizione apparentemente derivate da ME. La tabella 4 è una lista di 49 esempi di trascrizioni osservate per le quali le sequenze codificanti sono state determinate da programmi informatici, e questi cds sono composti da ME almeno nella misura dell’80%. Questa raccolta è stata fatta eseguendo repeatmasker contro la collezione NCBI di trascrizioni geniche nel febbraio del 2004, ma quando sono stati fatti i controlli all’inizio di marzo, tutte le trascrizioni così contrassegnate erano state rimosse dalla collezione. Sembra probabile che qualcuno abbia deciso che fossero spazzatura, il che in un certo senso può essere vero, ma dal punto di vista di questo articolo possono essere considerati potenzialmente utili e dovrebbero essere ulteriormente esaminati. Alcuni di essi sono probabilmente esempi di trascrizione di frammenti di ME, un processo che si verifica frequentemente. Regioni della linea 1 di ME sono espresse in collezioni di RNA di topi e ratti e umani (dati non pubblicati). La tabella di Smit (4) è stata estesa (27) per includere 47 potenziali geni derivati almeno in parte da ME. Tuttavia, la questione centrale per queste due tabelle è se questi candidati sono effettivamente geni funzionanti. Infatti, nella maggior parte dei casi non c’è alcuna prova che questi mRNA siano prodotti da geni funzionanti. Ci sono due esempi in queste tabelle dove quasi tutto l’mRNA deriva da un ME, e uno di questi è descritto sopra come Syncytin (21, 22). L’altro sembra essere la trascrizione di un frammento di una sequenza legata abbastanza strettamente a HERV3, compreso il gene env e l’LTR, e la trascrizione è descritta come un mRNA del gene env. La prova della sua funzione è la trascrizione nelle cellule del trofoblasto placentare (28), che ricorda le particelle A intracistiche nel topo che sono simili agli ERV e si può sostenere che abbiano un ruolo importante nella placenta (29).

I casi descritti e forse l’esempio appena citato (4, 27) mostrano che parti di ME sono state convertite per formare sequenze codificanti geni essenzialmente complete. Ci sono probabilmente più casi come indicato dalla tabella 4. Queste osservazioni si aggiungono ai molti modi noti in cui i ME hanno contribuito alla nostra evoluzione. Questo argomento è stato rivisto recentemente da Kazazian (30) che li caratterizza come se fossero al posto di guida, piuttosto che semplicemente utili da avere intorno. A causa di questa revisione non c’è motivo per un’ampia discussione qui.

Risultati e discussione

Lascia un commento Annulla risposta