Secuencias codificantes de genes humanos funcionales derivadas enteramente de secuencias de elementos móviles

Resultados y discusión

AD7C. AD7C es un gen de proteína de hilo neuronal. Codifica una fosfoproteína de 41 kDa que abarca la membrana y que es útil en el diagnóstico de la enfermedad de Alzheimer temprana (14, 15). La secuencia codificante tiene una longitud de 1.128 nt y repeatmasker muestra que está formada por fragmentos de cinco (o cuatro, véase más abajo) secuencias Alu. Todas las coincidencias son con los complementos inversos de las repeticiones Alu. La alineación se resume en la Tabla 2. Se enumeran el porcentaje de similitud y la longitud de cada una de las regiones de las secuencias Alu que mejor coinciden, las cuales difieren sin consecuencias de las publicadas en la ref. 14.

Ver esta tabla:

  • Ver inline
  • Ver popup

Tabla 2. Resumen de la alineación de AD7C

En primer lugar, un AluSp coincide con un 92% de precisión con los primeros 281 nt de la secuencia codificante. Después de un hueco de 3 nt, 141 nt de AluJo coinciden con un 87% de precisión. Luego, después de 2 nt, una parte adicional de la secuencia AluJo coincide al 93% para 167 nt, incluyendo una parte considerable de la cola de poli(A), modificada por dos sustituciones que afectan a la traducción. Estos dos fragmentos cortos parecen representar un homólogo de la secuencia Alu en la secuencia codificante, pero aparentemente se ha producido un reordenamiento porque hay regiones de AluJo que se solapan. A continuación hay una coincidencia del 92% para 302 nt con una AluSc, incluyendo una parte considerable de la cola de poli(A) que está modificada. Por último, hay una coincidencia del 88% para 239 nt con un AluSx, que también incluye una región considerable de la cola de poli(A) que está modificada. En el genoma, esta coincidencia continúa después del final de la región de la secuencia codificante y hay otra coincidencia con una secuencia Alu (datos no mostrados).

Parece que toda la región codificante del gen se ha hecho a partir de un grupo de secuencias Alu. Los espacios de unos pocos nucleótidos entre las coincidencias de las secuencias Alu individuales son probablemente sólo detalles del proceso de alineación del repetidor y pueden ser ignorados. Un asunto de interés es cuánto cambio ha ocurrido en las secuencias para formar un gen útil a partir de las secuencias ME. Las secuencias Alu resumidas en la Tabla 2 son simplemente las mejores coincidencias de la colección del repeatmasker y no son necesariamente las secuencias Alu que estaban presentes en el grupo Alu original, por lo que no es posible en general identificar los cambios de secuencia que se han producido. Se puede estimar una muestra examinando las tres cadenas de poli(A) que se incluyen. Éstas suman un total de 60 Ts en las secuencias complementarias de Alu. En estas regiones poli(T) se han producido ocho cambios, todos ellos conducentes a codones traducibles para aminoácidos distintos de la fenilalanina. Consisten en seis sustituciones de A y dos inserciones de dos As cada una. Este cambio de ≈17% en esta pequeña muestra sugiere una selección positiva. Por supuesto, sólo hay una posible sustitución silenciosa en una fila de T, la transición de T a C en la tercera base. Además, hay cuatro casos de secuencias internas ricas en T en las cinco secuencias Alu implicadas, y en uno de ellos se ha producido dicha sustitución silenciosa. En dos de estos casos, se han producido diferencias de longitud resultantes de una deleción de seis bases y de una inserción de cuatro bases, lo que conduce, por supuesto, a codones traducibles. Este es un caso claro en el que un grupo de repeticiones Alu se ha convertido en un gen humano activo. Todavía no sabemos cómo se organiza la región de control 5′. Con esa información, algún día podremos decir más sobre el proceso evolutivo que creó el gen. Se ha señalado que una representación identificable de longitud completa en el genoma humano (build 34) es sólo un 97% similar a la secuencia del ARNm del AD7C (A. F. Smit, comunicación personal) (14). Las diferencias son tales que la secuencia genómica no es traducible en una longitud significativa. No se ha encontrado una copia genómica mejor del ARNm, pero el gen podría contener intrones y podría ser difícil de identificar debido a las secuencias Alu.

BNIP3. BNIP3 es el gen de una proteína implicada en el control de la apoptosis mediante la interacción con otras proteínas (16-18). El título de la entrada en OMIM (Online Mendelian Inheritance in Man) es BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3: BNIP3. La tabla 1 muestra que el 97% de la secuencia codificante está estrechamente relacionada con la del HERV70RM. HERV70RM es el nombre que estoy utilizando para la versión de HERV70 que se incluye en la biblioteca de repeatmasker y se denomina retrovirus endógeno humano, aunque no contiene residuos de genes retrovirales reconocibles. Tiene más de 7 kb de longitud, y las relaciones con la secuencia codificadora del BNIP3 se producen después del nucleótido 4641 del HERV70RM. La secuencia codificadora del ARNm del BNIP3 se alinea completamente con la secuencia del HERV70RM a pesar de que el gen consta de 6 exones repartidos en casi 15 kb de ADN. Para ayudar a resolver esta relación, se ejecutó el repeatmasker contra todo el gen, y los resultados se muestran en la Tabla 3. La mayoría de estos datos proceden de la salida del repeatmasker, y se añaden dos columnas para mostrar la localización de los exones en el gen. En la mayoría de los casos, la identificación de un segmento HERV70RM en el gen se alinea estrechamente con los exones. Esta concordancia es tan buena que la historia parece obvia. Probablemente, una parte del HERV70RM de unas 4-7 kb se convirtió en un gen sin intrones, que debió evolucionar y ser útil, y más tarde los intrones se insertaron en él para dar lugar al moderno gen BNIP3. De hecho, hay una secuencia de BNIP3P en el cromosoma 14 que se identifica como un pseudogén porque carece de intrones y da una muy buena coincidencia en una búsqueda realizada con el ARNm de BNIP3 mediante el uso de la explosión del genoma humano. Posiblemente sea un fósil de la etapa inicial de este evento o puede ser un pseudogén real hecho a partir del ARNm en una etapa posterior.

Ver esta tabla:

  • Ver inline
  • Ver popup

Tabla 3. MEs en el gen BNIP3

Para profundizar en esta interpretación, se alineó la secuencia codificante con la secuencia HERV70RM mediante el uso de secuencias blast2. El resultado mostró dos copias de la región cds casi completa en las localizaciones 5507-6073 y 6732-7289 en la secuencia HERV70RM, coincidiendo ≈80%. Así, las localizaciones mostradas en la Tabla 3 en HERV70RM son simplemente los mejores ajustes de repeatmasker y no muestran necesariamente los orígenes reales de la secuencia codificante de BNIP3. Parece probable que se originó como una copia de una de las regiones en HERV70RM. La Tabla 3 muestra un ejemplo de similitud de secuencia entre HERV70RM y una región del gen que no es un exón en BNIP3. La historia de esta región no está clara. En cualquier caso, está claro que la mayoría de los exones del gen BNIP3 derivan de un tramo continuo de HERV70RM. Este parece ser un buen caso de «intrones tardíos» porque no hay ninguna otra explicación que se me ocurra para la presencia de una serie de trozos conectados de HERV70RM repartidos ampliamente en el gen BNIP3.

Una cuestión importante es la naturaleza del HERV70RM. La copia utilizada en estos estudios figura en la biblioteca de secuencias repetidas humanas que aparece en repeatmasker. Está incompleta y no es un retrovirus endógeno clásico. La base de datos hervd (http://herv.img.cas.cz) enumera muchas regiones del genoma humano que son similares en secuencia a lo que aquí llamo HERV70RM, aunque ninguna de ellas coincide con una longitud de más de ≈1 kb. De hecho, hay un conjunto de 63 secuencias en esta base de datos que coinciden con la cds de BNIP3, aunque la mayoría de ellas sólo muestran una corta región coincidente. La situación necesita aclararse porque hay muchas entradas en la base de datos hervd llamadas HERV70 que no muestran ninguna similitud de secuencia con HERV70RM. No hay ninguna copia de longitud completa de HERV70RM en la versión actual del genoma humano, por lo que su estatus como secuencia de retrovirus endógeno humano es dudoso. La búsqueda en el genoma humano (filtro desactivado) con HERV70RM encuentra muchas coincidencias y grafica algunos ejemplos como si fueran coincidencias de longitud completa. No existen, y el programa los ha ensamblado a partir de grupos de coincidencias fragmentarias cercanas.

Cuando se ejecuta repeatmasker contra HERV70RM, se encuentran dos pequeños fragmentos de secuencias Alu, así como otros MEs dentro de ella. Hay regiones que repeatmasker identifica como HERV70 (HERV70RM), y éstas incluyen la región de las copias de las secuencias codificantes de BNIP3. Aquí es necesario hacer una advertencia porque el blast del genoma humano (filtro desactivado, por defecto) sólo encuentra 3 secuencias coincidentes para la secuencia codificante de BNIP3 de las 63 que existen en la base de datos hervd. Confirmo el hecho de que hay muchos fragmentos coincidentes con la secuencia codificante (cds), encontrando 120 en el genoma humano mediante el uso de blast. Este es un punto importante porque estos datos, independientemente de la interpretación del HERV70RM, muestran que la secuencia cds del gen BNIP3 está estrechamente relacionada en su totalidad con secuencias de un ME. Puede que no sepamos exactamente qué es este ME, pero hay muchas copias de esta región del mismo en el genoma humano que van de precisas a bastante divergentes.

El gen BNIP3 aparece en el genoma del ratón , y la secuencia de codificación coincide con la humana con una precisión del 89%. Las secuencias de la proteína coinciden con un 90% de exactitud, excepto por una brecha de 5 aa y una brecha de 1 aa en la proteína del ratón. La disposición del gen es similar, con 6 exones que se extienden a lo largo de ≈15 kb. La longitud de los exones es idéntica a la de los exones humanos, excepto por los huecos de 15 y 3 nt correspondientes a las diferencias de la proteína. Dado que los cds coinciden tan estrechamente en la secuencia, los exones del BNIP3 de ratón muestran la misma relación con el HERV70RM humano que los exones del BNIP3 humano. Curiosamente, no hay ninguna secuencia en el genoma del ratón, vista por el blast del genoma del ratón, que coincida con el HERV70RM humano, excepto los exones de BNIP3. Aparentemente no hay un ERV equivalente en el genoma del ratón, aunque, por supuesto, muchos otros HERVs y MERVs comparten la secuencia. El repeatmasker puede ser utilizado tanto con las repeticiones humanas como con las del ratón para examinar la región del gen BNIP3 del ratón. Con las repeticiones humanas, los exones del BNIP3 de ratón se reconocen como secuencias del HERV70RM, pero con las repeticiones de ratón, ninguna secuencia coincide. Los exones de los dos genes son casi idénticos. Las secuencias de nucleótidos de los cds de BNIP3 de ratón y humano coinciden estrechamente (90%). Las K s entre las secuencias codificantes de ratón y humano son 0,41 y K a = 0,047 (K s es la divergencia debida a las sustituciones sinónimas, y K a es la divergencia debida a los cambios que provocan la sustitución de aminoácidos) (19). Esta similitud sugiere que, sean cuales sean los acontecimientos, se produjeron muy en el pasado.

También se ha secuenciado el gen BNIP3 de la rata, y la cds es un 95% similar a la del BNIP3 del ratón, por lo que se aplican los mismos argumentos. El K s entre las secuencias codificantes de la rata y el humano es 0,37 y K a = 0,048 (20). El blast del genoma de la rata encuentra un exón de BNIP3 y otras dos secuencias de rata similares a partes del HERV70RM humano, mientras que el blast del genoma del ratón sólo encuentra un exón de BNIP3 con similitud al HERV70RM humano. A partir de una búsqueda en el GenBank, el pollo (Gallus gallus) tiene una secuencia de ARNm similar a la del BNIP3 humano. Hay una coincidencia de 367 de 453 nt, o el 81%, en una gran región y evidencia de otras regiones más pequeñas de similitud. Parece que merecería la pena un examen completo de la evolución y las relaciones de BNIP3 y HERV70RM en varias especies.

Sincitina. Este ejemplo es enumerado por Smit (4) y se incluye aquí porque la evidencia reciente muestra que Syncytin es un gen que funciona en la placenta humana (21, 22). El ARNm se deriva en su totalidad del retrovirus endógeno HERV-W, que está presente en muchas copias en el genoma humano. Los autores (21) identifican el ERVWE1 como la región del gen que es la fuente del transcrito, aunque esto puede no ser seguro. ERVWE1 tiene una longitud de 10,2 kb y consiste en la disposición habitual LTR-gag-pol-env-LTR. El ARNm de la sincitina tiene una longitud de 2,8 kb y está formado por el LTR 5′, alguna secuencia adicional, el gen env y el LTR 3′. La cds de 1.617 nt incluye sólo el gen env del retrovirus endógeno. Dentro de él, se pueden identificar regiones que son funcionalmente significativas para la Sincitina. No está claro cuánto cambio evolutivo se produjo en el gen env para asumir su función actual. Entrez Gene enumera lo que se denomina GeneRIFs (www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html):

  1. La glicoproteína env HERV-W media la fusión célula-célula al interactuar con el receptor de retrovirus de mamíferos tipo D. La proteína Env se detectó en el sincitiotrofoblasto placentario, lo que sugiere un papel fisiológico durante el embarazo y la formación de la placenta.

  2. Contribuye a la arquitectura normal de la placenta, especialmente en los procesos de fusión de citotrofoblastos a sincitiotrofoblastos. La expresión génica de la Sincitina puede estar alterada en casos con disfunción placentaria como la preeclampsia o el síndrome HELLP.

  3. La abundancia de ARNm para la Sincitina mostró estimulación por la forskolina en células BeWo.

  4. La fusión trofoblástica mediada por la Sincitina en células humanas está regulada por la GCMa.

  5. La activación del gen de la sincitina es mayor en la placenta a término.

  6. La glicoproteína Env de HV-W está directamente implicada en la diferenciación de cultivos primarios de citotrofoblastos vellosos humanos.

  7. La hipoxia altera la expresión y la función de la sincitina y de su receptor durante la fusión celular de los trofoblastos de las células BeWo de la placenta humana: Implicaciones para la alteración de la sincitialización del trofoblasto en la preeclampsia.

  8. La expresión del gen de la Sincitina está regulada a la baja por la hipoxia, lo que refuerza la hipótesis de que la Sincitina se reduce en los embarazos alterados en el curso de la hipoxia placentaria.

HHCM. El HHCM se identifica como una secuencia de ADN de 3,0 kb de carcinoma hepatocelular humano que codifica (en un cds de 1.404 nt) una proteína de 52 kDa. Transforma tanto a las células de hígado de rata como a los fibroblastos NIH 3T3.† La tabla 1 muestra que está compuesta casi en un 90% por MEs L1. La coincidencia de la secuencia es sólo ≈70%, por lo que se ha producido mucho cambio de secuencia debido a su origen de una parte de la secuencia L1. Coincide con las regiones 18-331 nt y 437-1470 nt de L1MD2. Aparentemente, esta no es una contribución beneficiosa que L1 haya hecho a nuestro genoma, aunque los ME actúan de forma extraña. El registro NM_006543 fue «retirado temporalmente por el personal de RefSeq para una revisión adicional» y Smit (comunicación personal) no encontró una secuencia genómica muy parecida. Por lo tanto, este ejemplo debe considerarse como un candidato para futuros estudios.

LG30. LG30 es un gen de función desconocida en la región G72/G30 del cromosoma 13. Las mutaciones en la región están relacionadas con el trastorno bipolar (23, 24), pero parece que es más probable que el G72 sea el responsable (25). La región codificante LG30 sólo tiene 216 nt de longitud, y el 100% de su longitud está relacionada con LTR clase ME (MLT1E, MLT1G).

GTF2IRD2. GTF2IRD2 se describió inicialmente como un gen de factor de transcripción (26, 27), y la entrada del NCBI consistía en el fragmento que aparece en la Tabla 1. Por eso se incluye aquí. Recientemente se ha estudiado en detalle (28, 29), y resulta que este fragmento es en realidad el exón 16, el exón 3′ y el único exón largo, más de la mitad de la longitud de toda la secuencia codificante. Este exón consiste enteramente en la secuencia ME Charlie8. Lo que sigue es una cita de la ref. 29. «GTF2IRD2 es el tercer miembro de la nueva familia de genes TFII-I agrupados en 7q11.23. La proteína GTF2IRD2 contiene dos regiones putativas de hélice-bucle-hélice (repeticiones I) y un inusual dominio C-terminal similar al transposón CHARLIE8, que se cree que ha surgido como consecuencia de la inserción aleatoria de un elemento transponible que genera un gen de fusión funcional. La retención de un número de motivos conservados asociados a la transposasa dentro de la proteína sugiere que la región similar a CHARLIE8 puede tener todavía algún grado de funcionalidad transposasa que podría influir en la estabilidad de la región en un mecanismo similar al propuesto para la neuropatía de Charcot-Marie-Tooth tipo 1A. GTF2IRD2 está muy conservado en los mamíferos y también se ha aislado el ortólogo del ratón (Gtf2ird2)»

Otras secuencias de codificación de transcripción aparentemente derivadas de ME. La Tabla 4 es una lista de 49 ejemplos de transcripciones observadas para las que las secuencias codificantes han sido determinadas por programas informáticos, y estas cds están compuestas por MEs al menos en un 80%. Esta colección se hizo ejecutando repeatmasker contra la colección de transcritos de genes del NCBI en febrero de 2004, pero cuando se hicieron las comprobaciones a principios de marzo, todos los transcritos así marcados habían sido eliminados de la colección. Parece probable que alguien decidiera que eran basura, lo que en cierto sentido puede ser cierto, pero desde el punto de vista de este artículo pueden considerarse potencialmente útiles y deben examinarse más a fondo. Es probable que algunos de ellos sean ejemplos de la transcripción de fragmentos de ME, un proceso que ocurre con frecuencia. Las regiones de la línea 1 de ME se expresan en colecciones de ARN de ratón y rata y de humanos (datos no publicados). La tabla de Smit (4) se ha ampliado (27) para incluir 47 genes potenciales derivados, al menos en parte, de ME. Sin embargo, la cuestión central de estas dos tablas es si estos candidatos son realmente genes funcionales. De hecho, en la mayoría de los casos no hay pruebas de que estos ARNm sean producidos por genes en funcionamiento. Hay dos ejemplos en estas tablas en los que casi todo el ARNm deriva de un ME, y uno de ellos se describe anteriormente como Syncytin (21, 22). El otro parece ser la transcripción de un fragmento de una secuencia relacionada bastante estrechamente con el HERV3, incluyendo el gen env y el LTR, y el transcrito se describe como ARNm del gen env. La prueba de su función es la transcripción en las células del trofoblasto de la placenta (28), que recuerda a las partículas A intracisternas del ratón que son similares a los ERV y de las que se puede afirmar que tienen un papel importante en la placenta (29).

Los casos descritos y posiblemente el ejemplo que se acaba de mencionar (4, 27) muestran que partes de ME se han convertido para formar secuencias de codificación de genes esencialmente completas. Probablemente hay más casos, como indica la Tabla 4. Estas observaciones se suman a las muchas formas conocidas en que los ME han contribuido a nuestra evolución. Este tema ha sido revisado recientemente por Kazazian (30), quien los caracteriza como si estuvieran en el asiento del conductor, en lugar de ser simplemente útiles de tener cerca. Debido a esta revisión no hay razón para una discusión extensa aquí.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.