Sequências de codificação de genes humanos funcionais derivadas inteiramente de sequências de elementos móveis

Resultados e Discussão

AD7C. AD7C é um gene da proteína do fio neuronal. Ele codifica uma membrana de 41-kDa de fosfoproteína que é útil no diagnóstico precoce da doença de Alzheimer (14, 15). A sequência de codificação é de 1.128 nt de comprimento e o repetidor mostra que consiste em fragmentos de cinco (ou quatro, ver abaixo) sequências de Alu. Todas as sequências estão com os complementos invertidos das repetições de Alu. O alinhamento está resumido na Tabela 2. Estão listados a percentagem de semelhança e comprimento de cada uma das regiões das melhores sequências de Alu correspondentes, que diferem inconsequentemente daquelas publicadas na ref. 14.

Veja esta tabela:

Ver em linha
Ver popup

Tabela 2. Resumo do alinhamento do AD7C

Primeiro, um AluSp corresponde a 92% de precisão aos primeiros 281 nt da sequência de codificação. Após um intervalo de 3 nt, 141 nt de AluJo corresponde a 87% de precisão. Depois de 2 nt, uma parte adicional da sequência de AluJo corresponde a 93% para 167 nt, incluindo uma parte considerável da cauda de poli(A), modificada por duas substituições que afectam a tradução. Estes dois pequenos fragmentos parecem representar um homólogo da sequência de Alu na sequência de codificação, mas aparentemente ocorreu um rearranjo porque existem regiões sobrepostas do AluJo. A seguir é uma correspondência de 92% para 302 nt a um AluSc, incluindo uma parte considerável da cauda de poli(A) que é modificada. Finalmente, há uma correspondência de 88% para 239 nt para um AluSx, incluindo também uma região dimensionável da cauda de poli(A) que é modificada. No genoma, esta correspondência continua após o fim da região da sequência de codificação e há outra correspondência com uma sequência de Alu (dados não mostrados).

Parece que toda a região de codificação do gene foi feita a partir de um cluster de sequências de Alu. As lacunas de alguns nucleotídeos entre as seqüências de Alu individuais são provavelmente apenas detalhes do processo de alinhamento do repeatmasker e podem ser ignoradas. Uma questão de interesse é quanta mudança ocorreu nas sequências para formar um gene útil a partir das sequências ME. As seqüências de Alu resumidas na Tabela 2 são simplesmente as melhores correspondências da coleção de repeatedmasker e não são necessariamente as seqüências de Alu que estavam presentes no cluster de Alu original, de modo que não é possível, em geral, identificar as mudanças de seqüência que ocorreram. Uma amostra pode ser estimada através do exame das três cadeias de poli(A) que estão incluídas. Elas totalizam 60 Ts nas seqüências complementares de Alu. Nessas regiões de poli(T), ocorreram oito mudanças, todas levando a códons translatáveis para aminoácidos que não a fenilalanina. Eles consistem em seis substituições de A e duas inserções de dois As cada. Esta alteração de ≈17% nesta pequena amostra sugere uma selecção positiva. É claro que existe apenas uma possível substituição silenciosa em uma linha de Ts, a transição de T para C na terceira base. Além disso, há quatro casos de sequências internas ricas em T nas cinco sequências de Alu envolvidas, e em uma delas, tal substituição silenciosa ocorreu. Em dois desses casos, ocorreram diferenças de comprimento resultantes de uma eliminação de seis bases e de uma inserção de quatro bases, levando, naturalmente, a códons translatáveis. Este é um caso claro em que um agrupamento de repetições de Alu foi convertido em um gene humano ativo. Ainda não sabemos como a região de controle 5′ está organizada. Com essa informação, um dia poderemos dizer mais sobre o processo evolutivo que criou o gene. Foi apontado que uma representação completa identificável no genoma humano (build 34) é apenas 97% semelhante à sequência mRNA AD7C (A. F. Smit, comunicação pessoal) (14). As diferenças são tais que a sequência genómica não é traduzível para um comprimento significativo. Não foi encontrada melhor cópia genómica do mRNA, mas o gene pode conter introns e pode ser difícil de identificar devido às sequências de Alu.

BNIP3. BNIP3 é o gene para uma proteína envolvida no controle da apoptose através da interação com outras proteínas (16-18). O título da entrada em OMIM (Online Mendelian Inheritance in Man) é BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3: BNIP3. A tabela 1 mostra que 97% da sequência de codificação está relacionada com a de HERV70RM. HERV70RM é o nome que estou usando para a versão de HERV70 que está incluída na biblioteca de repeatedmasker e é chamada de retrovírus endógeno humano, embora não contenha resíduos de genes retrovirais reconhecíveis. Tem mais de 7 kb de comprimento, e as relações com a sequência de codificação BNIP3 ocorrem após o nucleotídeo 4641 da HERV70RM. A sequência de codificação do mRNA BNIP3 alinha-se totalmente com a sequência HERV70RM, embora o gene seja constituído por 6 exões espalhados por quase 15 kb de ADN. Para ajudar a resolver esta relação, o repeatmasker foi executado contra o gene inteiro, e os resultados são mostrados na Tabela 3. A maioria destes dados são da saída do repeatmasker, e duas colunas são adicionadas para mostrar a localização dos exons no gene. Na maioria dos casos, a identificação de um segmento HERV70RM no gene alinha-se estreitamente com os exons. Este acordo é tão bom que a história parece óbvia. Provavelmente, uma parte do HERV70RM de cerca de 4-7 kb foi convertida para um gene sem introns, que deve ter evoluído e se tornado útil, e mais tarde os introns foram inseridos nele para levar ao gene moderno BNIP3. De facto, existe uma sequência BNIP3P no cromossoma 14 que é identificada como um pseudogene porque carece de intrões e dá uma muito boa correspondência numa pesquisa feita com o mRNA do BNIP3 utilizando a explosão do genoma humano. É possivelmente um fóssil do estágio inicial neste evento ou pode ser um pseudogene real feito a partir do mRNA em um estágio posterior.

Veja esta tabela:

Ver em linha
Ver popup

Tabela 3. MEs no gene BNIP3

Para explorar melhor esta interpretação, a sequência de codificação foi alinhada com a sequência HERV70RM, usando sequências de explosão2. O resultado mostrou duas cópias da região quase completa dos cds nos locais 5507-6073 e 6732-7289 na seqüência HERV70RM, combinando com ≈80%. Assim, as localizações mostradas na Tabela 3 em HERV70RM são simplesmente os melhores ajustes de repeatedmasker e não mostram necessariamente as origens reais da sequência de codificação BNIP3. Parece provável que tenha sido originada como uma cópia de uma das regiões no HERV70RM. A Tabela 3 mostra um exemplo de semelhança de sequência entre HERV70RM e uma região do gene que não é um exon no BNIP3. A história desta região não é clara. Em qualquer caso, é claro que a maioria dos exons do gene BNIP3 deriva de um trecho contínuo do gene HERV70RM. Este parece ser um bom caso de “introns late” porque não há outra explicação que vem à mente para a presença de uma série de peças conectadas do gene HERV70RM espalhadas amplamente no gene BNIP3.

Uma questão importante é a natureza do HERV70RM. A cópia utilizada nestes estudos está listada na biblioteca de sequências repetidas humanas listadas em repeatmasker. Está incompleta e não é um retrovírus endógeno clássico. A base de dados hervd (http://herv.img.cas.cz) lista muitas regiões do genoma humano que são semelhantes em sequência ao que aqui chamo HERV70RM, embora nenhuma delas corresponda a um comprimento superior a ≈1 kb. Na verdade, existe um conjunto de 63 sequências nesta base de dados que correspondem aos cds do BNIP3, embora a maioria delas mostre apenas uma pequena região de correspondência. A situação precisa de ser esclarecida porque existem muitas entradas na base de dados hervd chamada HERV70 que não mostram nenhuma semelhança de sequência com a HERV70RM. Não existe uma cópia completa do HERV70RM na versão actual do genoma humano, pelo que o seu estatuto como sequência de retrovírus endógeno humano é duvidoso. A explosão do genoma humano (filter off) pesquisando com o HERV70RM encontra muitos hits e gráficos alguns exemplos como se fossem correspondências completas. Eles não existem, e o programa os montou a partir de grupos de combinações fragmentárias próximas.

Quando o repeatmasker é executado contra HERV70RM, dois pequenos fragmentos de sequências de Alu são encontrados, assim como outros MEs dentro dele. Existem regiões que o repeatmasker identifica como HERV70 (HERV70RM), e estas incluem a região das cópias das sequências de codificação BNIP3. Um aviso é necessário aqui porque a explosão do genoma humano (filtro desligado, padrão) encontra apenas 3 sequências correspondentes para a sequência de codificação BNIP3 das 63 que existem na base de dados hervd. Eu confirmo o fato de que existem muitos fragmentos correspondentes à seqüência de codificação (cds), encontrando 120 no genoma humano usando a explosão. Este é um ponto importante porque estes dados, independentemente da interpretação do HERV70RM, mostram que a sequência de cds do gene BNIP3 está intimamente relacionada em toto com sequências de um ME. Podemos não saber exatamente o que é este ME, mas existem muitas cópias desta região do ME no genoma humano variando de preciso a bastante divergente.

O gene BNIP3 ocorre no genoma do rato , e a sequência de codificação corresponde ao humano com 89% de precisão. As seqüências proteicas correspondem a 90% de precisão, exceto por uma lacuna de 5-aa e uma lacuna de 1-aa na proteína do camundongo. O arranjo gênico é similar, com 6 exons estendendo-se por ≈15 kb. Os exons são idênticos em comprimento aos exons humanos, exceto pelas lacunas de 15 e 3 nt correspondentes às diferenças protéicas. Como os cds combinam tão estreitamente em sequência, os exons BNIP3 de camundongos mostram a mesma relação com o humano HERV70RM que os exons BNIP3 humanos. Curiosamente, não há nenhuma sequência no genoma do rato, visto pela explosão do genoma do rato, que corresponda ao humano HERV70RM excepto para os exons BNIP3. Aparentemente não há ERV equivalente no genoma do rato, embora, claro, muitos outros HERV e MERV compartilhem sequência. repeatmasker pode ser usado com as repetições humanas ou repetidas do rato para examinar a região do gene BNIP3 do rato. Com as repetições humanas, os exons BNIP3 do rato são reconhecidos como sequências HERV70RM, mas com as repetições do rato, não há correspondência de sequências. Os exons nos dois genes são quase idênticos. As sequências nucleotídicas do rato e os cds BNIP3 humanos coincidem estreitamente (90%). K s entre as sequências de codificação do rato e humano são 0,41 e K a = 0,047 (K s é a divergência devido a substituições sinónimas, e K a é a divergência devido a alterações que causam a substituição de aminoácidos) (19). Esta semelhança sugere que quaisquer que tenham sido os eventos, eles ocorreram muito no passado.

O gene BNIP3 também foi sequenciado do rato, e os cds são 95% semelhantes ao do rato BNIP3, portanto os mesmos argumentos se aplicam. O K s entre as sequências de codificação do rato e humano é 0.37 e K a = 0.048 (20). A explosão do genoma do rato encontra um exon BNIP3 e duas outras sequências de rato semelhantes a partes do gene humano HERV70RM, enquanto a explosão do genoma do rato encontra apenas um exon BNIP3 com similaridade ao humano HERV70RM. Baseado em uma busca por explosão do GenBank, galinha (Gallus gallus) tem uma seqüência de mRNA semelhante ao BNIP3 humano. Há uma correspondência de 367 de 453 nt, ou 81%, em uma grande região e evidência de outras regiões menores de similaridade. Parece que um exame completo da evolução e das relações do BNIP3 e HERV70RM valeria a pena em várias espécies.

Syncytin. Este exemplo é listado por Smit (4) e é incluído aqui porque evidências recentes mostram que Syncytin é um gene funcional na placenta humana (21, 22). O mRNA é derivado em toto do retrovírus endógeno HERV-W, que está presente em muitas cópias no genoma humano. Os autores (21) identificam o ERVWE1 como a região do gene que é a fonte da transcrição, embora isto possa não ser certo. O ERVWE1 tem 10,2 kb de comprimento e consiste no arranjo usual LTR-gag-pol-env-LTR. O mRNA de Syncytin tem 2,8 kb de comprimento e consiste no 5′ LTR, alguma sequência adicional, o gene env, e o 3′ LTR. O cds de 1.617 nt inclui apenas o gene do env do retrovírus endógeno. Dentro dele, podem ser identificadas regiões que são funcionalmente significativas para a Syncytin. Não está claro quanta mudança evolutiva ocorreu no gene do inve para assumir sua função atual. Entrez Gene lista o que são chamados de GeneRIFs (www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html):

Env HERV-W glicoproteína medeia a fusão célula-célula na interação com o receptor de retrovírus tipo D de mamíferos. A proteína Env foi detectada na placenta syncytiotrophoblast, sugerindo um papel fisiológico durante a gravidez e formação da placenta.
Contribuinte da arquitetura placentária normal, especialmente nos processos de fusão de citotrofoblastos a syncytiotrophoblastos. A expressão gênica de Syncytin pode ser alterada em casos com disfunção placentária como pré-eclâmpsia ou síndrome HELLP.
MRNA abundante para Syncytin mostrou estimulação por forskolin em células BeWo.
Fusão trofoblástica mediada por sincitina em células humanas é regulada por GCMa.
Ativação do gene da sincitina é maior em termos de placenta.
HERV-W A glicoproteína Env está diretamente envolvida na diferenciação de culturas primárias de citotrofoblastos de vilosidades humanas.
Hypoxia altera a expressão e função da Syncytin e do seu receptor durante a fusão de células trofoblastomerosas de células BeWo da placenta humana: Implicações para a sincretização de trofoblastos comprometidos na pré-eclâmpsia.
Expressão do gene da sincitina é reduzida pela hipoxia, o que reforça a hipótese de que a sincitina é reduzida em gestações perturbadas durante a hipoxia placentária.

HHCM. O HHCM é identificado como um carcinoma hepatocelular humano 3.0-kb sequência de DNA que codifica (em um 1.404-nt cds) uma proteína 52-kDa. Ele transforma tanto células do fígado de ratos quanto fibroblastos NIH 3T3.† A Tabela 1 mostra que ele é quase 90% composto de L1 MEs. A correspondência da sequência é apenas ≈70%, tanta mudança de sequência ocorreu porque a sua origem vem de uma parte da sequência L1. Ela corresponde às regiões 18-331 nt e 437-1470 nt de L1MD2. Isto não é aparentemente uma contribuição benéfica que L1 tenha feito ao nosso genoma, embora os MEs ajam de formas estranhas. O registro NM_006543 foi “temporariamente removido pela equipe da RefSeq para revisão adicional” e Smit (comunicação pessoal) não encontrou uma seqüência genômica muito parecida. Portanto, este exemplo deve ser considerado um candidato para estudo futuro.

LG30. LG30 é um gene de função desconhecida na região G72/G30 do cromossoma 13. As mutações na região estão ligadas à desordem bipolar (23, 24), mas parece que o G72 é mais provável que seja o responsável (25). A região codificadora LG30 tem apenas 216 nt de comprimento, e 100% do seu comprimento está relacionado com a classe LTR ME (MLT1E, MLT1G).

GTF2IRD2. O GTF2IRD2 foi inicialmente descrito como um gene de factor de transcrição (26, 27), e a entrada NCBI consistia no fragmento listado no Quadro 1. É por isso que está incluído aqui. Foi recentemente estudado em detalhe (28, 29), e verifica-se que este fragmento é na verdade o exon 16, o exon 3′ e o único exon longo, mais de metade do comprimento de toda a sequência de codificação. Este exon consiste inteiramente de ME seqüência Charlie8. O que se segue é uma citação da ref. 29. “GTF2IRD2 é o terceiro membro da nova família TFII-I de genes agrupados em 7q11.23. A proteína GTF2IRD2 contém duas regiões de hélice helix-loop-helix (I-repetições) e um invulgar domínio tipo transposão C-terminal CHARLIE8, que se pensa ter surgido como consequência da inserção aleatória de um elemento transponível gerando um gene de fusão funcional. A retenção de uma série de motivos transpostas-associados conservados dentro da proteína sugere que a região tipo CHARLIE8 pode ainda ter algum grau de funcionalidade transposta que poderia influenciar a estabilidade da região num mecanismo semelhante ao proposto para a neuropatia Charcot-Marie-Tooth tipo 1A. GTF2IRD2 é altamente conservado em mamíferos e o ortologue do rato (Gtf2ird2) também foi isolado”

Outras Sequências de Codificação Transcriptadas Aparentemente Derivadas de ME. A Tabela 4 é uma lista de 49 exemplos de transcrições observadas para as quais as sequências de codificação foram determinadas por programas de computador, e estes cds são compostos por MEs, pelo menos, até 80%. Esta colecção foi feita através da execução de repeatedmasker contra a colecção de transcrições de genes do NCBI em Fevereiro de 2004, mas quando as verificações foram feitas no início de Março, todas as transcrições assim marcadas tinham sido removidas da colecção. Parece provável que alguém tenha decidido que eram lixo, o que de certa forma pode ser verdade, mas do ponto de vista deste artigo podem ser consideradas potencialmente úteis e devem ser examinadas mais aprofundadamente. Alguns deles são provavelmente exemplos da transcrição de fragmentos de EM, um processo que ocorre frequentemente. As regiões da linha 1 de EM são expressas em coleções de ratos e ratos e RNA humano (dados não publicados). A tabela de Smit (4) foi estendida (27) para incluir 47 genes potenciais derivados, pelo menos em parte, de EM. Entretanto, a questão central para essas duas tabelas é se esses candidatos são realmente genes funcionais. Na verdade, não há evidência na maioria dos casos que esses mRNAs sejam produzidos por genes funcionais. Há dois exemplos nestas tabelas onde quase todo o mRNA deriva de um EM, e um deles é descrito acima como Syncytin (21, 22). O outro parece ser a transcrição de um fragmento de uma sequência relacionada bastante próxima a HERV3, incluindo o gene env e LTR, e a transcrição é descrita como um mRNA do gene env. A evidência de sua função é a transcrição em células trofoblasto da placenta (28), reminiscente de partículas A intracistêmicas em camundongos que são similares aos ERVs e que podem ser alegadas como tendo um papel importante na placenta (29).

Os casos descritos e possivelmente o exemplo que acaba de ser mencionado (4, 27) mostram que partes de EM foram convertidas para formar seqüências de codificação genética essencialmente completas. Existem provavelmente mais casos como indicado na Tabela 4. Estas observações somam-se às muitas formas conhecidas em que os EM contribuíram para a nossa evolução. Este assunto foi revisto recentemente por Kazazian (30) que as caracteriza como estando no lugar do condutor, em vez de simplesmente serem úteis para se ter por perto. Devido a esta revisão, não há razão para uma extensa discussão aqui.

Resultados e Discussão

Deixe uma resposta Cancelar resposta