Gene Ontology annotations: o que significam e de onde vêm

A perspectiva curadora

A anotação GO representa uma ligação entre um tipo de produto genético e uma função molecular, processo biológico, ou tipo de componente celular (uma ligação, em outras palavras, entre o produto genético e o que esse produto é capaz de fazer, para que processos biológicos contribui, e onde na célula é capaz de funcionar na vida natural de um organismo). Formalmente, uma anotação GO consiste de uma linha de 15 colunas. Para fins desta discussão, existem 4 campos primários: i) a identificação pública da base de dados para o gene ou produto genético a ser anotado; ii) o GO:ID para o termo ontologia a ser associado ao produto genético; iii) um código de evidência, e iv) a referência/citação para a fonte da informação que suporta a anotação em particular (Figura 1). Os curadores do GOC concordaram em utilizar práticas padrão ao anotar produtos gênicos, práticas são aplicadas através de trocas de e-mail, relatórios de controle de qualidade, reuniões presenciais e teleconferências regulares.

Figure 1
figure1

Anatomia de uma Anotação. As anotações são fornecidas ao Consórcio Gene Ontology como arquivos delimitados por tabulações com 15 campos. Quatro campos indicam o produto gênico a ser anotado, os termos ontológicos utilizados na associação, o tipo de evidência que suporta a anotação e a referência onde a evidência original foi apresentada. As três anotações descritas neste manuscrito são mostradas.

Pormenores adicionais destas práticas e da estrutura da anotação e processos de anotação definidos por GO estão disponíveis no site GO . Resumidamente, o processo de anotação se desdobra em uma série de passos. Primeiro, experiências específicas, documentadas na literatura biomédica, são identificadas como relevantes para as responsabilidades do processo de curadoria de um determinado curador. Em segundo lugar, o curador aplica o conhecimento especializado à documentação dos resultados de cada experimento selecionado. Este processo implica determinar quais produtos gênicos estão sendo estudados no experimento, a natureza do próprio experimento e das funções moleculares, processos biológicos e componentes celulares que o experimento identifica como estando correlacionados com o produto gênico. O curador então cria uma anotação que captura as relações apropriadas entre os tipos ontológicos correspondentes.

Finalmente, processos de controle de qualidade da anotação são empregados para assegurar que a anotação tenha uma estrutura formal correta, para avaliar a consistência da anotação entre curadores e grupos curatoriais, e para colher o conhecimento emergente da atividade da anotação para as contribuições que ela pode fazer para o refinamento e extensão do próprio GO, e cada vez mais também para outras ontologias.

Passo 1: Identificação de dados experimentais relevantes: O principal objetivo do esforço de anotação do GO é criar anotações específicas do genoma apoiadas por evidências obtidas em experimentos realizados no organismo a ser anotado. No entanto, muitas anotações são inferidas a partir de experimentos realizados em outros organismos, ou elas são inferidas não a partir de experimentos, mas sim a partir do conhecimento sobre características de seqüência para o gene em questão. Tais informações também são capturadas nas anotações de GO por meio dos códigos de evidência correspondentes. Assim, é importante que o usuário de tais anotações entenda o que esses códigos refletem ou que uma anotação é baseada em evidências experimentais apoiando a afirmação ou que uma anotação é uma previsão baseada em similaridade estrutural. A diferença entre anotações verificadas experimentalmente e anotações GO derivadas computacionalmente pode ser identificada no arquivo da anotação. Esta complexidade, se não for levada em conta pelo utilizador, pode confundir as análises de dados e prejudicar o objectivo de geração de hipóteses com base em conjuntos de anotações GO. Com uma compreensão dos tipos de evidências que estão subjacentes a uma dada anotação de GO e de como essa anotação deve representar o mundo real, o usuário pode filtrar inteligentemente os arquivos de anotação e recuperar aqueles conjuntos de anotações que refletem os tipos de experimentos e de previsões que são de máxima relevância.

Passo 2: Identificação do termo apropriado para a anotação da ontologia: A decisão sobre qual termo GO usar em uma anotação depende de vários fatores. O próprio experimento trará algum limite na resolução do que pode ser entendido a partir de seus resultados. Por exemplo, o fracionamento celular pode localizar moléculas de uma proteína para o núcleo de uma célula, mas experimentos de imunolocalização podem localizar moléculas do mesmo tipo de proteína para o nucléolo de uma célula. Como resultado, o mesmo gene pode ter anotações em termos diferentes na mesma ontologia, porque as anotações são baseadas em experimentos diferentes. São feitos esforços para assegurar a consistência da anotação através de verificações regulares da consistência da anotação. Quando são identificadas inconsistências, o GOC toma medidas para resolvê-las trabalhando com os curadores envolvidos e, quando necessário, com especialistas de domínio. As limitações dos métodos experimentais podem levar os curadores a usar seus próprios conhecimentos científicos e de base ao selecionar um termo. É importante ter em mente que a escolha de um termo GO é por vezes feita por inferência feita pelo anotador com base nos seus conhecimentos anteriores. Um exemplo seria o caso em que uma mutação num gene doméstico causa um defeito num processo muito amplo, como a morfogénese de um membro. Um curador que tem conhecimento de base sobre a função deste gene como estando envolvido na fisiologia celular básica pode estar confiante que o defeito na morfogênese é um subproduto de células insalubres, e que o produto do gene não está envolvido na morfogênese per se. A tarefa de estabelecer quais sub-processos são partes de um determinado processo e quais estão fora dele é um desafio não só para os criadores e curadores de ontologias, mas também para os biólogos de laboratório. Um método para abordar esta questão é definir cada processo com um início e um fim discretos. Os desenvolvedores de ontologias GO usam este método sempre que possível ao definir os tipos de processos. Isto permite aos anotadores captar melhor o conhecimento baseado no tipo de GO definido. Este GOC adotou agora uma política, já sendo realizada pelo grupo MGI, de criar anotações que são ‘contextuais’. Isto significa que os termos de outras ontologias como o tipo de célula (CL) (6) e outras ontologias de Fundição OBO (7), e do dicionário anatômico do mouse (8) são usados em conjunto com os termos GO nas anotações. Como resultado, a anotação pode descrever com mais precisão a realidade biológica que precisa ser capturada.

Anotação da função molecular

Na situação biológica mais simples, moléculas de um determinado tipo estão associadas a um único tipo de função molecular. Uma molécula específica m é uma instância de uma molécula tipo M (representada por exemplo na base de dados UniProt), e sua propensão a agir de certa forma é uma instância da função molecular tipo F (representada por um termo GO correspondente). Assim, uma molécula do produto genético tipo Adh1, álcool desidrogenase 1 (classe I), tem como função uma instância da função molecular tipo atividade álcool desidrogenase. Isso significa que tal molécula tem o potencial de executar essa função em um determinado contexto. O termo “atividade”, neste sentido, significa como é usado em um contexto bioquímico; e é mais apropriadamente lido como significando: “atividade potencial”. Note que embora a mesma cadeia, “álcool desidrogenase”, seja usada tanto no nome do gene quanto na função molecular, a cadeia em si se refere a diferentes entidades: na primeira ao tipo de molécula; na segunda ao tipo de função que a molécula tem a propensão de executar. Esta ambiguidade está enraizada na tendência de nomear moléculas com base nas funções que elas executam, e é importante entender esta distinção já que o nome de uma molécula e a função molecular à qual a molécula é atribuída podem não concordar necessariamente, por exemplo, porque a molécula pode executar múltiplas funções.

Se dizemos que instâncias de um determinado tipo de produto genético têm potencial para executar uma determinada função, isto não significa que cada instância deste tipo executará, de fato, esta função. Assim, moléculas do gene do rato tipo de produto Zp2 são encontradas no oócito e têm a propensão para ligar moléculas do gene do tipo de produto Acr durante a fertilização . Se, entretanto, um oócito nunca é fertilizado, as moléculas ainda existem e ainda têm a propensão de executar a função de ligação, mas a função nunca é executada.

A evidência experimental usada para testar se uma dada função molecular tipo F existe vem na forma de um ‘ensaio’ para a execução desse tipo de função em moléculas de algum tipo específico M. Se instâncias de F são identificadas em tal ensaio, isto justifica uma anotação de função molecular correspondente afirmando uma associação entre M e F. Como exemplo, a Figura 2 mostra os resultados de um ensaio para a atividade da função molecular retinol desidrogenase retirado de um estudo de Zhang et al. (Ao longo deste trabalho vamos denotar tipos usando itálico.) A função molecular tipo atividade retinol desidrogenase é definida na ontologia da função molecular pela reação: retinol + NAD+ → retinal + NADH + H+. Instâncias de moléculas do produto genético anotadas a este termo têm o potencial de executar esta atividade catalítica. Neste experimento, um extrato de proteína celular foi incubado com dois substratos, all-trans-retinol (círculos abertos) ou 9-cis-retinol (círculos preenchidos), e o cofator NAD+ durante 10 minutos e a quantidade de retina gerada foi medida. O gráfico mostra a taxa de acumulação de produto (retina) em relação à concentração do substrato (retinóide) utilizado. Os resultados mostram que a reação definida pela função molecular GO tipo atividade da retinol desidrogenase foi de fato instanciada – a execução desta função ocorreu. As ocorrências observadas de retinol sendo convertido em retina são evidências da existência de instâncias deste tipo de função molecular. Neste experimento, as instâncias do tipo de função são identificadas através da observação de execuções reais. Afirmamos que algumas moléculas neste extrato possuem funções moleculares de atividade do tipo retinol desidrogenase porque ocorreram ocorrências de execuções de instâncias deste tipo foram medidas diretamente.

Figure 2
figure2

Dados de Anotação de Função Molecular. Este gráfico é reproduzido de Zhang et al . O gráfico mostra a concentração de retinóide usado como substrato ao longo do eixo X e a atividade de retinol desidrogenase ao longo do eixo Y. Círculos abertos referem-se ao all-trans-retinol como um substrato e círculos fechados referem-se ao 9-cis-retinol como um substrato. As amostras enzimáticas foram retiradas de um extrato bruto de células transfectadas com um cDNA que codifica o gene Rdh1.

Anotação do processo biológico

Uma instância de função molecular é o potencial duradouro de uma instância de produto genético para agir de uma certa forma. Uma instância de processo biológico é a execução de uma ou mais dessas instâncias de função molecular trabalhando em conjunto para atingir um determinado objetivo biológico. Uma instância de processo biológico é a nível celular ou de granularidade do organismo o que é a execução de uma função ao nível da molécula. Existe uma relação entre as funções moleculares e os processos biológicos. Neste momento esta relação não é representada explicitamente em GO. Do ponto de vista da anotação do gene, estamos interessados em ir além das relações instância-instância ao nível da célula ou do organismo, e em ganhar a capacidade de inferir relações de tipo que ligam tipos de produtos gênicos ao nível molecular da granularidade a tipos de processos ao nível da célula ou do organismo. Estamos interessados no fato de que moléculas de um determinado tipo de produto genético podem estar associadas a instâncias de um tipo de função molecular (conhecida ou desconhecida) cuja execução contribui para a ocorrência de um processo biológico de um determinado tipo. Inferências sobre tais relações de tipo podem ser feitas porque os experimentos são projetados para testar o que acontece quando condições biológicas especificadas são satisfeitas em circunstâncias típicas – circunstâncias nas quais, como resultado dos esforços do experimentador, eventos perturbadores não interferem. Os experimentos são projetados para serem reprodutíveis e preditivos, descrevendo as instâncias que se espera encontrar em sistemas biológicos que atendam às condições definidas. Se experiências futuras mostrarem que as experiências anteriores não descreveram a situação típica pretendida, então as conclusões das experiências anteriores são questionadas e podem ser reanalisadas e reinterpretadas, ou mesmo rejeitadas completamente, e as anotações correspondentes precisam então ser emendadas de acordo.

Anotações desta forma apontam algumas vezes para erros nas relações de tipo descritas na ontologia. Um exemplo é a recente remoção do tipo secreção de seretonina como um is_uma criança de secreção de neurotransmissor da ontologia do Processo Biológico GO. Esta modificação foi feita como resultado de uma anotação de um artigo mostrando que a serotonina pode ser secretada por células do sistema imunológico onde não atua como neurotransmissor.

Associações entre produtos gênicos e processos biológicos, também podem ser detectadas experimentalmente. Quando são detectadas instâncias de processo biológico tipo P, seja por observação direta ou por ensaio experimental, como estando associadas a instâncias de um determinado produto genético tipo M, então isso justifica a afirmação desse tipo de associação entre M e P que é chamada de anotação de processo biológico.

Para aquelas espécies de organismos onde as ferramentas de estudo genético podem ser aplicadas com sucesso, a associação de tipos de produtos gênicos com tipos de processo biológico é geralmente conseguida através do estudo das perturbações de processos biológicos após a mutação genética. Os curadores utilizam o código de evidência IMP para estas anotações. A Figura 3 mostra um exemplo de uma análise mutação feita por Washington-Smoak et al sobre os efeitos de uma mutação do gene Shh no desenvolvimento do coração do rato . O painel esquerdo mostra uma imagem de um coração com cópias normais do gene (WT) aos 16,5 dias de embriogênese; o painel direito mostra um coração com cópias defeituosas do gene aos 16,5 dias de embriogênese. A figura ilustra claramente que o desenvolvimento das vias de saída do coração é defeituoso no embrião com o gene defeituoso. A ontologia do Processo Biológico GO define o tipo de desenvolvimento do coração como: “o processo cujo resultado específico é a progressão do coração ao longo do tempo, desde a sua formação até à estrutura madura”. O coração é um órgão oco, muscular, que, ao contrair-se ritmicamente, mantém a circulação do sangue’

Figure 3
figure3

Dados da Anotação do Processo Biológico. Esta figura é reproduzida de Washington Smoak et al . A figura mostra micrografias de corações em embriões de rato de 16,5dpc. A figura da esquerda mostra um animal com duas cópias funcionais do gene Shh e a figura da direita mostra um animal sem cópias funcionais. Ao e Pa indicam a aorta e a artéria pulmonar respectivamente. A ? indica uma via de saída aberrante. Reimpresso de Developmental Biology, 283, Washington Smoak et al, Sonic hedgehog is required for cardiac outflow tract and neural crest development, 357-72, Copyright 2005, com permissão da Elsevier.

Figure 4
figure4

Cellular Component Annotation. Esta figura é reproduzida de MacPhee et al . A figura mostra micrografias que são os resultados de uma localização de imunofluorescência da proteína ATP1A1. As áreas iluminadas mostram a localização da proteína ao longo da membrana plasmática. Reimpresso a partir de Developmental Biology, 222, MacPhee et al, Differential involvement of Na(+),K(+)-ATPase isozymes in preimplantation development of the mouse, 486-498, Copyright 2000, com permissão da Elsevier.

Baseado no estudo mutacional relatado em Washington-Smoak et al, um curador de MGI fez uma anotação ligando o desenvolvimento cardíaco e o gene Shh usando o código de evidência IMP (Fig. 1). Esta anotação baseia-se na identificação no animal normal de uma molécula do produto do gene Shh com uma função molecular cuja execução contribui para a ocorrência do processo biológico do desenvolvimento cardíaco. Sabemos que o desenvolvimento do coração do processo biológico existe porque o observamos no animal normal. Sabemos que uma molécula de SHH contribui para este processo porque quando retiramos todas as instâncias do produto genético do gene Shh em um animal, o processo de desenvolvimento do coração é perturbado. A anotação afirma assim que uma molécula de proteína SHH tem o potencial de executar uma função molecular que contribui para uma instância do tipo de desenvolvimento do coração na ontologia do Processo Biológico. Também generalizamos que a execução da função molecular de uma molécula de SHH em um determinado rato contribuirá de alguma forma para o desenvolvimento do coração desse rato. No entanto, os resultados de qualquer ensaio fenotípico estão limitados à resolução do próprio fenótipo. No experimento descrito acima, validamos o processo biológico, mas não podemos fazer nenhuma inferência direta sobre a natureza da função executada. É por esta e outras razões práticas que as ontologias da função molecular e do processo biológico foram desenvolvidas de forma independente.

Anotação do componente celular

Na grande maioria dos casos, as anotações que ligam o produto gênico aos tipos de componentes celulares são feitas com base na observação direta de uma instância do componente celular em um microscópio, como por exemplo em , que relata um experimento no qual um anticorpo que reconhece produtos gênicos do gene Atp1a1 é usado para rotular a localização de instâncias de tais produtos em embriões de camundongos pré-implantados (Figura 4). A coloração fluorescente mostra que os produtos gênicos estão localizados na membrana plasmática das células desses embriões. Neste caso, as instâncias dos produtos gênicos são as moléculas ligadas pelos anticorpos fluorescentes, e a instância do componente celular é a membrana plasmática que é observada sob o microscópio. Um curador utilizou os resultados deste experimento para fazer uma anotação do produto gênico ATP1A1 na membrana plasmática do componente celular GO (Fig. 1). Assim como nas funções moleculares e processos biológicos, também existe uma relação entre a função molecular e o componente celular. É simples levantar a hipótese de que, se uma molécula de um produto gênico é encontrada em uma instância de um determinado componente celular, então esse produto gênico tem o potencial de executar sua função também nesse componente celular. Se a execução da função for detectada no componente, então podemos fazer uma generalização em relação ao tipo de função molecular e ao tipo de componente celular. Partimos do princípio, com base nos dados experimentais acumulados, que instâncias suficientes do produto genético executarão suas funções em alguma instância do tipo de componente celular e que moléculas suficientes executarão sua função de tal forma que essas execuções se tornem biologicamente relevantes. Assim como com a função molecular e o processo biológico, as evidências experimentais para a função molecular e as anotações do componente celular são muitas vezes separáveis. Portanto, do ponto de vista prático, essas ontologias também são desenvolvidas separadamente.

Deixe uma resposta

O seu endereço de email não será publicado.