La perspectiva del curador
Una anotación GO representa un vínculo entre un tipo de producto génico y una función molecular, un proceso biológico o un tipo de componente celular (un vínculo, en otras palabras, entre el producto génico y lo que ese producto es capaz de hacer, a qué procesos biológicos contribuye y en qué lugar de la célula es capaz de funcionar en la vida natural de un organismo). Formalmente, una anotación GO consta de una fila de 15 columnas. A efectos de esta discusión, hay 4 campos principales: i) el ID de la base de datos pública para el gen o el producto génico que se anota; ii) el GO:ID para el término de la ontología que se asocia con el producto génico; iii) un código de evidencia, y iv) la referencia/citación para la fuente de la información que apoya la anotación particular (Figura 1). Los conservadores del GOC han acordado utilizar prácticas estándar a la hora de anotar productos génicos, prácticas que se aplican mediante intercambios de correo electrónico, informes de control de calidad, reuniones presenciales y conferencias telefónicas periódicas.
Detalles adicionales de estas prácticas y de la estructura de anotación y procesos de anotación definidos por GO están disponibles en el sitio web de GO . En resumen, el proceso de anotación se desarrolla en una serie de pasos. En primer lugar, se identifican experimentos específicos, documentados en la literatura biomédica, como relevantes para las responsabilidades del proceso de curación de un curador determinado. En segundo lugar, el conservador aplica su conocimiento experto a la documentación de los resultados de cada experimento seleccionado. Este proceso implica determinar qué productos génicos se estudian en el experimento, la naturaleza del propio experimento y de las funciones moleculares, procesos biológicos y componentes celulares que el experimento identifica como correlacionados con el producto génico. A continuación, el conservador crea una anotación que captura las relaciones apropiadas entre los tipos de ontología correspondientes.
Por último, se emplean procesos de control de calidad de la anotación para garantizar que la anotación tiene una estructura formal correcta, para evaluar la coherencia de la anotación entre los conservadores y los grupos de conservadores, y para cosechar el conocimiento que surge de la actividad de anotación por las contribuciones que podría hacer al refinamiento y la extensión de la propia GO, y cada vez más también a otras ontologías.
Paso 1: Identificación de los datos experimentales relevantes: El objetivo principal del esfuerzo de anotación de GO es crear anotaciones específicas de un genoma apoyadas en pruebas obtenidas en experimentos realizados en el organismo que se anota. Sin embargo, muchas anotaciones se infieren a partir de experimentos realizados en otros organismos, o no se infieren en absoluto a partir de experimentos, sino más bien a partir del conocimiento de las características de la secuencia del gen en cuestión. Esta información también se recoge en las anotaciones GO mediante los correspondientes códigos de evidencia. Por lo tanto, es importante que el usuario de estas anotaciones comprenda que estos códigos reflejan que una anotación se basa en pruebas experimentales que apoyan la afirmación o que una anotación es una predicción basada en la similitud estructural. La diferencia entre las anotaciones GO verificadas experimentalmente y las derivadas computacionalmente puede identificarse en el archivo de anotaciones. Esta complejidad, si no es tenida en cuenta por el usuario, puede confundir los análisis de datos y socavar el objetivo de la generación de hipótesis sobre la base de conjuntos de anotaciones GO. Con una comprensión de los tipos de evidencia que subyacen a una anotación GO dada y de cómo esa anotación está destinada a representar el mundo real, el usuario puede filtrar inteligentemente los archivos de anotación y recuperar aquellos conjuntos de anotación que reflejan los tipos de experimentos y de predicciones que son de máxima relevancia.
Paso 2: Identificación del término de anotación ontológica apropiado: La decisión de qué término GO utilizar en una anotación depende de varios factores. El experimento en sí traerá algún límite en la resolución de lo que se puede entender de sus resultados. Por ejemplo, el fraccionamiento celular puede localizar moléculas de una proteína en el núcleo de una célula, pero los experimentos de inmunolocalización pueden localizar moléculas del mismo tipo de proteína en el nucleolo de una célula. Como resultado, el mismo gen puede tener anotaciones a diferentes términos en la misma ontología porque las anotaciones se basan en diferentes experimentos. Se hacen esfuerzos para garantizar la coherencia de las anotaciones mediante comprobaciones periódicas de la coherencia de las anotaciones. Cuando se identifican incoherencias, la GOC toma medidas para resolverlas colaborando con los conservadores implicados y, en caso necesario, con especialistas del sector. Las limitaciones de los métodos experimentales pueden llevar a los conservadores a utilizar su propia experiencia científica y sus conocimientos previos a la hora de seleccionar un término. Es importante tener en cuenta que la elección de un término GO se hace a veces por inferencia del anotador sobre la base de sus conocimientos previos. Un ejemplo sería el caso en el que una mutación en un gen de mantenimiento de la casa causa un defecto en un proceso muy amplio como la morfogénesis de las extremidades. Un conservador que tenga conocimientos previos sobre la función de este gen como implicado en la fisiología celular básica puede estar seguro de que el defecto en la morfogénesis es un subproducto de las células enfermas, y que el producto del gen no está implicado en la morfogénesis per se. La tarea de establecer qué subprocesos forman parte de un proceso determinado y cuáles quedan fuera de él es un reto no sólo para los desarrolladores y conservadores de ontologías, sino también para los biólogos de laboratorio. Un método para abordar esta cuestión es definir cada proceso con un principio y un final discretos. Los desarrolladores de ontologías GO utilizan este método siempre que es posible al definir los tipos de procesos. Esto permite a los anotadores captar mejor los conocimientos basados en el tipo GO definido. Este GOC ha adoptado ahora una política, que ya está realizando el grupo MGI, de crear anotaciones que sean «contextuales». Esto significa que los términos de otras ontologías, como el tipo de célula (CL) (6) y otras ontologías de OBO Foundry (7), y del diccionario anatómico del ratón (8) se utilizan junto con los términos GO en las anotaciones. Como resultado, la anotación puede describir con mayor precisión la realidad biológica que debe ser capturada.
Anotación de función molecular
En la situación biológica más simple, las moléculas de un tipo determinado están asociadas a un único tipo de función molecular. Una molécula específica m es una instancia de un tipo de molécula M (representada, por ejemplo, en la base de datos UniProt), y su propensión a actuar de una manera determinada es una instancia del tipo de función molecular F (representada por un término GO correspondiente). Así, una molécula del tipo de producto génico Adh1, alcohol deshidrogenasa 1 (clase I), tiene como función una instancia del tipo de función molecular actividad alcohol deshidrogenasa. Esto significa que dicha molécula tiene el potencial de ejecutar esta función en un contexto determinado. El término «actividad», en este sentido, se entiende tal y como se utiliza en un contexto bioquímico; y es más apropiado leerlo como: «actividad potencial». Obsérvese que, aunque la misma cadena, «alcohol deshidrogenasa», se utiliza tanto en el nombre del gen como en el de la función molecular, la propia cadena se refiere a entidades diferentes: en el primero, al tipo de molécula; en el segundo, al tipo de función que esa molécula tiene la propensión a ejecutar. Esta ambigüedad tiene su origen en la tendencia a nombrar a las moléculas basándose en las funciones que ejecutan, y es importante entender esta distinción, ya que el nombre de una molécula y la función molecular a la que se atribuye la molécula pueden no coincidir necesariamente, por ejemplo, porque la molécula puede ejecutar múltiples funciones.
Si decimos que las instancias de un tipo de producto génico determinado tienen una propensión a ejecutar una función determinada, esto no significa que todas las instancias de este tipo vayan a ejecutar de hecho esta función. Así, las moléculas del tipo de producto génico Zp2 del ratón se encuentran en el ovocito y tienen la propensión a unirse a las moléculas del tipo de producto génico Acr durante la fecundación. Sin embargo, si un ovocito nunca es fecundado, las moléculas siguen existiendo y siguen teniendo la propensión a ejecutar la función de unión, pero la función nunca se ejecuta.
La evidencia experimental utilizada para probar si un tipo de función molecular dado F existe viene en forma de un «ensayo» para la ejecución de ese tipo de función en moléculas de algún tipo específico M. Si se identifican instancias de F en dicho ensayo, esto justifica una anotación de función molecular correspondiente que afirma una asociación entre M y F. Como ejemplo, la Figura 2 muestra los resultados de un ensayo para la función molecular actividad retinol deshidrogenasa tomados de un estudio de Zhang et al. (A lo largo de este documento denotaremos los tipos usando cursiva.) El tipo de función molecular actividad retinol deshidrogenasa se define en la ontología de función molecular por la reacción: retinol + NAD+ → retinal + NADH + H+. Los casos de moléculas de productos genéticos anotados con este término tienen el potencial de ejecutar esta actividad catalítica. En este experimento, se incubó un extracto de proteína celular con dos sustratos, todo-trans-retinol (círculos abiertos) o 9-cis-retinol (círculos rellenos), y el cofactor NAD+ durante 10 minutos y se midió la cantidad de retinal generada. El gráfico muestra la tasa de acumulación de producto (retinal) con respecto a la concentración de sustrato (retinoide) utilizada. Los resultados muestran que la reacción definida por la función molecular GO tipo actividad retinol deshidrogenasa ha sido efectivamente instanciada – la ejecución de esta función ha ocurrido. Las ocurrencias observadas de conversión de retinol en retinal son evidencia de la existencia de instancias de este tipo de función molecular. En este experimento, las instancias del tipo de función se identifican mediante la observación de las ejecuciones reales. Afirmamos que algunas moléculas de este extracto tienen funciones moleculares del tipo actividad retinol deshidrogenasa porque se han medido directamente las ejecuciones de instancias de este tipo.
Anotación de proceso biológico
Una instancia de función molecular es el potencial duradero de una instancia de producto génico para actuar de una manera determinada. Una instancia de proceso biológico es la ejecución de una o más de tales instancias de función molecular trabajando juntas para lograr un determinado objetivo biológico. Una instancia de proceso biológico es a nivel celular u orgánico de granularidad lo que la ejecución de una función es a nivel de la molécula. Existe una relación entre las funciones moleculares y los procesos biológicos. Por el momento, esta relación no está representada explícitamente en GO. Desde el punto de vista de la anotación de genes, nos interesa ir más allá de las relaciones instancia-instancia a nivel de célula u organismo, y obtener la capacidad de inferir relaciones tipo-tipo que vinculen los tipos de productos génicos a nivel de granularidad molecular con los tipos de procesos a nivel de célula u organismo. Nos interesa el hecho de que las moléculas de un determinado tipo de producto génico puedan asociarse con instancias de un tipo de función molecular (conocida o desconocida) cuya ejecución contribuye a la ocurrencia de un proceso biológico de un tipo determinado. Se pueden hacer inferencias sobre estas relaciones tipo-tipo porque los experimentos están diseñados para probar lo que ocurre cuando se satisfacen las condiciones biológicas especificadas en circunstancias típicas, circunstancias en las que, como resultado de los esfuerzos del experimentador, no interfieren los eventos perturbadores. Los experimentos están diseñados para ser reproducibles y predictivos, describiendo los casos que uno esperaría encontrar en los sistemas biológicos que cumplen las condiciones definidas. Si los experimentos futuros muestran que los experimentos precedentes no describen la situación típica prevista, entonces las conclusiones de los experimentos precedentes son cuestionadas y pueden ser reanalizadas y reinterpretadas, o incluso rechazadas por completo, y las anotaciones correspondientes deben entonces ser modificadas en consecuencia.
Las anotaciones de esta manera a veces señalan errores en las relaciones tipo-tipo descritas en la ontología. Un ejemplo es la reciente eliminación del tipo secreción de seretonina como hijo is_a de la secreción de neurotransmisores de la ontología GO Biological Process. Esta modificación se hizo como resultado de una anotación de un documento que muestra que la serotonina puede ser secretada por las células del sistema inmune donde no actúa como un neurotransmisor.
Las asociaciones entre los productos de los genes y los procesos biológicos, también pueden ser detectados experimentalmente. Cuando se detectan instancias del tipo de proceso biológico P, ya sea por observación directa o por ensayo experimental, como asociadas a instancias de un tipo de producto génico dado M, entonces esto justifica la afirmación de ese tipo de asociación entre M y P que se denomina anotación de proceso biológico.
Para aquellas especies de organismos en las que se pueden aplicar con éxito las herramientas de estudio genético, la asociación de los tipos de productos génicos con los tipos de procesos biológicos se consigue normalmente a través del estudio de las perturbaciones de los procesos biológicos tras la mutación genética. Los conservadores utilizan el código de pruebas IMP para estas anotaciones. La Figura 3 muestra un ejemplo de un análisis mutacional realizado por Washington-Smoak et al sobre los efectos de una mutación del gen Shh en el desarrollo del corazón del ratón . El panel izquierdo muestra una imagen de un corazón con copias normales del gen (WT) a los 16,5 días de embriogénesis; el panel derecho muestra un corazón con copias defectuosas del gen a los 16,5 días de embriogénesis. La figura ilustra claramente que el desarrollo de los tractos de salida del corazón es defectuoso en el embrión con el gen defectuoso. La ontología GO Biological Process define el tipo de desarrollo del corazón como ‘el proceso cuyo resultado específico es la progresión del corazón en el tiempo, desde su formación hasta la estructura madura. El corazón es un órgano hueco y muscular que, al contraerse rítmicamente, mantiene la circulación de la sangre.’
Basado en el estudio mutacional reportado en Washington-Smoak et al, un curador del MGI ha hecho una anotación que relaciona el desarrollo del corazón y el gen Shh usando el código de evidencia IMP (Fig. 1). Esta anotación se basa en la identificación en el animal normal de una molécula del producto del gen Shh con una función molecular cuya ejecución contribuye a una ocurrencia del proceso biológico desarrollo del corazón. Sabemos que el proceso biológico desarrollo del corazón existe porque lo observamos en el animal normal. Sabemos que una molécula de SHH contribuye a este proceso porque cuando quitamos todas las instancias del producto del gen Shh en un animal, el proceso de desarrollo del corazón se altera. La anotación afirma así que una molécula de la proteína SHH tiene el potencial de ejecutar una función molecular que contribuye a una instancia del tipo desarrollo del corazón en la ontología de Procesos Biológicos. También generalizamos que la ejecución de la función molecular de una molécula de SHH en un ratón determinado contribuirá de alguna manera al desarrollo del corazón de ese ratón. Sin embargo, los resultados de cualquier ensayo fenotípico están limitados a la resolución del propio fenotipo. En el experimento descrito anteriormente, hemos validado el proceso biológico, pero no podemos hacer ninguna inferencia directa sobre la naturaleza de la función ejecutada. Es por esta y otras razones prácticas que las ontologías de función molecular y de proceso biológico se desarrollaron de forma independiente.
Anotación de componentes celulares
En la gran mayoría de los casos, las anotaciones que vinculan el producto génico con los tipos de componentes celulares se realizan sobre la base de una observación directa de una instancia del componente celular en un microscopio, como por ejemplo en , donde se informa de un experimento en el que se utiliza un anticuerpo que reconoce los productos génicos del gen Atp1a1 para etiquetar la ubicación de instancias de dichos productos en embriones de ratón de preimplantación (Figura 4). La tinción fluorescente muestra que los productos génicos se localizan en la membrana plasmática de las células de estos embriones. En este caso, las instancias de los productos génicos son las moléculas unidas por los anticuerpos fluorescentes, y la instancia del componente celular es la membrana plasmática que se observa al microscopio. En consecuencia, un curador ha utilizado los resultados de este experimento para realizar una anotación del producto génico ATP1A1 al componente celular GO membrana plasmática (Fig. 1). Al igual que ocurre con las funciones moleculares y los procesos biológicos, también existe una relación entre la función molecular y el componente celular. Es sencillo hipotetizar que, si una molécula de un producto génico se encuentra en una instancia de un componente celular dado, entonces ese producto génico tiene el potencial de ejecutar su función en ese componente celular también. Si se detecta la ejecución de la función en el componente, entonces podemos hacer una generalización relativa al tipo de función molecular y al tipo de componente celular. Asumimos, basándonos en los datos experimentales acumulados, que suficientes instancias del producto génico ejecutarán sus funciones en alguna instancia del tipo de componente celular y que suficientes moléculas ejecutarán su función de tal manera que estas ejecuciones se vuelvan biológicamente relevantes. Al igual que con la función molecular y el proceso biológico, las pruebas experimentales de las anotaciones de la función molecular y del componente celular suelen ser separables. Por lo tanto, desde un punto de vista práctico, estas ontologías también se desarrollan por separado.