La prospettiva del curatore
Un’annotazione GO rappresenta un legame tra un tipo di prodotto genico e una funzione molecolare, un processo biologico o un tipo di componente cellulare (un legame, in altre parole, tra il prodotto genico e ciò che quel prodotto è in grado di fare, a quali processi biologici contribuisce, e dove nella cellula è in grado di funzionare nella vita naturale di un organismo). Formalmente, un’annotazione GO consiste in una riga di 15 colonne. Ai fini di questa discussione, ci sono 4 campi primari: i) l’ID del database pubblico per il gene o il prodotto genico da annotare; ii) il GO:ID per il termine dell’ontologia associato al prodotto genico; iii) un codice di evidenza, e iv) il riferimento/citazione per la fonte delle informazioni che supporta la particolare annotazione (Figura 1). I curatori del GOC hanno concordato di usare pratiche standard quando annotano i prodotti genici, le pratiche sono applicate tramite scambi di e-mail, rapporti di controllo della qualità, incontri faccia a faccia e regolari conference call.
Ulteriori dettagli su queste pratiche e sulla struttura di annotazione e sui processi di annotazione definiti da GO sono disponibili sul sito web di GO. Brevemente, il processo di annotazione si svolge in una serie di passi. In primo luogo, specifici esperimenti, documentati nella letteratura biomedica, sono identificati come rilevanti per le responsabilità del processo di curatela di un dato curatore. In secondo luogo, il curatore applica le conoscenze degli esperti alla documentazione dei risultati di ogni esperimento selezionato. Questo processo comporta la determinazione di quali prodotti genici vengono studiati nell’esperimento, la natura dell’esperimento stesso, e delle funzioni molecolari, dei processi biologici e dei componenti cellulari che l’esperimento identifica come correlati al prodotto genico. Il curatore crea quindi un’annotazione che cattura le relazioni appropriate tra i tipi di ontologia corrispondenti.
Infine, i processi di controllo della qualità dell’annotazione sono impiegati per garantire che l’annotazione abbia una struttura formale corretta, per valutare la coerenza dell’annotazione tra curatori e gruppi di curatori, e per raccogliere la conoscenza che emerge dall’attività di annotazione per i contributi che potrebbe dare al perfezionamento e all’estensione del GO stesso, e sempre più anche ad altre ontologie.
Step 1: identificazione dei dati sperimentali rilevanti: L’obiettivo principale dello sforzo di annotazione GO è quello di creare annotazioni specifiche per il genoma supportate da prove ottenute in esperimenti eseguiti nell’organismo da annotare. Tuttavia, molte annotazioni sono dedotte da esperimenti eseguiti in altri organismi, o non sono dedotte affatto da esperimenti, ma piuttosto dalla conoscenza delle caratteristiche della sequenza del gene in questione. Anche queste informazioni sono catturate nelle annotazioni GO per mezzo dei corrispondenti codici di evidenza. È quindi importante per l’utente di tali annotazioni capire che questi codici riflettono o che un’annotazione è basata su prove sperimentali che supportano l’affermazione o che un’annotazione è una previsione basata sulla somiglianza strutturale. La differenza tra le annotazioni GO verificate sperimentalmente e quelle derivate computazionalmente può essere identificata nel file di annotazione. Questa complessità, se non presa in considerazione dall’utente, può confondere le analisi dei dati e minare l’obiettivo della generazione di ipotesi sulla base dei set di annotazioni GO. Con una comprensione dei tipi di prove che sono alla base di una data annotazione GO e di come tale annotazione è intesa a rappresentare il mondo reale, l’utente può filtrare in modo intelligente i file di annotazione e recuperare quei set di annotazioni che riflettono i tipi di esperimenti e di previsioni che sono di massima rilevanza.
Step 2: Identificazione del termine di annotazione ontologica appropriato: La decisione su quale termine GO utilizzare in un’annotazione dipende da diversi fattori. L’esperimento stesso porterà qualche limite alla risoluzione di ciò che può essere compreso dai suoi risultati. Per esempio, il frazionamento cellulare potrebbe localizzare le molecole di una proteina al nucleo di una cellula, ma gli esperimenti di immunolocalizzazione potrebbero localizzare le molecole dello stesso tipo di proteina al nucleolo di una cellula. Di conseguenza, lo stesso gene può avere annotazioni a termini diversi nella stessa ontologia perché le annotazioni sono basate su esperimenti diversi. Gli sforzi sono fatti per assicurare la coerenza delle annotazioni attraverso controlli regolari della coerenza delle annotazioni. Dove vengono identificate le incoerenze, il GOC prende provvedimenti per risolverle lavorando con i curatori coinvolti e, se necessario, con specialisti del settore. Le limitazioni dei metodi sperimentali possono portare i curatori ad usare la propria esperienza scientifica e le conoscenze di base quando selezionano un termine. È importante tenere a mente che la scelta di un termine GO è a volte fatta da un’inferenza fatta dall’annotatore sulla base delle sue conoscenze precedenti. Un esempio potrebbe essere il caso in cui una mutazione in un gene housekeeping causa un difetto in un processo molto ampio come la morfogenesi degli arti. Un curatore che ha conoscenze di base sulla funzione di questo gene come coinvolto nella fisiologia cellulare di base può essere sicuro che il difetto nella morfogenesi sia un sottoprodotto di cellule malsane, e che il prodotto del gene non sia coinvolto nella morfogenesi in sé. Il compito di stabilire quali sottoprocessi sono parti e quali si trovano al di fuori di un dato processo è impegnativo non solo per gli sviluppatori e i curatori di ontologie ma anche per i biologi di laboratorio. Un metodo per affrontare questo problema è quello di definire ogni processo con un inizio e una fine discreti. Gli sviluppatori dell’ontologia GO usano questo metodo ogni volta che è possibile quando definiscono i tipi di processo. Questo permette agli annotatori di catturare al meglio la conoscenza basata sul tipo GO definito. Questo GOC ha ora adottato una politica, già realizzata dal gruppo MGI, di creare annotazioni che sono “contestuali”. Questo significa che i termini di altre ontologie come il tipo di cellula (CL) (6) e altre ontologie OBO Foundry (7), e dal dizionario anatomico del topo (8) sono usati insieme ai termini GO nelle annotazioni. Come risultato, l’annotazione può descrivere più accuratamente la realtà biologica che deve essere catturata.
Annotazione di funzione molecolare
Nella situazione biologica più semplice, le molecole di un dato tipo sono associate a un singolo tipo di funzione molecolare. Una molecola specifica m è un’istanza di un tipo di molecola M (rappresentata per esempio nel database UniProt), e la sua propensione ad agire in un certo modo è un’istanza del tipo di funzione molecolare F (rappresentata da un termine GO corrispondente). Così, una molecola del tipo di prodotto genico Adh1, alcol deidrogenasi 1 (classe I), ha come funzione un’istanza del tipo di funzione molecolare attività alcol deidrogenasi. Ciò significa che tale molecola ha il potenziale per eseguire questa funzione in un determinato contesto. Il termine “attività”, in questo senso, è inteso come viene usato in un contesto biochimico; ed è più appropriatamente letto come significato: “attività potenziale”. Si noti che anche se la stessa stringa, “alcol deidrogenasi”, è usata sia nel nome del gene che nella funzione molecolare, la stringa stessa si riferisce a entità diverse: nel primo al tipo di molecola; nel secondo al tipo di funzione che quella molecola ha la propensione ad eseguire. Questa ambiguità è radicata nella tendenza a nominare le molecole in base alle funzioni che eseguono, ed è importante capire questa distinzione poiché il nome di una molecola e la funzione molecolare a cui la molecola è attribuita possono non essere necessariamente d’accordo, per esempio perché la molecola può eseguire più funzioni.
Se diciamo che le istanze di un dato tipo di prodotto genico hanno un potenziale per eseguire una data funzione, questo non significa che ogni istanza di questo tipo eseguirà effettivamente questa funzione. Così le molecole del tipo di prodotto genico Zp2 del topo si trovano nell’ovocita e hanno la propensione a legare le molecole del tipo di prodotto genico Acr durante la fecondazione. Se, tuttavia, un ovocita non viene mai fecondato, le molecole esistono ancora e hanno ancora la propensione a eseguire la funzione di legame, ma la funzione non viene mai eseguita.
La prova sperimentale utilizzata per verificare se un dato tipo di funzione molecolare F esiste viene sotto forma di un ‘saggio’ per l’esecuzione di quel tipo di funzione in molecole di qualche tipo specifico M. Se le istanze di F sono identificate in tale saggio, ciò giustifica una corrispondente annotazione di funzione molecolare che asserisce un’associazione tra M e F. Come esempio, la Figura 2 mostra i risultati di un saggio per la funzione molecolare attività retinolo deidrogenasi tratto da uno studio di Zhang et al. (In tutto questo articolo denoteremo i tipi usando il corsivo). La funzione molecolare tipo attività retinolo deidrogenasi è definita nell’ontologia della funzione molecolare dalla reazione: retinolo + NAD+ → retinale + NADH + H+. Le istanze di molecole di prodotti genici annotati a questo termine hanno il potenziale per eseguire questa attività catalitica. In questo esperimento, un estratto proteico cellulare è stato incubato con due substrati, all-trans-retinolo (cerchi aperti) o 9-cis-retinolo (cerchi pieni), e il cofattore NAD+ per 10 minuti ed è stata misurata la quantità di retinale generato. Il grafico mostra il tasso di accumulo del prodotto (retinale) rispetto alla concentrazione del substrato (retinoide) utilizzato. I risultati mostrano che la reazione definita dalla funzione molecolare GO tipo attività retinolo deidrogenasi è stata effettivamente istanziata – l’esecuzione di questa funzione è avvenuta. Le occorrenze osservate della conversione del retinolo in retinale sono la prova dell’esistenza di istanze di questo tipo di funzione molecolare. In questo esperimento, le istanze del tipo di funzione sono identificate attraverso l’osservazione di esecuzioni reali. Affermiamo che alcune molecole in questo estratto hanno funzioni molecolari del tipo attività retinolo deidrogenasi perché le occorrenze delle esecuzioni delle istanze di questo tipo sono state misurate direttamente.
Annotazione di processo biologico
Un’istanza di funzione molecolare è il potenziale duraturo di un’istanza di prodotto genico di agire in un certo modo. Un’istanza di processo biologico è l’esecuzione di una o più istanze di funzione molecolare che lavorano insieme per realizzare un certo obiettivo biologico. Un’istanza di processo biologico è, a livello di granularità cellulare o di organismo, ciò che l’esecuzione di una funzione è a livello della molecola. Esiste una relazione tra le funzioni molecolari e i processi biologici. In questo momento questa relazione non è rappresentata esplicitamente in GO. Dal punto di vista dell’annotazione dei geni, siamo interessati ad andare oltre le relazioni istanza-istanza a livello di cellula o di organismo, e ad acquisire la capacità di dedurre relazioni tipo-tipo che colleghino i tipi di prodotti genici al livello molecolare di granularità ai tipi di processi a livello di cellula o di organismo. Siamo interessati al fatto che le molecole di un dato tipo di prodotto genico possono essere associate a istanze di un tipo di funzione molecolare (nota o sconosciuta) la cui esecuzione contribuisce al verificarsi di un processo biologico di un dato tipo. Le inferenze su tali relazioni tipo-tipo possono essere fatte perché gli esperimenti sono progettati per testare ciò che traspare quando specifiche condizioni biologiche sono soddisfatte in circostanze tipiche – circostanze in cui, come risultato degli sforzi dello sperimentatore, gli eventi di disturbo non interferiscono. Gli esperimenti sono progettati per essere riproducibili e predittivi, descrivendo i casi che ci si aspetta di trovare nei sistemi biologici che soddisfano le condizioni definite. Se gli esperimenti futuri mostrano che gli esperimenti precedenti non hanno descritto la situazione tipica prevista, allora le conclusioni degli esperimenti precedenti sono messe in discussione e possono essere rianalizzate e reinterpretate, o addirittura respinte del tutto, e le annotazioni corrispondenti devono essere modificate di conseguenza.
Le annotazioni in questo modo a volte indicano errori nelle relazioni tipo-tipo descritte nell’ontologia. Un esempio è la recente rimozione del tipo secrezione di seretonina come figlio is_a della secrezione di neurotrasmettitore dall’ontologia GO Biological Process. Questa modifica è stata fatta come risultato di un’annotazione da un articolo che mostra che la serotonina può essere secreta da cellule del sistema immunitario dove non agisce come neurotrasmettitore.
Anche le associazioni tra prodotti genici e processi biologici possono essere rilevate sperimentalmente. Quando le istanze del tipo di processo biologico P sono rilevate, o per osservazione diretta o per saggio sperimentale, come associate alle istanze di un dato tipo di prodotto genico M, allora questo giustifica l’affermazione di quel tipo di associazione tra M e P che è chiamata annotazione di processo biologico.
Per quelle specie di organismi in cui gli strumenti di studio genetico possono essere applicati con successo, l’associazione dei tipi di prodotto genico con i tipi di processo biologico si ottiene di solito attraverso lo studio delle perturbazioni dei processi biologici in seguito a mutazione genetica. I curatori usano il codice di prova IMP per queste annotazioni. La figura 3 mostra un esempio di un’analisi mutazionale fatta da Washington-Smoak et al sugli effetti di una mutazione del gene Shh sullo sviluppo del cuore del topo. Il pannello di sinistra mostra un’immagine di un cuore con copie normali del gene (WT) a 16,5 giorni di embriogenesi; il pannello di destra mostra un cuore con copie difettose del gene a 16,5 giorni di embriogenesi. La figura illustra chiaramente che lo sviluppo dei tratti di efflusso del cuore è difettoso nell’embrione con il gene difettoso. L’ontologia GO Biological Process definisce il tipo sviluppo del cuore come: ‘il processo il cui risultato specifico è la progressione del cuore nel tempo, dalla sua formazione alla struttura matura. Il cuore è un organo cavo e muscolare che, contraendosi ritmicamente, mantiene la circolazione del sangue.”
Sulla base dello studio mutazionale riportato in Washington-Smoak et al, un curatore MGI ha fatto un’annotazione che collega lo sviluppo del cuore e il gene Shh usando il codice di prova IMP (Fig. 1). Questa annotazione si basa sull’identificazione nell’animale normale di una molecola del prodotto del gene Shh con una funzione molecolare la cui esecuzione contribuisce ad un evento del processo biologico di sviluppo del cuore. Sappiamo che il processo biologico di sviluppo del cuore esiste perché lo osserviamo nell’animale normale. Sappiamo che una molecola di SHH contribuisce a questo processo perché quando togliamo tutte le istanze del prodotto del gene Shh in un animale, il processo di sviluppo del cuore è disturbato. L’annotazione afferma quindi che una molecola della proteina SHH ha il potenziale per eseguire una funzione molecolare che contribuisce a un’istanza del tipo sviluppo del cuore nell’ontologia del processo biologico. Generalizziamo anche che l’esecuzione della funzione molecolare di una molecola di SHH in un dato topo contribuirà in qualche modo allo sviluppo del cuore di quel topo. Tuttavia, i risultati di qualsiasi saggio fenotipico sono limitati alla risoluzione del fenotipo stesso. Nell’esperimento descritto sopra, abbiamo convalidato il processo biologico, ma non possiamo fare alcuna deduzione diretta sulla natura della funzione eseguita. È per questa e altre ragioni pratiche che le ontologie della funzione molecolare e del processo biologico sono state sviluppate indipendentemente.
Annotazione del componente cellulare
Nella grande maggioranza dei casi, le annotazioni che collegano il prodotto genico con i tipi di componenti cellulari sono fatte sulla base di un’osservazione diretta di un’istanza del componente cellulare in un microscopio, come per esempio in , che riporta un esperimento in cui un anticorpo che riconosce i prodotti genici del gene Atp1a1 è usato per etichettare la posizione delle istanze di tali prodotti negli embrioni di topo preimpianto (Figura 4). La colorazione fluorescente mostra che i prodotti genici si trovano sulla membrana plasmatica delle cellule di questi embrioni. In questo caso, le istanze dei prodotti genici sono le molecole legate dagli anticorpi fluorescenti, e l’istanza del componente cellulare è la membrana plasmatica che si osserva al microscopio. Un curatore ha quindi utilizzato i risultati di questo esperimento per fare un’annotazione del prodotto genico ATP1A1 al componente cellulare GO membrana plasmatica (Fig. 1). Come per le funzioni molecolari e i processi biologici, esiste anche una relazione tra funzione molecolare e componente cellulare. È semplice ipotizzare che, se una molecola di un prodotto genico si trova in un’istanza di un dato componente cellulare, allora quel prodotto genico ha il potenziale per eseguire la sua funzione anche in quel componente cellulare. Se l’esecuzione della funzione viene rilevata nel componente, allora possiamo fare una generalizzazione riguardante il tipo di funzione molecolare e il tipo di componente cellulare. Assumiamo, sulla base dei dati sperimentali accumulati, che un numero sufficiente di istanze del prodotto genico esegua le sue funzioni in qualche istanza del tipo di componente cellulare e che un numero sufficiente di molecole esegua la sua funzione in modo tale che queste esecuzioni diventino biologicamente rilevanti. Come per la funzione molecolare e il processo biologico, l’evidenza sperimentale per la funzione molecolare e le annotazioni dei componenti cellulari è spesso separabile. Pertanto, da un punto di vista pratico, anche queste ontologie sono sviluppate separatamente.