Die Kuratorenperspektive
Eine GO-Annotation stellt eine Verbindung zwischen einem Genprodukttyp und einer molekularen Funktion, einem biologischen Prozess oder einem zellulären Komponententyp dar (eine Verbindung, mit anderen Worten, zwischen dem Genprodukt und dem, was dieses Produkt tun kann, zu welchen biologischen Prozessen es beiträgt und wo in der Zelle es im natürlichen Leben eines Organismus funktionieren kann). Formal besteht eine GO-Annotation aus einer Reihe von 15 Spalten. Für die Zwecke dieser Diskussion gibt es 4 primäre Felder: i) die ID der öffentlichen Datenbank für das zu annotierende Gen oder Genprodukt; ii) die GO:ID für den Ontologiebegriff, der mit dem Genprodukt assoziiert ist; iii) einen Evidenzcode und iv) die Referenz/ das Zitat für die Quelle der Informationen, die die jeweilige Annotation unterstützen (Abbildung 1). Die Kuratoren des GOC haben sich bei der Annotation von Genprodukten auf Standardverfahren geeinigt, die durch E-Mail-Austausch, Qualitätskontrollberichte, persönliche Treffen und regelmäßige Telefonkonferenzen durchgesetzt werden.
Weitere Einzelheiten zu diesen Praktiken sowie zur Annotationsstruktur und zu den von GO definierten Annotationsprozessen finden Sie auf der GO-Website. Kurz gesagt, der Annotationsprozess läuft in einer Reihe von Schritten ab. Zunächst werden bestimmte Experimente, die in der biomedizinischen Literatur dokumentiert sind, als relevant für den Kuratierungsprozess eines bestimmten Kurators identifiziert. Zweitens wendet der Kurator Expertenwissen auf die Dokumentation der Ergebnisse jedes ausgewählten Experiments an. Dieser Prozess beinhaltet die Bestimmung, welche Genprodukte in dem Experiment untersucht werden, die Art des Experiments selbst und die molekularen Funktionen, biologischen Prozesse und zellulären Komponenten, die im Experiment als mit dem Genprodukt korreliert identifiziert werden. Der Kurator erstellt dann eine Annotation, die die angemessenen Beziehungen zwischen den entsprechenden Ontologietypen erfasst.
Schließlich werden Prozesse zur Qualitätskontrolle der Annotation eingesetzt, um sicherzustellen, dass die Annotation eine korrekte formale Struktur hat, um die Konsistenz der Annotation zwischen Kuratoren und Kuratorengruppen zu bewerten und um das Wissen, das sich aus der Annotationstätigkeit ergibt, für die Beiträge zu nutzen, die es zur Verfeinerung und Erweiterung des GO selbst und zunehmend auch zu anderen Ontologien leisten könnte.
Schritt 1: Identifizierung relevanter experimenteller Daten: Das Hauptziel der GO-Annotation ist es, genomspezifische Annotationen zu erstellen, die sich auf Nachweise aus Experimenten stützen, die in dem zu annotierenden Organismus durchgeführt wurden. Viele Annotationen werden jedoch aus Experimenten abgeleitet, die in anderen Organismen durchgeführt wurden, oder sie werden überhaupt nicht aus Experimenten abgeleitet, sondern eher aus dem Wissen über Sequenzmerkmale für das betreffende Gen. Auch solche Informationen werden in den GO-Annotationen durch entsprechende Evidenzcodes festgehalten. Für den Nutzer solcher Annotationen ist es daher wichtig zu verstehen, was diese Codes widerspiegeln: entweder, dass eine Annotation auf experimentellen Belegen beruht, die die Behauptung unterstützen, oder dass eine Annotation eine Vorhersage auf der Grundlage struktureller Ähnlichkeit ist. Der Unterschied zwischen experimentell verifizierten und rechnerisch abgeleiteten GO-Annotationen kann in der Annotationsdatei identifiziert werden. Diese Komplexität kann, wenn sie vom Benutzer nicht berücksichtigt wird, die Datenanalyse beeinträchtigen und das Ziel der Hypothesenbildung auf der Grundlage von GO-Annotationen unterminieren. Wenn der Benutzer versteht, welche Arten von Beweisen einer bestimmten GO-Annotation zugrunde liegen und wie diese Annotation die reale Welt repräsentieren soll, kann er Annotationsdateien intelligent filtern und diejenigen Annotationssätze abrufen, die die Arten von Experimenten und Vorhersagen widerspiegeln, die von maximaler Relevanz sind.
Schritt 2: Identifizierung des geeigneten Ontologie-Annotationsterms: Die Entscheidung, welcher GO-Term in einer Annotation verwendet werden soll, hängt von mehreren Faktoren ab. Das Experiment selbst setzt der Auflösung dessen, was aus seinen Ergebnissen verstanden werden kann, Grenzen. So können beispielsweise bei der Zellfraktionierung Moleküle eines Proteins im Zellkern lokalisiert werden, während bei Immunlokalisierungsexperimenten Moleküle desselben Proteintyps im Nukleolus einer Zelle lokalisiert werden. Infolgedessen kann ein und dasselbe Gen in ein und derselben Ontologie mit unterschiedlichen Begriffen annotiert sein, da die Annotationen auf unterschiedlichen Experimenten beruhen. Es werden Anstrengungen unternommen, um die Konsistenz der Annotationen durch regelmäßige Überprüfungen der Annotationskonsistenz sicherzustellen. Wenn Unstimmigkeiten festgestellt werden, unternimmt das GOC Schritte, um sie in Zusammenarbeit mit den beteiligten Kuratoren und, falls erforderlich, mit Fachleuten zu beseitigen. Die Grenzen experimenteller Methoden können dazu führen, dass die Kuratoren bei der Auswahl eines Begriffs ihre eigene wissenschaftliche Expertise und ihr Hintergrundwissen nutzen. Es ist wichtig zu bedenken, dass die Wahl eines GO-Terms manchmal durch Schlussfolgerungen erfolgt, die der Annotator auf der Grundlage seines Vorwissens macht. Ein Beispiel wäre der Fall, in dem eine Mutation in einem Housekeeping-Gen einen Defekt in einem sehr umfassenden Prozess wie der Morphogenese der Gliedmaßen verursacht. Ein Kurator, der über Hintergrundwissen über die Funktion dieses Gens in der grundlegenden Zellphysiologie verfügt, könnte zuversichtlich sein, dass der Defekt in der Morphogenese ein Nebenprodukt ungesunder Zellen ist und dass das Genprodukt nicht an der Morphogenese an sich beteiligt ist. Die Aufgabe, festzustellen, welche Teilprozesse Teil eines bestimmten Prozesses sind und welche nicht, ist nicht nur für Ontologieentwickler und -kuratoren, sondern auch für Laborbiologen eine Herausforderung. Eine Methode, dieses Problem zu lösen, besteht darin, jeden Prozess mit einem diskreten Anfang und Ende zu definieren. GO-Ontologieentwickler verwenden diese Methode bei der Definition von Prozesstypen wann immer möglich. Auf diese Weise können die Annotatoren das auf dem definierten GO-Typ basierende Wissen am besten erfassen. Diese GOC hat nun die von der MGI-Gruppe bereits umgesetzte Politik übernommen, Annotationen zu erstellen, die „kontextbezogen“ sind. Das bedeutet, dass Begriffe aus anderen Ontologien wie dem Zelltyp (CL) (6) und anderen OBO Foundry Ontologien (7) sowie aus dem anatomischen Wörterbuch der Maus (8) in Verbindung mit GO-Begriffen in den Annotationen verwendet werden. Dadurch kann die Annotation die zu erfassende biologische Realität genauer beschreiben.
Molekulare Funktionsannotation
In der einfachsten biologischen Situation sind Moleküle eines bestimmten Typs mit einem einzigen molekularen Funktionstyp verbunden. Ein bestimmtes Molekül m ist eine Instanz eines Molekültyps M (z. B. in der UniProt-Datenbank dargestellt), und seine Neigung, auf eine bestimmte Weise zu wirken, ist eine Instanz des molekularen Funktionstyps F (dargestellt durch einen entsprechenden GO-Term). So hat ein Molekül vom Genprodukttyp Adh1, Alkoholdehydrogenase 1 (Klasse I), als Funktion eine Instanz des molekularen Funktionstyps Alkoholdehydrogenase-Aktivität. Das bedeutet, dass ein solches Molekül das Potenzial hat, diese Funktion in einem bestimmten Kontext auszuführen. Der Begriff „Aktivität“ ist in diesem Sinne so zu verstehen, wie er in einem biochemischen Kontext verwendet wird, und bedeutet eher: „potenzielle Aktivität“. Es ist zu beachten, dass, obwohl dieselbe Zeichenfolge, „Alkoholdehydrogenase“, sowohl im Gennamen als auch in der Molekülfunktion verwendet wird, sich die Zeichenfolge selbst auf unterschiedliche Einheiten bezieht: im ersten Fall auf den Molekültyp, im zweiten Fall auf die Art der Funktion, die das Molekül ausführen kann. Es ist wichtig, diese Unterscheidung zu verstehen, da der Name eines Moleküls und die molekulare Funktion, die dem Molekül zugeschrieben wird, nicht unbedingt übereinstimmen müssen, z. B. weil das Molekül mehrere Funktionen ausführen kann.
Wenn wir sagen, dass Instanzen eines bestimmten Genprodukttyps das Potenzial haben, eine bestimmte Funktion auszuführen, bedeutet das nicht, dass jede Instanz dieses Typs diese Funktion auch tatsächlich ausführt. So finden sich Moleküle des Maus-Genprodukttyps Zp2 in der Eizelle und haben die Neigung, während der Befruchtung Moleküle des Genprodukttyps Acr zu binden. Wenn eine Eizelle jedoch nie befruchtet wird, existieren die Moleküle immer noch und sie haben immer noch die Neigung, die Bindungsfunktion auszuführen, aber die Funktion wird nie ausgeführt.
Der experimentelle Beweis, der verwendet wird, um zu prüfen, ob ein bestimmter molekularer Funktionstyp F existiert, kommt in Form eines „Assays“ für die Ausführung dieses Funktionstyps in Molekülen eines bestimmten Typs M. Wenn Instanzen von F in einem solchen Assay identifiziert werden, rechtfertigt dies eine entsprechende molekulare Funktionsannotation, die eine Assoziation zwischen M und F behauptet. Als Beispiel zeigt Abbildung 2 die Ergebnisse eines Assays für die molekulare Funktion Retinol-Dehydrogenase-Aktivität, die aus einer Studie von Zhang et al. stammt (in dieser Arbeit werden die Typen kursiv dargestellt). Instanzen von Genproduktmolekülen, die mit diesem Begriff annotiert sind, haben das Potenzial, diese katalytische Aktivität auszuführen. In diesem Experiment wurde ein Zellproteinextrakt mit zwei Substraten, all-trans-Retinol (offene Kreise) oder 9-cis-Retinol (gefüllte Kreise), und dem Cofaktor NAD+ 10 Minuten lang inkubiert, und die Menge des gebildeten Retinals wurde gemessen. Die Grafik zeigt die Akkumulationsrate des Produkts (Retinal) in Abhängigkeit von der Konzentration des verwendeten Substrats (Retinoid). Die Ergebnisse zeigen, dass die durch den GO-Molekularfunktionstyp Retinol-Dehydrogenase-Aktivität definierte Reaktion tatsächlich instanziiert wurde – die Ausführung dieser Funktion ist erfolgt. Die beobachtete Umwandlung von Retinol in Retinal ist ein Beweis für die Existenz von Instanzen dieses molekularen Funktionstyps. In diesem Experiment werden die Instanzen des Funktionstyps durch Beobachtung der tatsächlichen Ausführung identifiziert. Wir behaupten, dass einige Moleküle in diesem Extrakt molekulare Funktionen des Typs Retinol-Dehydrogenase-Aktivität haben, weil die Häufigkeit der Ausführung von Instanzen dieses Typs direkt gemessen wurde.
Biologische Prozessannotation
Eine molekulare Funktionsinstanz ist das dauerhafte Potenzial einer Genproduktinstanz, auf eine bestimmte Weise zu wirken. Eine biologische Prozessinstanz ist die Ausführung einer oder mehrerer solcher molekularer Funktionsinstanzen, die zusammenarbeiten, um ein bestimmtes biologisches Ziel zu erreichen. Ein biologischer Prozess ist auf der zellulären oder organismischen Ebene der Granularität das, was die Ausführung einer Funktion auf der Ebene des Moleküls ist. Es besteht eine Beziehung zwischen molekularen Funktionen und biologischen Prozessen. Derzeit wird diese Beziehung in GO nicht explizit dargestellt. Aus der Perspektive der Genannotation sind wir daran interessiert, über die Instanz-Instanz-Beziehungen auf der Zell- oder Organismusebene hinauszugehen und die Fähigkeit zu erlangen, Typ-Typ-Beziehungen abzuleiten, die Genprodukttypen auf der molekularen Granularitätsebene mit Prozesstypen auf der Ebene der Zelle oder des Organismus verbinden. Wir sind an der Tatsache interessiert, dass Moleküle eines bestimmten Genprodukttyps mit Instanzen eines molekularen Funktionstyps (bekannt oder unbekannt) assoziiert werden können, deren Ausführung zum Auftreten eines biologischen Prozesses eines bestimmten Typs beiträgt. Rückschlüsse auf solche Typ-Typ-Beziehungen sind möglich, weil Experimente darauf ausgelegt sind, zu testen, was passiert, wenn bestimmte biologische Bedingungen unter typischen Umständen erfüllt sind – Umstände, bei denen aufgrund der Bemühungen des Experimentators keine störenden Ereignisse auftreten. Experimente sind so konzipiert, dass sie reproduzierbar und vorhersagbar sind und die Fälle beschreiben, die man in biologischen Systemen, die die festgelegten Bedingungen erfüllen, erwarten würde. Wenn künftige Experimente zeigen, dass die vorangegangenen Experimente nicht die beabsichtigte typische Situation beschrieben haben, dann werden die Schlussfolgerungen aus den vorangegangenen Experimenten in Frage gestellt und können neu analysiert und neu interpretiert oder sogar ganz verworfen werden, und die entsprechenden Anmerkungen müssen dann entsprechend geändert werden.
Anmerkungen dieser Art weisen manchmal auf Fehler in den in der Ontologie beschriebenen Typ-Typ-Beziehungen hin. Ein Beispiel ist die kürzliche Entfernung des Typs Seretonin-Sekretion als is_a Kind der Neurotransmitter-Sekretion aus der GO Biological Process Ontologie. Diese Änderung wurde aufgrund einer Annotation aus einer Arbeit vorgenommen, die zeigt, dass Serotonin von Zellen des Immunsystems sezerniert werden kann, wo es nicht als Neurotransmitter wirkt.
Auch Assoziationen zwischen Genprodukten und biologischen Prozessen können experimentell nachgewiesen werden. Wenn Instanzen des biologischen Prozesstyps P entweder durch direkte Beobachtung oder durch experimentelle Untersuchungen als mit Instanzen eines bestimmten Genprodukttyps M assoziiert erkannt werden, dann rechtfertigt dies die Behauptung dieser Art von Assoziation zwischen M und P, die als Annotation eines biologischen Prozesses bezeichnet wird.
Bei denjenigen Organismenarten, bei denen die Instrumente der genetischen Untersuchung erfolgreich angewandt werden können, wird die Assoziation von Genprodukttypen mit biologischen Prozesstypen in der Regel durch die Untersuchung der Störungen biologischer Prozesse nach genetischer Mutation erreicht. Die Kuratoren verwenden den IMP-Evidenzcode für diese Annotationen. Abbildung 3 zeigt ein Beispiel für eine von Washington-Smoak et al. durchgeführte Mutationsanalyse zu den Auswirkungen einer Mutation des Shh-Gens auf die Herzentwicklung der Maus. Das linke Feld zeigt ein Bild eines Herzens mit normalen Kopien des Gens (WT) am 16,5. Tag der Embryogenese; das rechte Feld zeigt ein Herz mit defekten Kopien des Gens am 16,5. Die Abbildung zeigt deutlich, dass die Entwicklung der Ausflusstrakte des Herzens bei dem Embryo mit dem defekten Gen gestört ist. Die GO Biological Process Ontology definiert den Typ Herzentwicklung als: ‚der Prozess, dessen spezifisches Ergebnis die Entwicklung des Herzens im Laufe der Zeit ist, von seiner Bildung bis zur reifen Struktur. Das Herz ist ein hohles, muskulöses Organ, das durch rhythmisches Zusammenziehen den Blutkreislauf aufrecht erhält.‘
Auf der Grundlage der in Washington-Smoak et al. berichteten Mutationsstudie hat ein MGI-Kurator unter Verwendung des IMP-Evidenzcodes eine Verbindung zwischen der Herzentwicklung und dem Shh-Gen hergestellt (Abb. 1). Diese Annotation beruht auf der Identifizierung eines Moleküls des Produkts des Shh-Gens im normalen Tier mit einer molekularen Funktion, deren Ausführung zum Auftreten des biologischen Prozesses der Herzentwicklung beiträgt. Wir wissen, dass der biologische Prozess der Herzentwicklung existiert, weil wir ihn im normalen Tier beobachten. Wir wissen, dass ein SHH-Molekül zu diesem Prozess beiträgt, denn wenn wir alle Instanzen des Genprodukts des Shh-Gens in einem Tier entfernen, ist der Prozess der Herzentwicklung gestört. Die Annotation bestätigt somit, dass ein SHH-Proteinmolekül das Potenzial hat, eine molekulare Funktion auszuführen, die zu einer Instanz des Typs Herzentwicklung in der Biological Process Ontology beiträgt. Wir verallgemeinern auch, dass die Ausführung der molekularen Funktion eines SHH-Moleküls in einer bestimmten Maus in irgendeiner Weise zur Entwicklung des Herzens dieser Maus beiträgt. Die Ergebnisse eines jeden phänotypischen Tests sind jedoch auf die Auflösung des Phänotyps selbst beschränkt. In dem oben beschriebenen Experiment haben wir den biologischen Prozess validiert, können aber keine direkten Rückschlüsse auf die Art der ausgeführten Funktion ziehen. Aus diesem und anderen praktischen Gründen wurden die Ontologien für molekulare Funktionen und biologische Prozesse unabhängig voneinander entwickelt.
Annotation zellulärer Komponenten
In den meisten Fällen werden Annotationen, die Genprodukte mit zellulären Komponententypen verknüpfen, auf der Grundlage einer direkten Beobachtung einer Instanz der zellulären Komponente unter dem Mikroskop vorgenommen, wie z. B. in , in dem über ein Experiment berichtet wird, bei dem ein Antikörper, der Genprodukte des Gens Atp1a1 erkennt, zur Markierung der Lage von Instanzen solcher Produkte in Präimplantationsmausembryonen verwendet wird (Abbildung 4). Die Fluoreszenzfärbung zeigt, dass sich die Genprodukte an der Plasmamembran der Zellen dieser Embryonen befinden. In diesem Fall sind die Instanzen der Genprodukte die Moleküle, die von den fluoreszierenden Antikörpern gebunden werden, und die Instanz der zellulären Komponente ist die Plasmamembran, die unter dem Mikroskop zu sehen ist. Ein Kurator hat dementsprechend die Ergebnisse dieses Experiments verwendet, um das ATP1A1-Genprodukt der GO-Zellkomponente Plasmamembran zuzuordnen (Abb. 1). Wie bei den molekularen Funktionen und den biologischen Prozessen gibt es auch zwischen der molekularen Funktion und der zellulären Komponente eine Beziehung. Wenn ein Molekül eines Genprodukts in einer Instanz einer bestimmten zellulären Komponente gefunden wird, dann hat dieses Genprodukt das Potenzial, seine Funktion auch in dieser zellulären Komponente auszuführen, so die einfache Hypothese. Wenn die Ausführung der Funktion in der Komponente nachgewiesen wird, können wir eine Verallgemeinerung in Bezug auf den Typ der molekularen Funktion und den Typ der zellulären Komponente vornehmen. Auf der Grundlage der gesammelten experimentellen Daten gehen wir davon aus, dass genügend Instanzen des Genprodukts ihre Funktionen in irgendeiner Instanz des zellulären Komponententyps ausführen werden und dass genügend Moleküle ihre Funktion so ausführen werden, dass diese Ausführungen biologisch relevant werden. Wie bei der molekularen Funktion und dem biologischen Prozess sind die experimentellen Beweise für die molekulare Funktion und die Zellkomponenten-Annotationen oft trennbar. Aus praktischer Sicht werden diese Ontologien daher ebenfalls getrennt entwickelt.