Het curatorperspectief
Een GO-annotatie vertegenwoordigt een verband tussen een genproducttype en een moleculaire functie, biologisch proces, of cellulair componenttype (een verband, met andere woorden, tussen het genproduct en wat dat product kan doen, tot welke biologische processen het bijdraagt, en waar in de cel het in staat is te functioneren in het natuurlijke leven van een organisme). Formeel bestaat een GO-annotatie uit een rij van 15 kolommen. In het kader van deze discussie zijn er 4 primaire velden: i) de publieke database-ID voor het gen of genproduct dat geannoteerd wordt; ii) de GO:ID voor de ontologieterm die geassocieerd wordt met het genproduct; iii) een bewijscode, en iv) de referentie/citatie voor de bron van de informatie die de specifieke annotatie ondersteunt (figuur 1). Curatoren van het GOC zijn overeengekomen standaardpraktijken te gebruiken bij het annoteren van genproducten; deze praktijken worden afgedwongen door middel van e-mailuitwisselingen, kwaliteitscontrolerapporten, persoonlijke vergaderingen en regelmatige conferentiegesprekken.
Aanvullende details over deze praktijken en over de annotatiestructuur en de door GO gedefinieerde annotatieprocessen zijn beschikbaar op de GO-website . Kort gezegd verloopt het annotatieproces in een aantal stappen. Eerst worden specifieke experimenten, gedocumenteerd in de biomedische literatuur, geïdentificeerd als relevant voor de verantwoordelijkheden van een bepaalde curator in het curatieproces. Ten tweede past de curator expertkennis toe op de documentatie van de resultaten van elk geselecteerd experiment. Dit proces houdt in dat bepaald wordt welke genproducten bestudeerd worden in het experiment, de aard van het experiment zelf, en van de moleculaire functies, biologische processen en cellulaire componenten waarvan het experiment aangeeft dat ze gecorreleerd zijn met het genproduct. Vervolgens creëert de curator een annotatie die de juiste relaties tussen de corresponderende ontologietypen vastlegt.
Ten slotte worden kwaliteitscontroleprocessen voor de annotatie toegepast om ervoor te zorgen dat de annotatie een correcte formele structuur heeft, om de annotatieconsistentie tussen curatoren en curatorengroepen te evalueren, en om de kennis die uit de annotatieactiviteit naar voren komt te oogsten voor de bijdragen die deze kan leveren aan de verfijning en uitbreiding van de GO zelf, en in toenemende mate ook aan andere ontologieën.
Stap 1: Identificatie van relevante experimentele gegevens: Het belangrijkste doel van de GO-annotatie is genoomspecifieke annotaties te maken die worden ondersteund door bewijsmateriaal dat is verkregen uit experimenten die zijn uitgevoerd in het organisme dat wordt geannoteerd. Veel annotaties worden echter afgeleid uit experimenten die in andere organismen zijn uitgevoerd, of ze worden helemaal niet afgeleid uit experimenten maar eerder uit kennis over sequentiekenmerken voor het gen in kwestie. Dergelijke informatie wordt ook in de GO-annotaties opgenomen door middel van overeenkomstige bewijscodes. Het is dus belangrijk voor de gebruiker van dergelijke annotaties om te begrijpen wat deze codes betekenen, hetzij dat een annotatie gebaseerd is op experimenteel bewijsmateriaal dat de bewering ondersteunt, hetzij dat een annotatie een voorspelling is op basis van structurele gelijkenis. Het verschil tussen experimenteel geverifieerde en computationeel afgeleide GO-annotaties kan in het annotatiebestand worden aangegeven. Deze complexiteit kan, indien de gebruiker er geen rekening mee houdt, de gegevensanalyses in de war sturen en het doel van het genereren van hypothesen op basis van GO-annotatiesets ondermijnen. Met een goed begrip van de soorten bewijs die ten grondslag liggen aan een bepaalde GO-annotatie en van de manier waarop die annotatie de echte wereld moet weergeven, kan de gebruiker op intelligente wijze annotatiebestanden filteren en die annotatiesets ophalen die de soorten experimenten en voorspellingen weergeven die maximaal relevant zijn.
Stap 2: Identificatie van de juiste ontologie-annotatieterm: De beslissing over welke GO-term in een annotatie moet worden gebruikt, hangt van verschillende factoren af. Het experiment zelf zal enige limiet brengen op de resolutie van wat kan worden begrepen uit de resultaten ervan. Bijvoorbeeld, celfractionering kan moleculen van een eiwit naar de kern van een cel lokaliseren, maar immunolokalisatie-experimenten kunnen moleculen van hetzelfde type eiwit naar de nucleolus van een cel lokaliseren. Als gevolg daarvan kan hetzelfde gen annotaties hebben bij verschillende termen in dezelfde ontologie omdat annotaties gebaseerd zijn op verschillende experimenten. Er worden inspanningen geleverd om annotatieconsistentie te verzekeren door regelmatige annotatieconsistentiecontroles. Wanneer inconsistenties worden vastgesteld, onderneemt het GOC stappen om ze op te lossen door samen te werken met de betrokken curatoren en waar nodig met domeinspecialisten. De beperkingen van experimentele methoden kunnen ertoe leiden dat curatoren hun eigen wetenschappelijke expertise en achtergrondkennis gebruiken bij het selecteren van een term. Het is belangrijk voor ogen te houden dat de keuze van een GO-term soms tot stand komt door gevolgtrekkingen van de annotator op basis van zijn of haar voorkennis. Een voorbeeld hiervan is het geval waarin een mutatie in een huishoudgen een defect veroorzaakt in een zeer breed proces zoals morfogenese van ledematen. Een curator die achtergrondkennis heeft over de functie van dit gen als betrokken bij basiscelfysiologie kan er zeker van zijn dat het defect in morfogenese een nevenproduct is van ongezonde cellen, en dat het genproduct niet betrokken is bij morfogenese op zich. De taak om vast te stellen welke subprocessen deel uitmaken van een bepaald proces en welke erbuiten vallen, is niet alleen een uitdaging voor ontologie-ontwikkelaars en curatoren, maar ook voor laboratoriumbiologen. Eén methode om dit probleem aan te pakken is elk proces te definiëren met een discreet begin en einde. GO-ontologie-ontwikkelaars gebruiken deze methode waar mogelijk bij het definiëren van procestypes. Dit stelt annotatoren in staat de kennis op basis van het gedefinieerde GO-type zo goed mogelijk vast te leggen. Dit GOC heeft nu een beleid aangenomen, dat al wordt gerealiseerd door de MGI-groep, om annotaties te maken die “contextueel” zijn. Dit betekent dat termen uit andere ontologieën, zoals het celtype (CL) (6) en andere OBO Foundry ontologieën (7), en uit het anatomisch woordenboek van de muis (8) in samenhang met GO-termen in de annotaties worden gebruikt. Als gevolg hiervan kan de annotatie de biologische werkelijkheid die moet worden vastgelegd, nauwkeuriger beschrijven.
Moleculaire functie-annotatie
In de eenvoudigste biologische situatie worden moleculen van een bepaald type geassocieerd met een enkel moleculair functietype. Een specifiek molecuul m is een instantie van een molecuultype M (bijvoorbeeld weergegeven in de UniProt-database), en zijn neiging om zich op een bepaalde manier te gedragen is een instantie van het molecuulfunctietype F (weergegeven door een overeenkomstige GO-term). Zo heeft een molecuul van het genproducttype Adh1, alcoholdehydrogenase 1 (klasse I), als functie een geval van het moleculaire functietype alcoholdehydrogenaseactiviteit. Dit betekent dat een dergelijk molecuul het potentieel heeft om deze functie in een bepaalde context uit te voeren. De term “activiteit” wordt in deze betekenis gebruikt zoals in een biochemische context; en kan beter worden gelezen als: “potentiële activiteit”. Merk op dat, hoewel dezelfde string, “alcoholdehydrogenase”, zowel in de gennaam als in de moleculaire functie wordt gebruikt, de string zelf naar verschillende entiteiten verwijst: in de eerste naar het type molecuul; in de tweede naar het type functie dat dat molecuul geneigd is uit te voeren. Deze dubbelzinnigheid is geworteld in de tendens om moleculen te benoemen op basis van de functies die zij uitvoeren, en het is belangrijk dit onderscheid te begrijpen omdat de naam van een molecule en de moleculaire functie waaraan de molecule wordt toegeschreven niet noodzakelijk overeenstemmen, bijvoorbeeld omdat de molecule meerdere functies kan uitvoeren.
Als we zeggen dat instanties van een bepaald genproducttype de potentie hebben om een bepaalde functie uit te voeren, betekent dit niet dat elke instantie van dit type deze functie ook werkelijk zal uitvoeren. Zo worden moleculen van het muizengenproducttype Zp2 aangetroffen in de oöcyt en hebben ze de neiging om moleculen van het genproducttype Acr te binden tijdens de bevruchting. Als een eicel echter nooit bevrucht wordt, bestaan de moleculen nog steeds en hebben zij nog steeds de neiging om de bindingsfunctie uit te voeren, maar de functie wordt nooit uitgevoerd.
Het experimentele bewijs dat gebruikt wordt om te testen of een bepaald moleculair functietype F bestaat, komt in de vorm van een “assay” voor de uitvoering van dat functietype in moleculen van een specifiek type M. Als in een dergelijke assay gevallen van F worden geïdentificeerd, rechtvaardigt dit een overeenkomstige annotatie van de moleculaire functie die een verband tussen M en F bevestigt. Als voorbeeld toont figuur 2 de resultaten van een assay voor de moleculaire functie retinol dehydrogenase activiteit uit een studie van Zhang et al. (In dit hele artikel zullen we typen cursief weergeven.) De moleculaire functie van het type retinol dehydrogenase activiteit wordt in de moleculaire functie-ontologie gedefinieerd door de reactie: retinol + NAD+ → retinal + NADH + H+. De aan deze term geannoteerde genproductmoleculen hebben het potentieel om deze katalytische activiteit uit te voeren. In dit experiment werd een celeiwit-extract geïncubeerd met twee substraten, all-trans-retinol (open cirkels) of 9-cis-retinol (gevulde cirkels), en de cofactor NAD+ gedurende 10 minuten en werd de hoeveelheid gegenereerd retinal gemeten. De grafiek toont de snelheid van de accumulatie van het product (retinal) in verhouding tot de concentratie van het gebruikte substraat (retinoïde). Uit de resultaten blijkt dat de door het GO-molecuulfunctietype retinoldehydrogenaseactiviteit gedefinieerde reactie inderdaad is geïnstantieerd – de uitvoering van deze functie heeft plaatsgevonden. De waargenomen voorvallen van de omzetting van retinol in retinal zijn het bewijs voor het bestaan van instanties van dit moleculaire functietype. In dit experiment worden de instanties van het functietype geïdentificeerd door waarneming van feitelijke uitvoeringen. Wij stellen dat sommige moleculen in dit extract moleculaire functies van het type retinoldehydrogenase-activiteit hebben, omdat het aantal uitvoeringen van gevallen van dit type direct is gemeten.
Biologische procesannotatie
Een moleculaire functie-instantie is het blijvende vermogen van een genproductinstantie om op een bepaalde manier te handelen. Een biologische procesinstantie is de uitvoering van een of meer van dergelijke moleculaire functie-instanties die samenwerken om een bepaald biologisch doel te bereiken. Een biologische procesinstantie is op het cellulaire of organismale niveau van granulariteit wat de uitvoering van een functie is op het niveau van het molecuul. Er bestaat een relatie tussen moleculaire functies en biologische processen. Op dit moment wordt deze relatie niet expliciet weergegeven in GO. Vanuit een genannotatieperspectief zijn wij geïnteresseerd om verder te gaan dan de instantie-instantie-relaties op cel- of organismeniveau, en om het vermogen te verwerven om type-type-relaties af te leiden die genproducttypes op het moleculaire granulariteitsniveau koppelen aan procestypes op cel- of organismeniveau. Wij zijn geïnteresseerd in het feit dat moleculen van een bepaald genproducttype geassocieerd kunnen worden met instanties van een moleculair functietype (bekend of onbekend) waarvan de uitvoering bijdraagt tot het optreden van een biologisch proces van een bepaald type. Inzichten over dergelijke type-type relaties kunnen worden gemaakt omdat experimenten zijn ontworpen om te testen wat er gebeurt wanneer aan gespecificeerde biologische voorwaarden wordt voldaan in typische omstandigheden – omstandigheden waarin, als gevolg van de inspanningen van de experimentator, storende gebeurtenissen niet interfereren. Experimenten zijn zo opgezet dat zij reproduceerbaar en voorspellend zijn, dat zij de gevallen beschrijven die men zou verwachten te vinden in biologische systemen die aan de omschreven voorwaarden voldoen. Als toekomstige experimenten aantonen dat voorgaande experimenten niet de bedoelde typische situatie beschreven, dan worden de conclusies van de voorgaande experimenten in twijfel getrokken en kunnen ze opnieuw worden geanalyseerd en geherinterpreteerd, of zelfs geheel worden verworpen, en de bijbehorende annotaties moeten dan dienovereenkomstig worden aangepast.
Anotaties op deze manier wijzen soms op fouten in de type-type relaties die in de ontologie worden beschreven. Een voorbeeld hiervan is de recente verwijdering van het type seretonine secretie als is_een kind van neurotransmitter secretie uit de GO Biological Process ontologie. Deze wijziging is doorgevoerd naar aanleiding van een annotatie uit een artikel waaruit blijkt dat serotonine kan worden afgescheiden door cellen van het immuunsysteem waar het niet als neurotransmitter fungeert.
Associaties tussen genproducten en biologische processen kunnen ook experimenteel worden gedetecteerd. Als gevallen van biologisch procestype P worden gedetecteerd, hetzij door directe observatie hetzij door experimentele assay, als zijnde geassocieerd met gevallen van een bepaald genproducttype M, dan rechtvaardigt dit de bewering van dat soort associatie tussen M en P die een biologische procesannotatie wordt genoemd.
Voor die soorten organismen waar de instrumenten van genetische studie met succes kunnen worden toegepast, wordt de associatie van genproducttypes met biologische procestypes gewoonlijk bereikt door het bestuderen van de verstoringen van biologische processen na genetische mutatie. Curatoren gebruiken de IMP-bewijscode voor deze annotaties. Figuur 3 toont een voorbeeld van een mutatie-analyse door Washington-Smoak et al. over de effecten van een mutatie van het Shh-gen op de ontwikkeling van het hart van de muis. Het linkerpaneel toont een afbeelding van een hart met normale kopieën van het gen (WT) op 16,5 dagen van de embryogenese; het rechterpaneel toont een hart met defecte kopieën van het gen op 16,5 dagen van de embryogenese. De figuur illustreert duidelijk dat de ontwikkeling van de uitvloeiingskanalen van het hart defect is in het embryo met het defecte gen. De GO Biological Process ontologie definieert het type hartontwikkeling als: ‘het proces waarvan het specifieke resultaat de progressie van het hart in de tijd is, van de vorming tot de volwassen structuur. Het hart is een hol, gespierd orgaan, dat door ritmisch samentrekken de circulatie van het bloed in stand houdt.’
Op basis van de mutatiestudie waarover Washington-Smoak et al rapporteren, heeft een MGI-curator een annotatie gemaakt waarin een verband wordt gelegd tussen hartontwikkeling en het Shh-gen met behulp van de IMP-bewijscode (fig. 1). Deze annotatie berust op de identificatie in het normale dier van een molecuul van het product van het Shh gen met een moleculaire functie waarvan de uitvoering bijdraagt aan een optreden van het biologische proces hartontwikkeling. We weten dat het biologische proces hartontwikkeling bestaat omdat we het in het normale dier waarnemen. We weten dat een molecuul van SHH bijdraagt tot dit proces omdat, wanneer we alle gevallen van het genproduct van het Shh-gen in een dier wegnemen, het proces van hartontwikkeling verstoord is. De annotatie bevestigt dus dat een molecuul van het SHH-eiwit de potentie heeft om een moleculaire functie uit te voeren die bijdraagt aan een instantie van het type hartontwikkeling in de ontologie van biologische processen. We generaliseren ook dat de uitvoering van de moleculaire functie van een SHH-molecuul in een bepaalde muis op de een of andere manier zal bijdragen aan de ontwikkeling van het hart van die muis. De resultaten van elke fenotypische assay zijn echter beperkt tot de resolutie van het fenotype zelf. In het hierboven beschreven experiment hebben wij het biologische proces gevalideerd, maar kunnen wij geen directe conclusies trekken over de aard van de uitgevoerde functie. Het is om deze en andere praktische redenen dat de moleculaire functie en biologische proces ontologieën onafhankelijk van elkaar zijn ontwikkeld.
Notatie van cellulaire componenten
In verreweg de meeste gevallen worden annotaties die een verband leggen tussen genproducten en typen cellulaire componenten gemaakt op basis van een directe waarneming van een instantie van de cellulaire component onder een microscoop, zoals bijvoorbeeld in , waarin verslag wordt gedaan van een experiment waarin een antilichaam dat genproducten van het Atp1a1-gen herkent, wordt gebruikt om de locatie van instanties van dergelijke producten in preimplantatie-embryo’s van muizen te markeren (figuur 4). De fluorescente kleuring toont aan dat de genproducten zich bevinden op het plasmamembraan van de cellen van deze embryo’s. In dit geval zijn de instanties van de genproducten de moleculen die door de fluorescerende antilichamen zijn gebonden, en de instantie van de cellulaire component is het plasmamembraan dat onder de microscoop wordt waargenomen. Een curator heeft dienovereenkomstig de resultaten van dit experiment gebruikt om een annotatie te maken van het ATP1A1 genproduct bij de GO cellulaire component plasmamembraan (Fig. 1). Net als bij moleculaire functies en biologische processen, is er ook een relatie tussen moleculaire functie en cellulaire component. Het is eenvoudig om te veronderstellen dat, als een molecule van een genproduct wordt gevonden in een instantie van een bepaalde cellulaire component, dat genproduct het potentieel heeft om zijn functie ook in die cellulaire component uit te voeren. Als de uitvoering van de functie in de component wordt waargenomen, dan kunnen we een generalisatie maken betreffende het type moleculaire functie en het type cellulaire component. We nemen op grond van de verzamelde experimentele gegevens aan dat voldoende instanties van het genproduct hun functie zullen uitvoeren in een instantie van het cellulaire componenttype en dat voldoende moleculen hun functie op zodanige wijze zullen uitvoeren dat deze uitvoeringen biologisch relevant worden. Net als bij de moleculaire functie en het biologische proces zijn de experimentele bewijzen voor de moleculaire functie en de annotaties van de celcomponenten vaak scheidbaar. Daarom worden deze ontologieën, vanuit praktisch oogpunt, ook afzonderlijk ontwikkeld.