Kuratorns perspektiv
En GO-annotation representerar en länk mellan en typ av genprodukt och en molekylär funktion, en biologisk process eller en typ av cellkomponent (en länk, med andra ord, mellan genprodukten och vad den kan göra, vilka biologiska processer den bidrar till och var i cellen den kan fungera i en organisms naturliga liv). Formellt sett består en GO-annotation av en rad med 15 kolumner. I den här diskussionen finns det fyra primära fält: i) det offentliga databas-ID för den gen eller genprodukt som annoteras, ii) GO:ID för den ontologiterm som är associerad med genprodukten, iii) en beviskod och iv) referens/citat för källan till den information som stöder den särskilda annotationen (figur 1). Kuratorer från GOC har kommit överens om att använda standardrutiner när de annoterar genprodukter, rutiner som upprätthålls genom e-postutbyte, kvalitetskontrollrapporter, personliga möten och regelbundna konferenssamtal.
Den finns ytterligare information om dessa metoder och om annotationsstrukturen och GO-definierade annotationsprocesser på GO:s webbplats . Kortfattat kan man säga att annoteringen sker i en rad steg. Först identifieras specifika experiment, dokumenterade i den biomedicinska litteraturen, som är relevanta för en viss kurators ansvarsområden. För det andra använder kuratorn expertkunskap för att dokumentera resultaten av varje utvalt experiment. Denna process innebär att man fastställer vilka genprodukter som studeras i experimentet, vilken typ av experiment det är och vilka molekylära funktioner, biologiska processer och cellkomponenter som enligt experimentet är korrelerade med genprodukten. Kuratorn skapar sedan en annotation som fångar de lämpliga relationerna mellan motsvarande ontologityper.
Slutligt används processer för kvalitetskontroll av annotationer för att se till att annotationen har en korrekt formell struktur, för att utvärdera annotationernas samstämmighet bland kuratorer och kuratorsgrupper och för att skörda den kunskap som uppstår vid annoteringen för att bidra till att förädla och utvidga GO och i allt högre grad även andra ontologier.
Steg 1: Identifiering av relevanta experimentella data: Huvudmålet med GO-annoteringsarbetet är att skapa genomspecifika annotationer som stöds av bevis som erhållits i experiment som utförts i den organism som annoteras. Många annotationer härleds dock från experiment som utförts i andra organismer, eller så härleds de inte alls från experiment utan snarare från kunskap om sekvensegenskaper för genen i fråga. Även sådan information fångas upp i GO-annotationerna med hjälp av motsvarande beviskoder. Det är därför viktigt för användaren av sådana annotationer att förstå vad dessa koder avspeglar, antingen att en annotation är baserad på experimentella bevis som stöder påståendet eller att en annotation är en förutsägelse baserad på strukturell likhet. Skillnaden mellan experimentellt verifierade och beräkningsmässigt härledda GO-annotationer kan identifieras i annotationsfilen. Om användaren inte tar hänsyn till denna komplexitet kan den förvirra dataanalyser och undergräva målet att generera hypoteser på grundval av GO-annotationer. Med en förståelse för de typer av bevis som ligger till grund för en given GO-annotation och för hur denna annotation är tänkt att representera den verkliga världen, kan användaren på ett intelligent sätt filtrera annotationsfiler och hämta de annotationsuppsättningar som återspeglar de typer av experiment och förutsägelser som är av maximal relevans.
Steg 2: Identifiering av lämplig ontologi-annotationsterm: Beslutet om vilken GO-term som ska användas i en annotering beror på flera faktorer. Försöket i sig kommer att medföra en viss gräns för upplösningen av vad som kan förstås av dess resultat. Till exempel kan cellfraktionering lokalisera molekyler av ett protein till cellens kärna, men immunolokaliseringsexperiment kan lokalisera molekyler av samma typ av protein till cellens kärna. Som ett resultat av detta kan samma gen ha annoteringar till olika termer i samma ontologi eftersom annoteringarna baseras på olika experiment. Ansträngningar görs för att säkerställa att annotationerna är konsekventa genom regelbundna kontroller av annotationernas konsistens. När inkonsekvenser identifieras vidtar GOC åtgärder för att lösa dem genom att samarbeta med de berörda kuratorerna och vid behov med domänspecialister. Begränsningarna i experimentella metoder kan leda till att kuratorer använder sin egen vetenskapliga expertis och bakgrundskunskap när de väljer en term. Det är viktigt att komma ihåg att valet av en GO-term ibland görs genom att annotatorn drar slutsatser utifrån sina tidigare kunskaper. Ett exempel är att en mutation i en hushållsgen orsakar en defekt i en mycket omfattande process, t.ex. morfogenes av lemmar. En kurator som har bakgrundskunskap om den här genens funktion som involverad i grundläggande cellfysiologi kan vara säker på att defekten i morfogenesen är en biprodukt av ohälsosamma celler och att genprodukten inte är involverad i morfogenesen som sådan. Uppgiften att fastställa vilka delprocesser som är delar av och vilka som ligger utanför en viss process är en utmaning inte bara för ontologiutvecklare och kuratorer utan även för laboratoriebiologer. En metod för att lösa detta problem är att definiera varje process med en diskret början och ett diskret slut. GO-ontologiutvecklare använder denna metod när det är möjligt när de definierar processtyper. Detta gör det möjligt för annotatorer att på bästa sätt fånga kunskapen utifrån den definierade GO-typen. Denna GOC har nu antagit en policy, som redan förverkligats av MGI-gruppen, för att skapa annotationer som är ”kontextuella”. Detta innebär att termer från andra ontologier, t.ex. celltyp (CL) (6) och andra OBO Foundry-ontologier (7) samt från musens anatomiska ordbok (8), används tillsammans med GO-termer i annotationerna. Som ett resultat av detta kan annoteringen mer exakt beskriva den biologiska verklighet som måste fångas.
Molekylär funktionsannotation
I den enklaste biologiska situationen förknippas molekyler av en viss typ med en enda molekylär funktionstyp. En specifik molekyl m är en instans av en molekyltyp M (representerad till exempel i UniProt-databasen), och dess benägenhet att agera på ett visst sätt är en instans av den molekylära funktionstypen F (representerad av en motsvarande GO-term). En molekyl av genprodukttypen Adh1, alkoholdehydrogenas 1 (klass I), har alltså som funktion en instans av den molekylära funktionstypen alkoholdehydrogenasaktivitet. Detta innebär att en sådan molekyl har potential att utföra denna funktion i ett givet sammanhang. Termen ”aktivitet” i denna bemärkelse är avsedd att användas i ett biokemiskt sammanhang och kan lämpligen tolkas som ”potentiell aktivitet”. Observera att även om samma sträng, ”alkoholdehydrogenas”, används både i gennamnet och i den molekylära funktionen, hänvisar strängen i sig själv till olika enheter: i det första fallet till molekyltypen, i det andra fallet till den typ av funktion som molekylen har möjlighet att utföra. Denna tvetydighet har sin grund i tendensen att namnge molekyler utifrån de funktioner de utför, och det är viktigt att förstå denna distinktion eftersom namnet på en molekyl och den molekylära funktion som molekylen tillskrivs inte nödvändigtvis stämmer överens, t.ex. för att molekylen kan utföra flera funktioner.
Om vi säger att instanser av en viss typ av genprodukt har en potential att utföra en viss funktion, betyder det inte att varje instans av denna typ i själva verket kommer att utföra denna funktion. Sålunda finns molekyler av genprodukttypen Zp2 från musen i oocyten och har en benägenhet att binda molekyler av genprodukttypen Acr under befruktningen . Om en äggcell aldrig befruktas finns molekylerna fortfarande kvar och de har fortfarande benägenhet att utföra bindningsfunktionen, men funktionen utförs aldrig.
De experimentella bevis som används för att testa om en viss molekylär funktionstyp F existerar kommer i form av en ”analys” för utförandet av den funktionstypen i molekyler av en viss specifik typ M. Om fall av F identifieras i en sådan analys motiverar detta en motsvarande molekylärfunktionsannotation som hävdar ett samband mellan M och F. Som exempel visar figur 2 resultaten av en analys av den molekylära funktionen retinoldehydrogenasaktivitet från en studie av Zhang et al. (I hela denna uppsats kommer vi att beteckna typer med kursiv stil.) Den molekylära funktionstypen retinoldehydrogenasaktivitet definieras i molekylärfunktionsontologin genom reaktionen: retinol + NAD+ → retinal + NADH + H+. Instanser av genproduktmolekyler som annoterats till denna term har potential att utföra denna katalytiska aktivitet. I detta experiment inkuberades ett cellproteinextrakt med två substrat, all-trans-retinol (öppna cirklar) eller 9-cis-retinol (fyllda cirklar), och kofaktorn NAD+ i 10 minuter och mängden retinal som genererades mättes. Grafen visar hur snabbt produkten (retinal) ackumuleras i förhållande till koncentrationen av det använda substratet (retinoid). Resultaten visar att den reaktion som definieras av GO:s molekylära funktionstyp retinoldehydrogenasaktivitet verkligen har instansierats – utförandet av denna funktion har ägt rum. De observerade förekomsterna av retinol som omvandlas till retinal är bevis för att det finns instanser av denna molekylära funktionstyp. I detta experiment identifieras funktionstypens instanser genom observation av faktiska utföranden. Vi hävdar att vissa molekyler i detta extrakt har molekylära funktioner av typen retinoldeshydrogenasaktivitet eftersom förekomster av utföranden av instanser av denna typ har mätts direkt.
Biologisk processannotation
En molekylär funktionsinstans är den bestående potentialen hos en genproduktinstans att agera på ett visst sätt. En biologisk processinstans är utförandet av en eller flera sådana molekylära funktionsinstanser som arbetar tillsammans för att uppnå ett visst biologiskt mål. En biologisk processinstans är på den cellulära eller organismiska granularitetsnivån vad utförandet av en funktion är på molekylnivå. Det finns ett samband mellan molekylära funktioner och biologiska processer. För närvarande finns detta förhållande inte uttryckligen representerat i GO. Ur ett genannoteringsperspektiv är vi intresserade av att gå längre än instans-instans-relationerna på cell- eller organismnivå och att få möjlighet att härleda typ-typ-relationer som kopplar genprodukttyper på molekylär nivå till processtyper på cell- eller organismnivå. Vi är intresserade av det faktum att molekyler av en given genprodukttyp kan associeras med instanser av en molekylär funktionstyp (känd eller okänd) vars utförande bidrar till förekomsten av en biologisk process av en given typ. Slutsatser om sådana typ-typ-relationer kan göras eftersom experiment är utformade för att testa vad som händer när specificerade biologiska villkor är uppfyllda under typiska omständigheter – omständigheter där, som ett resultat av försöksledarens ansträngningar, störande händelser inte störs. Experimenten är utformade för att vara reproducerbara och förutsägbara och beskriva de fall som man kan förvänta sig att finna i biologiska system som uppfyller de definierade villkoren. Om framtida experiment visar att föregående experiment inte beskrev den avsedda typiska situationen, ifrågasätts slutsatserna från de föregående experimenten och kan omanalyseras och omtolkas, eller till och med förkastas helt och hållet, och motsvarande anteckningar måste då ändras i enlighet med detta.
Anteckningar på detta sätt pekar ibland på fel i de typ-typ-relationer som beskrivs i ontologin. Ett exempel är att man nyligen har tagit bort typen seretoninsekretion som is_a child of neurotransmitter secretion från GO Biological Process ontology. Denna ändring gjordes till följd av en annotering från en artikel som visar att seretonin kan utsöndras av celler i immunsystemet där det inte fungerar som en neurotransmittor.
Associationer mellan genprodukter och biologiska processer kan också upptäckas experimentellt. När förekomster av den biologiska processtypen P upptäcks, antingen genom direkt observation eller genom experimentell analys, som förknippade med förekomster av en viss genprodukttyp M, motiverar detta påståendet om den typ av association mellan M och P som kallas för en annotation av en biologisk process.
För de arter av organismer där verktygen för genetiska studier kan tillämpas med framgång, uppnås associationen mellan genprodukttyper och biologiska processtyper vanligen genom att man studerar de störningar som sker i de biologiska processerna till följd av genetiska mutationer. Kuratorerna använder IMP-beviskoden för dessa kommentarer. Figur 3 visar ett exempel på en mutationsanalys utförd av Washington-Smoak et al om effekterna av en mutation i Shh-genen på mushjärtans utveckling . Den vänstra panelen visar en bild av ett hjärta med normala kopior av genen (WT) vid 16,5 dagars embryogenes; den högra panelen visar ett hjärta med defekta kopior av genen vid 16,5 dagars embryogenes. Figuren visar tydligt att utvecklingen av hjärtats utflödesvägar är defekt hos embryot med den defekta genen. I ontologin GO Biological Process ontology definieras hjärtutveckling som: ”Den process vars specifika resultat är hjärtats utveckling över tiden, från dess bildning till den mogna strukturen. Hjärtat är ett ihåligt, muskulärt organ som genom rytmiska sammandragningar håller igång blodcirkulationen.”
Baserat på den mutationsstudie som rapporterades i Washington-Smoak et al har en MGI-kurator gjort en annotering som kopplar samman hjärtutveckling och Shh-genen med hjälp av IMP-beviskoden (Fig. 1). Annotationen bygger på att man i det normala djuret identifierar en molekyl av Shh-genens produkt med en molekylär funktion vars utförande bidrar till att den biologiska processen hjärtutveckling uppstår. Vi vet att den biologiska processen hjärtutveckling existerar eftersom vi observerar den hos det normala djuret. Vi vet att en SHH-molekyl bidrar till denna process eftersom när vi tar bort alla förekomster av genprodukten av Shh-genen i ett djur störs hjärtutvecklingsprocessen. Annotationen bekräftar således att en molekyl av SHH-protein har potential att utföra en molekylär funktion som bidrar till en instans av typen hjärtutveckling i ontologin för biologiska processer. Vi generaliserar också att utförandet av den molekylära funktionen hos en SHH-molekyl i en viss mus på något sätt kommer att bidra till utvecklingen av den musens hjärta. Resultaten av alla fenotypiska tester är dock begränsade till upplösningen av själva fenotypen. I det experiment som beskrivs ovan har vi validerat den biologiska processen, men vi kan inte dra några direkta slutsatser om arten av den utförda funktionen. Det är av detta och andra praktiska skäl som ontologierna för molekylära funktioner och biologiska processer utvecklades oberoende av varandra.
Annotering av cellulära komponenter
I de allra flesta fall görs annotationer som kopplar ihop genprodukt med typer av cellulära komponenter på grundval av en direkt observation av en instans av den cellulära komponenten i ett mikroskop, som t.ex. i , som rapporterar ett experiment där en antikropp som känner igen genprodukter av Atp1a1-genen används för att märka lokaliseringen av instanser av sådana produkter i embryon av preimplanterade möss (figur 4). Den fluorescerande färgningen visar att genprodukterna finns vid plasmamembranet i cellerna i dessa embryon. I detta fall är genprodukterna de molekyler som binds av de fluorescerande antikropparna och cellkomponenten är plasmamembranet som observeras i mikroskopet. En kurator har därför använt resultaten av detta experiment för att göra en annotering av ATP1A1-genprodukten till GO cellulär komponent plasmamembran (fig. 1). Precis som med molekylära funktioner och biologiska processer finns det också ett samband mellan molekylär funktion och cellulär komponent. Det är enkelt att anta att om en molekyl av en genprodukt finns i en instans av en viss cellulär komponent, så har den genprodukten potential att utföra sin funktion även i den cellulära komponenten. Om utförandet av funktionen upptäcks i komponenten kan vi göra en generalisering om typen av molekylär funktion och typen av cellulär komponent. Vi antar, på grundval av de ackumulerade experimentella uppgifterna, att tillräckligt många instanser av genprodukten kommer att utföra sina funktioner i någon instans av den cellulära komponenttypen och att tillräckligt många molekyler kommer att utföra sin funktion på ett sådant sätt att dessa utföranden blir biologiskt relevanta. Liksom när det gäller molekylär funktion och biologisk process är experimentella bevis för molekylär funktion och annoteringar av cellulära komponenter ofta åtskiljbara. Ur praktisk synvinkel utvecklas därför även dessa ontologier separat.