Gene Ontology annotationer:

Kuratorperspektivet

En GO-annotation repræsenterer en forbindelse mellem en genprodukttype og en molekylær funktion, en biologisk proces eller en cellekomponenttype (med andre ord en forbindelse mellem genproduktet og hvad dette produkt er i stand til at gøre, hvilke biologiske processer det bidrager til, og hvor i cellen det er i stand til at fungere i en organismes naturlige liv). Formelt set består en GO-annotation af en række med 15 kolonner. I forbindelse med denne diskussion er der fire primære felter: i) det offentlige database-ID for det gen eller genprodukt, der annoteres, ii) GO:ID for det ontologiudtryk, der er knyttet til genproduktet, iii) en beviskode og iv) en reference/citation for kilden til de oplysninger, der understøtter den pågældende annotation (figur 1). Kuratorer fra GOC er blevet enige om at anvende standardpraksis ved annotering af genprodukter, praksis håndhæves gennem e-mailudveksling, kvalitetskontrolrapporter, personlige møder og regelmæssige konferenceopkald.

Figur 1
figur1

Anatomi af en annotation. Annotationer leveres til Gene Ontology Consortium som tab-delimiterede filer med 15 felter. Fire felter angiver det genprodukt, der annoteres, de ontologitermer, der anvendes i associationen, den type dokumentation, der understøtter annotationen, og den reference, hvor den oprindelige dokumentation blev præsenteret. De tre annotationer, der er beskrevet i dette manuskript, er vist.

Der findes yderligere oplysninger om disse fremgangsmåder og om annotationsstrukturen og GO-definerede annotationsprocesser på GO’s websted . Kort fortalt udfolder annotationsprocessen sig i en række trin. Først identificeres specifikke eksperimenter, der er dokumenteret i den biomedicinske litteratur, som relevante for en given kurators ansvarsområde i forbindelse med kurateringsprocessen. For det andet anvender kuratoren ekspertviden på dokumentationen af resultaterne af hvert udvalgt eksperiment. Denne proces indebærer, at det skal bestemmes, hvilke genprodukter der undersøges i forsøget, selve forsøgets art og de molekylære funktioner, biologiske processer og cellulære komponenter, der ifølge forsøget er korreleret med genproduktet. Kuratoren opretter derefter en annotation, som indfanger de relevante relationer mellem de tilsvarende ontologityper.

Endeligt anvendes annotationskvalitetskontrolprocesser for at sikre, at annotationen har en korrekt formel struktur, for at vurdere annotationens konsistens blandt kuratorer og kuratorgrupper og for at høste den viden, der fremkommer ved annotationsaktiviteten, med henblik på de bidrag, den kan yde til forfining og udvidelse af selve GO og i stigende grad også til andre ontologier.

Strin 1: Identifikation af relevante eksperimentelle data: Hovedformålet med GO-annotationsarbejdet er at skabe genomspecifikke annotationer, der understøttes af beviser, der er opnået i eksperimenter udført i den organisme, der annoteres. Mange annotationer er imidlertid udledt af eksperimenter udført i andre organismer, eller de er slet ikke udledt af eksperimenter, men snarere af viden om sekvenstræk for det pågældende gen. Sådanne oplysninger er også indfanget i GO-annotationerne ved hjælp af de tilsvarende beviskoder. Det er derfor vigtigt for brugeren af sådanne annotationer at forstå, hvad disse koder afspejler, enten at en annotation er baseret på eksperimentelle beviser, der understøtter påstanden, eller at en annotation er en forudsigelse baseret på strukturel lighed. Forskellen mellem eksperimentelt verificerede og beregningsmæssigt afledte GO-annotationer kan identificeres i annotationsfilen. Denne kompleksitet kan, hvis brugeren ikke tager hensyn til den, forvirre dataanalyser og underminere målet om at opstille hypoteser på grundlag af GO-annotationssæt. Med en forståelse af de typer beviser, der ligger til grund for en given GO-annotation, og af hvordan denne annotation skal repræsentere den virkelige verden, kan brugeren på intelligent vis filtrere annotationsfiler og hente de annotationssæt, der afspejler de typer eksperimenter og forudsigelser, der er af størst mulig relevans.

Strin 2: Identifikation af den relevante ontologiannotationsudtryk: Beslutningen om, hvilken GO-term der skal anvendes i en annotation, afhænger af flere faktorer. Selve forsøget vil medføre en vis grænse for opløsningen af, hvad der kan forstås ud fra dets resultater. F.eks. kan cellefraktionering lokalisere molekyler af et protein til cellens kerne, men immunolokaliseringsforsøg kan lokalisere molekyler af den samme type protein til cellens kerne. Som følge heraf kan det samme gen have annotationer til forskellige termer i den samme ontologi, fordi annotationerne er baseret på forskellige eksperimenter. Der gøres en indsats for at sikre konsistens i annotationerne ved hjælp af regelmæssige kontroller af konsistensen af annotationerne. Når der konstateres uoverensstemmelser, tager GOC skridt til at løse dem ved at samarbejde med de involverede kuratorer og om nødvendigt med domænespecialister. Begrænsningerne i de eksperimentelle metoder kan få kuratorerne til at bruge deres egen videnskabelige ekspertise og baggrundsviden, når de vælger et begreb. Det er vigtigt at huske på, at valget af GO-termer undertiden sker ved at annotatoren udleder konklusioner på grundlag af sin tidligere viden. Et eksempel herpå er det tilfælde, hvor en mutation i et husholdningsgen forårsager en defekt i en meget omfattende proces som f.eks. morfogenese af lemmer. En kurator, der har baggrundsviden om dette gens funktion som værende involveret i grundlæggende cellefysiologi, kan være sikker på, at defekten i morfogenese er et biprodukt af usunde celler, og at genproduktet ikke er involveret i morfogenese i sig selv. Opgaven med at fastslå, hvilke delprocesser der er dele af og hvilke der ligger uden for en given proces, er en udfordring ikke kun for ontologiudviklere og kuratorer, men også for laboratoriebiologer. En metode til at løse dette problem er at definere hver proces med en diskret begyndelse og afslutning. GO-ontologiudviklere anvender denne metode så vidt muligt, når de definerer procestyper. Dette giver annotatorer mulighed for at indfange den viden, der er baseret på den definerede GO-type, bedst muligt. Denne GOC har nu vedtaget en politik, som allerede er ved at blive gennemført af MGI-gruppen, om at skabe annotationer, der er “kontekstuelle”. Det betyder, at termer fra andre ontologier såsom celletype (CL) (6) og andre OBO Foundry-ontologier (7) samt fra musens anatomiske ordbog (8) anvendes sammen med GO-termer i annotationerne. Som følge heraf kan annotationen beskrive den biologiske virkelighed, der skal indfanges, mere præcist.

Molekylær funktionsannotation

I den enkleste biologiske situation er molekyler af en given type forbundet med en enkelt molekylær funktionstype. Et specifikt molekyle m er et eksempel på en molekyltype M (repræsenteret f.eks. i UniProt-databasen), og dets tilbøjelighed til at virke på en bestemt måde er et eksempel på den molekylære funktionstype F (repræsenteret ved en tilsvarende GO-term). Et molekyle af genprodukttypen Adh1, alkoholdehydrogenase 1 (klasse I), har således som funktion et eksempel på den molekylære funktionstype alkoholdehydrogenaseaktivitet. Det betyder, at et sådant molekyle har potentiale til at udføre denne funktion i en given kontekst. Udtrykket “aktivitet” er i denne betydning ment som det anvendes i en biokemisk sammenhæng, og det er mere passende at læse det som “potentiel aktivitet”. Bemærk, at selv om den samme streng, “alkoholdehydrogenase”, anvendes både i gennavnet og i den molekylære funktion, henviser strengen i sig selv til forskellige enheder: i førstnævnte til molekyltypen og i sidstnævnte til den type funktion, som molekylet har tilbøjelighed til at udføre. Denne tvetydighed har rod i tendensen til at navngive molekyler på grundlag af de funktioner, de udfører, og det er vigtigt at forstå denne skelnen, da navnet på et molekyle og den molekylære funktion, som molekylet tilskrives, ikke nødvendigvis stemmer overens, f.eks. fordi molekylet kan udføre flere funktioner.

Hvis vi siger, at instanser af en given genprodukttype har potentiale til at udføre en given funktion, betyder det ikke, at alle instanser af denne type rent faktisk vil udføre denne funktion. Således findes molekyler af genprodukttypen Zp2 fra musen i oocytten og har tilbøjelighed til at binde molekyler af genprodukttypen Acr under befrugtningen . Hvis en oocyt imidlertid aldrig befrugtes, findes molekylerne stadig, og de har stadig tilbøjelighed til at udføre bindingsfunktionen, men funktionen udføres aldrig.

Den eksperimentelle dokumentation, der anvendes til at afprøve, om en given molekylær funktionstype F eksisterer, kommer i form af en “test” for udførelsen af denne funktionstype i molekyler af en bestemt type M. Hvis der identificeres forekomster af F i et sådant assay, berettiger det en tilsvarende molekylærfunktionsannotation, der hævder en sammenhæng mellem M og F. Som eksempel viser figur 2 resultaterne af et assay for den molekylære funktion retinoldehydrogenaseaktivitet fra en undersøgelse af Zhang et al. (I hele denne artikel vil vi betegne typer ved hjælp af kursiv.) Den molekylære funktionstype retinoldehydrogenaseaktivitet er defineret i molekylærfunktionsontologien ved reaktionen: retinol + NAD+ → retinal + NADH + H+. Instanser af genproduktmolekyler, der er annoteret til denne term, har potentiale til at udføre denne katalytiske aktivitet. I dette eksperiment blev et celleproteinekstrakt inkuberet med to substrater, all-trans-retinol (åbne cirkler) eller 9-cis-retinol (fyldte cirkler), og cofaktoren NAD+ i 10 minutter, og mængden af retinal, der blev dannet, blev målt. Grafen viser akkumuleringshastigheden af produktet (retinal) i forhold til den anvendte substratkoncentration (retinoid). Resultaterne viser, at den reaktion, der er defineret af den molekylære GO-funktionstype retinoldehydrogenaseaktivitet, faktisk er blevet instantieret – denne funktion er blevet udført. De observerede forekomster af retinol, der omdannes til retinal, er bevis for, at der findes forekomster af denne molekylære funktionstype. I dette forsøg identificeres instanserne af funktionstypen gennem observation af faktiske udførelser. Vi hævder, at nogle molekyler i dette ekstrakt har molekylære funktioner af typen retinoldehydrogenaseaktivitet, fordi forekomster af udførelser af forekomster af instanser af denne type er blevet direkte målt.

Figur 2
figur2

Molekylære funktionsannotationsdata. Denne graf er gengivet fra Zhang et al . Grafen viser koncentrationen af retinoid anvendt som substrat langs X-aksen og retinoldehydrogenaseaktiviteten langs Y-aksen. Åbne cirkler henviser til all-trans-retinol som substrat og lukkede cirkler henviser til 9-cis-retinol som substrat. Enzymprøverne blev taget fra et råekstrakt af celler, der var transficeret med et cDNA, der koder for Rdh1-genet.

Biologisk procesannotation

En molekylær funktionsinstans er det vedvarende potentiale for en genproduktinstans til at virke på en bestemt måde. En biologisk procesinstans er udførelsen af en eller flere sådanne molekylære funktionsinstanser, der arbejder sammen for at opnå et bestemt biologisk mål. En biologisk procesinstans er på det cellulære eller organismiske granularitetsniveau det, som udførelsen af en funktion er på molekylniveau. Der er en sammenhæng mellem molekylære funktioner og biologiske processer. På nuværende tidspunkt er dette forhold ikke eksplicit repræsenteret i GO. Ud fra et genannotationsmæssigt perspektiv er vi interesseret i at gå videre end instans-instans-relationerne på celle- eller organismeniveau og i at få mulighed for at udlede type-type-relationer, som forbinder genprodukttyper på molekylært granularitetsniveau med procestyper på celle- eller organismeniveau. Vi er interesseret i det forhold, at molekyler af en given genprodukttype kan være forbundet med forekomster af en molekylær funktionstype (kendt eller ukendt), hvis udførelse bidrager til forekomsten af en biologisk proces af en given type. Der kan drages slutninger om sådanne type-type-relationer, fordi eksperimenter er udformet til at afprøve, hvad der sker, når bestemte biologiske betingelser er opfyldt under typiske omstændigheder – omstændigheder, hvor forstyrrende begivenheder ikke forstyrrer som følge af eksperimentatorens indsats. Eksperimenterne er udformet med henblik på at være reproducerbare og forudsigelige, idet de beskriver de tilfælde, som man kan forvente at finde i biologiske systemer, der opfylder de definerede betingelser. Hvis fremtidige eksperimenter viser, at de foregående eksperimenter ikke beskrev den tilsigtede typiske situation, sættes der spørgsmålstegn ved konklusionerne fra de foregående eksperimenter, og de kan blive analyseret og fortolket på ny eller endog helt afvist, og de tilsvarende annotationer skal så ændres i overensstemmelse hermed.

Annotationer på denne måde peger undertiden på fejl i de type-type-relationer, der er beskrevet i ontologien. Et eksempel er den nylige fjernelse af typen seretonin sekretion som et is_a child af neurotransmitter sekretion fra GO Biological Process ontologien. Denne ændring blev foretaget som følge af en annotation fra en artikel, der viser, at seretonin kan udskilles af celler i immunsystemet, hvor det ikke virker som en neurotransmitter.

Sammenhænge mellem genprodukter og biologiske processer kan også påvises eksperimentelt. Når forekomster af den biologiske procestype P enten ved direkte observation eller ved eksperimentel undersøgelse påvises at være associeret med forekomster af en given genprodukttype M, berettiger dette til at hævde den form for association mellem M og P, som kaldes en biologisk procesannotation.

For de arter af organismer, hvor redskaberne til genetiske undersøgelser med held kan anvendes, opnås associeringen af genprodukttyper med biologiske procestyper normalt ved at studere forstyrrelserne af biologiske processer efter genetisk mutation. Kuratorer bruger IMP-beviskoden til disse annotationer. Figur 3 viser et eksempel på en mutationsanalyse udført af Washington-Smoak et al. om virkningerne af en mutation i Shh-genet på musens hjerteudvikling . Det venstre panel viser et billede af et hjerte med normale kopier af genet (WT) på 16,5 dage af embryogenesen; det højre panel viser et hjerte med defekte kopier af genet på 16,5 dage af embryogenesen. Figuren viser tydeligt, at udviklingen af hjertets udstrømningsveje er defekt hos embryonet med det defekte gen. GO Biological Process ontologien definerer hjertets udviklingstype som: “den proces, hvis specifikke resultat er hjertets udvikling over tid, fra dets dannelse til den modne struktur. Hjertet er et hult, muskuløst organ, som ved at trække sig rytmisk sammen holder blodets cirkulation i gang.”

Figur 3
figur3

Biologiske proces-annotationsdata. Denne figur er gengivet fra Washington Smoak et al . Figuren viser mikrografer af hjerter i 16,5dpc-musembryoner. Figuren til venstre viser et dyr med to funktionelle kopier af Shh-genet, og figuren til højre viser et dyr uden funktionelle kopier. Ao og Pa angiver henholdsvis aorta og pulmonalarterie. ? angiver en afvigende udstrømningsvej. Reprintet fra Developmental Biology, 283, Washington Smoak et al, Sonic hedgehog is required for cardiac outflow tract and neural crest development, 357-72, Copyright 2005, med tilladelse fra Elsevier.

Figur 4
figure4

Cellulær komponentannotation. Denne figur er gengivet fra MacPhee et al . Figuren viser mikrobilleder, der er resultatet af en immunofluorescenslokalisering af ATP1A1-proteinet. De belyste områder viser proteinets placering langs plasmamembranen. Reprintet fra Developmental Biology, 222, MacPhee et al, Differential involvement of Na(+),K(+)-ATPase isozymes in preimplantation development of the mouse, 486-498, Copyright 2000, med tilladelse fra Elsevier.

Baseret på den mutationsundersøgelse, der er rapporteret i Washington-Smoak et al, har en MGI-kurator lavet en annotation, der forbinder hjerteudvikling og Shh-genet ved hjælp af IMP-beviskoden (fig. 1). Denne annotation er baseret på identifikation i det normale dyr af et molekyle af Shh-genets produkt med en molekylær funktion, hvis udførelse bidrager til en forekomst af den biologiske proces hjerteudvikling. Vi ved, at den biologiske proces hjerteudvikling eksisterer, fordi vi observerer den i det normale dyr. Vi ved, at et SHH-molekyle bidrager til denne proces, for når vi fjerner alle forekomster af Shh-genets genprodukt i et dyr, forstyrres hjerteudviklingsprocessen. Annotationen bekræfter således, at et molekyle af SHH-protein har potentiale til at udføre en molekylær funktion, der bidrager til et eksempel på typen hjerteudvikling i ontologien for biologiske processer. Vi generaliserer også, at udførelsen af den molekylære funktion af et SHH-molekyle i en given mus på en eller anden måde vil bidrage til udviklingen af denne mus’ hjerte. Resultaterne af enhver fænotypisk undersøgelse er imidlertid begrænset til opløsningen af selve fænotypen. I det ovenfor beskrevne forsøg har vi valideret den biologiske proces, men vi kan ikke drage nogen direkte konklusioner om arten af den udførte funktion. Det er af denne og andre praktiske grunde, at ontologierne for molekylære funktioner og biologiske processer blev udviklet uafhængigt af hinanden.

Annotering af cellulære komponenter

I langt de fleste tilfælde foretages annotationer, der forbinder genproduktet med cellulære komponenttyper, på grundlag af en direkte observation af et eksempel på den cellulære komponent i et mikroskop, som f.eks. i , der rapporterer et forsøg, hvor et antistof, der genkender genprodukter af Atp1a1-genet, anvendes til at markere placeringen af forekomster af sådanne produkter i præimplantationsembryoner af mus (figur 4). Den fluorescerende farvning viser, at genprodukterne befinder sig ved plasmamembranen i cellerne i disse embryoner. I dette tilfælde er genprodukterne de molekyler, der er bundet af de fluorescerende antistoffer, og den cellulære komponent er den plasmamembran, der observeres i mikroskopet. En kurator har derfor brugt resultaterne af dette forsøg til at annotere ATP1A1-genproduktet til GO-cellekomponenten plasmamembran (fig. 1). Som med molekylære funktioner og biologiske processer er der også en sammenhæng mellem molekylær funktion og cellulær komponent. Det er let at opstille den hypotese, at hvis et molekyle af et genprodukt findes i et eksemplar af en given cellekomponent, så har dette genprodukt også potentiale til at udføre sin funktion i denne cellekomponent. Hvis udførelsen af funktionen påvises i komponenten, kan vi foretage en generalisering vedrørende den molekylære funktionstype og den cellulære komponenttype. Vi antager på grundlag af de akkumulerede eksperimentelle data, at tilstrækkeligt mange forekomster af genproduktet vil udføre deres funktion i en eller anden forekomst af den cellulære komponenttype, og at tilstrækkeligt mange molekyler vil udføre deres funktion på en sådan måde, at disse udførelser bliver biologisk relevante. Som det er tilfældet med molekylær funktion og biologisk proces, kan de eksperimentelle beviser for molekylær funktion og annotationer for cellekomponenten ofte adskilles. Derfor udvikles disse ontologier ud fra et praktisk synspunkt også separat.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.