Anotacje do ontologii genów: what they mean and where they come from

The curator perspective

Anotacja GO reprezentuje związek między typem produktu genowego a funkcją molekularną, procesem biologicznym lub typem składnika komórkowego (związek, innymi słowy, między produktem genowym a tym, co ten produkt jest w stanie zrobić, do jakich procesów biologicznych się przyczynia i gdzie w komórce jest w stanie funkcjonować w naturalnym życiu organizmu). Formalnie, adnotacja GO składa się z rzędu 15 kolumn. Dla celów niniejszej dyskusji, istnieją 4 podstawowe pola: i) identyfikator publicznej bazy danych dla anotowanego genu lub produktu genowego; ii) GO:ID dla terminu ontologicznego powiązanego z produktem genowym; iii) kod dowodu oraz iv) odniesienie/cytat dla źródła informacji, która wspiera daną anotację (Rysunek 1). Kuratorzy z GOC uzgodnili stosowanie standardowych praktyk podczas anotacji produktów genowych, praktyki te są egzekwowane przez wymianę e-maili, raporty kontroli jakości, bezpośrednie spotkania i regularne połączenia konferencyjne.

Dodatkowe szczegóły dotyczące tych praktyk oraz struktury adnotacji i procesów adnotacji zdefiniowanych w GO są dostępne na stronie internetowej GO . W skrócie, proces anotacji rozwija się w serii kroków. Po pierwsze, konkretne eksperymenty, udokumentowane w literaturze biomedycznej, są identyfikowane jako istotne z punktu widzenia obowiązków kuratora. Po drugie, kurator wykorzystuje wiedzę ekspercką do dokumentacji wyników każdego z wybranych eksperymentów. Proces ten obejmuje określenie, jakie produkty genowe są badane w danym eksperymencie, charakter samego eksperymentu oraz funkcje molekularne, procesy biologiczne i składniki komórkowe, które eksperyment identyfikuje jako skorelowane z produktem genowym. Kurator następnie tworzy adnotację, która oddaje odpowiednie relacje pomiędzy odpowiednimi typami ontologii.

Na koniec, procesy kontroli jakości adnotacji są stosowane w celu zapewnienia, że adnotacja ma poprawną strukturę formalną, oceny spójności adnotacji pomiędzy kuratorami i grupami kuratorskimi, a także w celu zebrania wiedzy wyłaniającej się z działalności związanej z adnotacją w celu wniesienia jej do udoskonalenia i rozszerzenia GO, a także w coraz większym stopniu do innych ontologii.

Krok 1: Identyfikacja odpowiednich danych eksperymentalnych: Głównym celem wysiłku związanego z anotacją GO jest stworzenie specyficznych dla genomu anotacji popartych dowodami uzyskanymi w eksperymentach przeprowadzonych w organizmie poddawanym anotacji. Jednakże, wiele adnotacji jest wnioskowanych na podstawie eksperymentów przeprowadzonych na innych organizmach, lub nie są one w ogóle wnioskowane na podstawie eksperymentów, ale raczej na podstawie wiedzy o cechach sekwencji dla danego genu. Takie informacje również są ujmowane w adnotacjach GO za pomocą odpowiednich kodów dowodów. Ważne jest więc, aby użytkownik takich adnotacji rozumiał, co te kody odzwierciedlają, albo że adnotacja jest oparta na dowodach eksperymentalnych potwierdzających twierdzenie, albo że adnotacja jest przewidywaniem opartym na podobieństwie strukturalnym. Różnica pomiędzy eksperymentalnie zweryfikowanymi i obliczeniowo wyprowadzonymi adnotacjami GO może być zidentyfikowana w pliku adnotacji. Złożoność ta, jeśli nie jest brana pod uwagę przez użytkownika, może utrudnić analizę danych i podważyć cel generowania hipotez na podstawie zbiorów adnotacji GO. Ze zrozumieniem rodzajów dowodów, które leżą u podstaw danej adnotacji GO i tego, jak ta adnotacja ma reprezentować świat rzeczywisty, użytkownik może inteligentnie filtrować pliki adnotacji i pobierać te zestawy adnotacji, które odzwierciedlają rodzaje eksperymentów i przewidywań, które są maksymalnie istotne.

Krok 2: Identyfikacja odpowiedniego terminu adnotacji ontologicznej: Decyzja co do tego, jaki termin GO zastosować w adnotacji, zależy od kilku czynników. Sam eksperyment przyniesie pewne ograniczenia w rozdzielczości tego, co można zrozumieć z jego wyników. Na przykład, frakcjonowanie komórek może zlokalizować cząsteczki białka w jądrze komórkowym, ale eksperymenty immunolokalizacyjne mogą zlokalizować cząsteczki tego samego typu białka w jądrze komórkowym. W rezultacie ten sam gen może mieć adnotacje do różnych terminów w tej samej ontologii, ponieważ adnotacje są oparte na różnych eksperymentach. Podejmowane są wysiłki w celu zapewnienia spójności adnotacji poprzez regularne kontrole spójności adnotacji. W przypadku stwierdzenia niespójności, rząd ChRL podejmuje kroki w celu ich rozwiązania, współpracując z zainteresowanymi kuratorami, a w razie potrzeby ze specjalistami z danej dziedziny. Ograniczenia metod eksperymentalnych mogą skłaniać kuratorów do korzystania z ich własnej wiedzy naukowej i kontekstowej przy wyborze terminu. Ważne jest, aby pamiętać, że wybór terminu GO jest czasami dokonywany przez anotatora na podstawie jego wcześniejszej wiedzy. Przykładem może być przypadek, w którym mutacja w genie opiekuńczym powoduje defekt w bardzo szerokim procesie, takim jak morfogeneza kończyn. Kurator, który posiada wiedzę o funkcji tego genu jako zaangażowanego w podstawową fizjologię komórki może być pewny, że defekt w morfogenezie jest produktem ubocznym niezdrowych komórek, i że produkt genu nie jest zaangażowany w morfogenezę per se. Zadanie ustalenia, które z podprocesów są częścią danego procesu, a które leżą poza nim, jest wyzwaniem nie tylko dla twórców ontologii i kuratorów, ale także dla biologów laboratoryjnych. Jedną z metod rozwiązania tego problemu jest zdefiniowanie każdego procesu z dyskretnym początkiem i końcem. Twórcy ontologii GO stosują tę metodę zawsze, gdy jest to możliwe przy definiowaniu typów procesów. Pozwala to anotatorom na jak najlepsze uchwycenie wiedzy opartej na zdefiniowanym typie GO. Ten GOC przyjął obecnie politykę, już realizowaną przez grupę MGI, tworzenia adnotacji, które są „kontekstowe”. Oznacza to, że terminy z innych ontologii, takich jak typ komórki (CL) (6) i innych ontologii OBO Foundry (7), oraz ze słownika anatomicznego myszy (8) są używane w połączeniu z terminami GO w adnotacjach. W rezultacie adnotacja może dokładniej opisywać rzeczywistość biologiczną, która musi zostać uchwycona.

Anotacja funkcji molekularnej

W najprostszej sytuacji biologicznej cząsteczki danego typu są związane z jednym typem funkcji molekularnej. Określona cząsteczka m jest instancją typu cząsteczki M (reprezentowaną np. w bazie UniProt), a jej skłonność do działania w określony sposób jest instancją typu funkcji molekularnej F (reprezentowanej przez odpowiedni termin GO). Tak więc, cząsteczka produktu genu typu Adh1, dehydrogenaza alkoholowa 1 (klasa I), ma jako swoją funkcję instancję funkcji molekularnej typu aktywność dehydrogenazy alkoholowej. Oznacza to, że taka cząsteczka ma potencjał do wykonywania tej funkcji w danych kontekstach. Termin „aktywność”, w tym znaczeniu, jest rozumiany tak, jak się go używa w kontekście biochemicznym; i jest bardziej właściwie odczytywany jako oznaczający: „potencjalną aktywność”. Zauważmy, że chociaż ten sam ciąg znaków, „dehydrogenaza alkoholowa”, jest użyty zarówno w nazwie genu, jak i w funkcji molekularnej, to sam ciąg znaków odnosi się do różnych bytów: w pierwszym przypadku do typu cząsteczki; w drugim do typu funkcji, jaką ta cząsteczka ma skłonność wykonywać. Ta niejednoznaczność jest zakorzeniona w tendencji do nazywania molekuł na podstawie funkcji, które wykonują, i ważne jest, aby zrozumieć to rozróżnienie, ponieważ nazwa molekuły i funkcja molekularna, do której molekuła jest przypisana, niekoniecznie muszą się zgadzać, na przykład dlatego, że molekuła może wykonywać wiele funkcji.

Jeśli mówimy, że instancje danego typu produktu genowego mają skłonność do wykonywania danej funkcji, nie oznacza to, że każda instancja tego typu będzie w rzeczywistości wykonywać tę funkcję. Tak więc cząsteczki produktu genu myszy typu Zp2 znajdują się w oocycie i mają skłonność do wiązania cząsteczek produktu genu typu Acr podczas zapłodnienia. Jeśli jednak oocyt nigdy nie zostanie zapłodniony, cząsteczki te nadal istnieją i nadal mają skłonność do wykonywania funkcji wiązania, ale funkcja ta nigdy nie jest wykonywana.

Dowody doświadczalne stosowane do badania, czy dany molekularny typ funkcji F istnieje, występują w postaci „testu” na wykonywanie tego typu funkcji w cząsteczkach pewnego określonego typu M. Jeśli w takim badaniu zidentyfikowane zostaną przypadki F, uzasadnia to odpowiednią adnotację funkcji molekularnej stwierdzającą związek między M i F. Jako przykład, Rysunek 2 przedstawia wyniki badania dla funkcji molekularnej aktywność dehydrogenazy retinolu, zaczerpnięte z badania przeprowadzonego przez Zhang i wsp. (W całym artykule będziemy oznaczać typy za pomocą kursywy.) Funkcja molekularna typu aktywność dehydrogenazy retinolu jest zdefiniowana w ontologii funkcji molekularnej przez reakcję: retinol + NAD+ → retinal + NADH + H+. Przypadki cząsteczek produktów genowych anotowanych do tego terminu mają potencjał do wykonywania tej aktywności katalitycznej. W tym eksperymencie ekstrakt białek komórkowych inkubowano z dwoma substratami, all-trans-retinolem (otwarte koła) lub 9-cis-retinolem (wypełnione koła), oraz kofaktorem NAD+ przez 10 minut i mierzono ilość generowanego retinalu. Wykres przedstawia szybkość gromadzenia się produktu (retinalu) w odniesieniu do stężenia użytego substratu (retinoidu). Wyniki pokazują, że reakcja zdefiniowana przez funkcję molekularną GO typu aktywność dehydrogenazy retinolu rzeczywiście została zainicjowana – nastąpiło wykonanie tej funkcji. Zaobserwowane przypadki przekształcania retinolu w retinal są dowodem na istnienie instancji tego typu funkcji molekularnej. W tym eksperymencie instancje typu funkcji są identyfikowane poprzez obserwację rzeczywistych wykonań. Twierdzimy, że niektóre cząsteczki w tym ekstrakcie mają funkcje molekularne typu aktywność dehydrogenazy retinolu, ponieważ występowanie instancji tego typu zostało bezpośrednio zmierzone.

Anotacja procesu biologicznego

Instancja funkcji molekularnej to trwały potencjał instancji produktu genowego do działania w określony sposób. Instancja procesu biologicznego jest wykonaniem jednej lub więcej takich molekularnych instancji funkcyjnych pracujących razem, aby osiągnąć pewien cel biologiczny. Instancja procesu biologicznego jest na poziomie ziarnistości komórki lub organizmu tym, czym wykonanie funkcji jest na poziomie cząsteczki. Istnieje związek między funkcjami molekularnymi a procesami biologicznymi. W chwili obecnej związek ten nie jest jednoznacznie reprezentowany w GO. Z perspektywy anotacji genów jesteśmy zainteresowani wyjściem poza relacje instancja-instancja na poziomie komórki lub organizmu i uzyskaniem zdolności do wnioskowania o relacjach typu-typ, które łączą typy produktów genowych na poziomie molekularnym z typami procesów na poziomie komórki lub organizmu. Interesuje nas fakt, że cząsteczki danego typu produktu genowego mogą być powiązane z instancjami typu funkcji molekularnej (znanej lub nieznanej), której wykonanie przyczynia się do wystąpienia procesu biologicznego danego typu. Wnioskowanie o takich relacjach typ-typ jest możliwe, ponieważ eksperymenty mają na celu sprawdzenie, co się dzieje, gdy określone warunki biologiczne są spełnione w typowych okolicznościach – okolicznościach, w których w wyniku starań eksperymentatora nie dochodzi do zakłóceń. Eksperymenty mają być powtarzalne i przewidywalne, opisywać przypadki, których można by się spodziewać w systemach biologicznych spełniających określone warunki. Jeśli przyszłe eksperymenty pokażą, że poprzednie nie opisywały zamierzonej typowej sytuacji, wtedy wnioski z poprzednich eksperymentów są kwestionowane i mogą być ponownie przeanalizowane i ponownie zinterpretowane, lub nawet całkowicie odrzucone, a odpowiednie adnotacje muszą być odpowiednio zmienione.

Adnotacje w ten sposób czasami wskazują na błędy w relacjach typ-typ opisanych w ontologii. Przykładem jest niedawne usunięcie typu seretonin secretion jako is_a child of neurotransmitter secretion z ontologii GO Biological Process. Modyfikacja ta została dokonana w wyniku adnotacji z pracy pokazującej, że serotonina może być wydzielana przez komórki układu odpornościowego, gdzie nie pełni roli neuroprzekaźnika.

Asocjacje pomiędzy produktami genów a procesami biologicznymi również mogą być wykrywane eksperymentalnie. Kiedy przypadki procesu biologicznego typu P są wykrywane, albo przez bezpośrednią obserwację albo przez eksperymentalne oznaczenie, jako związane z przypadkami danego produktu genowego typu M, wtedy uzasadnia to stwierdzenie tego rodzaju związku między M i P, który jest nazywany adnotacją procesu biologicznego.

Dla tych gatunków organizmów, gdzie narzędzia badań genetycznych mogą być z powodzeniem stosowane, związek typów produktów genowych z typami procesów biologicznych jest zwykle osiągany przez badanie perturbacji procesów biologicznych po mutacji genetycznej. Kuratorzy wykorzystują kod dowodu IMP do tych adnotacji. Rysunek 3 przedstawia przykład analizy mutacyjnej przeprowadzonej przez Washington-Smoak i wsp. na temat wpływu mutacji genu Shh na rozwój serca myszy. Lewy panel pokazuje obraz serca z normalnymi kopiami genu (WT) w 16,5 dniu embriogenezy; prawy panel pokazuje serce z wadliwymi kopiami genu w 16,5 dniu embriogenezy. Rysunek wyraźnie ilustruje, że rozwój dróg odpływu serca jest zaburzony u embrionu z wadliwym genem. Ontologia GO Biological Process definiuje typ rozwoju serca jako: 'proces, którego specyficznym wynikiem jest progresja serca w czasie, od jego uformowania do dojrzałej struktury. Serce jest pustym, umięśnionym organem, który poprzez rytmiczne skurcze podtrzymuje krążenie krwi.’

Based on the mutational study reported in Washington-Smoak et al, an MGI curator has made annotation linking heart development and the Shh gene using the IMP evidence code (Fig. 1). Adnotacja ta opiera się na identyfikacji u normalnego zwierzęcia cząsteczki produktu genu Shh z funkcją molekularną, której wykonanie przyczynia się do wystąpienia procesu biologicznego, jakim jest rozwój serca. Wiemy, że proces biologiczny rozwoju serca istnieje, ponieważ obserwujemy go u normalnego zwierzęcia. Wiemy, że cząsteczka SHH przyczynia się do tego procesu, ponieważ gdy zabierzemy wszystkie instancje produktu genu Shh u zwierzęcia, proces rozwoju serca zostaje zaburzony. Adnotacja potwierdza więc, że cząsteczka białka SHH ma potencjał do wykonywania funkcji molekularnej, która przyczynia się do instancji typu rozwój serca w ontologii Procesu Biologicznego. Uogólniamy również, że wykonanie funkcji molekularnej przez cząsteczkę SHH u danej myszy w jakiś sposób przyczyni się do rozwoju serca tej myszy. Jednakże, wyniki każdego badania fenotypowego są ograniczone do rozdzielczości samego fenotypu. W opisanym powyżej eksperymencie zwalidowaliśmy proces biologiczny, ale nie możemy wyciągnąć żadnych bezpośrednich wniosków na temat natury wykonywanej funkcji. To właśnie z tego i innych praktycznych powodów ontologie funkcji molekularnej i procesu biologicznego zostały opracowane niezależnie.

Anotacja składnika komórkowego

W znacznej większości przypadków, adnotacje łączące produkt genu z typami składników komórkowych są dokonywane na podstawie bezpośredniej obserwacji instancji składnika komórkowego w mikroskopie, jak na przykład w , który relacjonuje eksperyment, w którym przeciwciało rozpoznające produkty genu Atp1a1 jest używane do oznaczania lokalizacji instancji takich produktów w preimplantacyjnych zarodkach myszy (Rysunek 4). Barwienie fluorescencyjne pokazuje, że produkty genowe znajdują się w błonie plazmatycznej komórek tych zarodków. W tym przypadku instancjami produktów genowych są cząsteczki związane przez przeciwciała fluorescencyjne, a instancją składnika komórkowego jest obserwowana pod mikroskopem błona plazmatyczna. Na podstawie wyników tego eksperymentu kurator dokonał adnotacji produktu genu ATP1A1 do GO składnika komórkowego – błony plazmatycznej (ryc. 1). Podobnie jak w przypadku funkcji molekularnych i procesów biologicznych, istnieje również związek pomiędzy funkcją molekularną a składnikiem komórkowym. Łatwo jest postawić hipotezę, że jeśli cząsteczka produktu genu znajduje się w instancji danego składnika komórkowego, to ten produkt genu może potencjalnie realizować swoją funkcję również w tym składniku komórkowym. Jeśli wykonanie funkcji zostanie wykryte w komponencie, wówczas możemy dokonać uogólnienia dotyczącego typu funkcji molekularnej i typu komponentu komórkowego. Zakładamy, na podstawie zgromadzonych danych doświadczalnych, że wystarczająca liczba przypadków produktu genu będzie realizować swoje funkcje w jakimś przypadku typu składnika komórkowego i że wystarczająca liczba cząsteczek będzie realizować swoje funkcje w taki sposób, że te realizacje staną się biologicznie istotne. Podobnie jak w przypadku funkcji molekularnej i procesu biologicznego, dowody eksperymentalne dla funkcji molekularnej i anotacji składników komórkowych są często rozłączne. Dlatego, z praktycznego punktu widzenia, te ontologie są również rozwijane oddzielnie.

The curator perspective

Anotacja funkcji molekularnej

Anotacja procesu biologicznego

Anotacja składnika komórkowego

Dodaj komentarz Anuluj pisanie odpowiedzi