Gene Ontology annotations: ce înseamnă și de unde provin

Perspectiva curatorului

O adnotare GO reprezintă o legătură între un tip de produs genic și o funcție moleculară, un proces biologic sau un tip de componentă celulară (o legătură, cu alte cuvinte, între produsul genic și ceea ce este capabil să facă acel produs, la ce procese biologice contribuie și în ce parte a celulei este capabil să funcționeze în viața naturală a unui organism). În mod formal, o adnotare GO este formată dintr-un rând de 15 coloane. În scopul acestei discuții, există 4 câmpuri primare: i) ID-ul bazei de date publice pentru gena sau produsul genic care este adnotat; ii) GO:ID-ul pentru termenul ontologic care este asociat cu produsul genic; iii) un cod de evidență și iv) referința/citarea sursei de informații care susține o anumită adnotare (figura 1). Curatorii din cadrul GOC au convenit să utilizeze practici standard atunci când adnotează produse genice, practicile sunt puse în aplicare prin schimburi de e-mailuri, rapoarte de control al calității, întâlniri față în față și conferințe telefonice periodice.

Detalii suplimentare ale acestor practici și ale structurii de adnotare și ale proceselor de adnotare definite de GO sunt disponibile pe site-ul GO . Pe scurt, procesul de adnotare se desfășoară într-o serie de etape. În primul rând, experimentele specifice, documentate în literatura biomedicală, sunt identificate ca fiind relevante pentru responsabilitățile procesului de curatoriat ale unui anumit curator. În al doilea rând, curatorul aplică cunoștințe de specialitate la documentarea rezultatelor fiecărui experiment selectat. Acest proces presupune determinarea produselor genetice care sunt studiate în cadrul experimentului, a naturii experimentului în sine și a funcțiilor moleculare, a proceselor biologice și a componentelor celulare pe care experimentul le identifică ca fiind corelate cu produsul genetic. Apoi, curatorul creează o adnotare care surprinde relațiile adecvate între tipurile de ontologii corespunzătoare.

În cele din urmă, procesele de control al calității adnotării sunt utilizate pentru a se asigura că adnotarea are o structură formală corectă, pentru a evalua coerența adnotării între curatori și grupurile de curatori și pentru a culege cunoștințele care rezultă din activitatea de adnotare pentru contribuțiile pe care le-ar putea aduce la perfecționarea și extinderea GO în sine și, din ce în ce mai mult, și la alte ontologii.

Etapa 1: Identificarea datelor experimentale relevante: Scopul principal al efortului de adnotare GO este de a crea adnotări specifice genomului, susținute de dovezi obținute în experimentele efectuate în organismul care face obiectul adnotării. Cu toate acestea, multe adnotări sunt deduse din experimente efectuate în alte organisme sau nu sunt deduse deloc din experimente, ci mai degrabă din cunoștințele despre caracteristicile secvenței pentru gena în cauză. Astfel de informații sunt, de asemenea, incluse în adnotările GO prin intermediul codurilor de evidență corespunzătoare. Prin urmare, este important pentru utilizatorul acestor adnotări să înțeleagă ce reflectă aceste coduri, fie că o adnotare se bazează pe dovezi experimentale care susțin afirmația, fie că o adnotare este o predicție bazată pe similaritatea structurală. Diferența dintre adnotările GO verificate experimental și cele derivate prin calcul poate fi identificată în fișierul de adnotare. Această complexitate, dacă nu este luată în considerare de către utilizator, poate încurca analizele de date și poate submina obiectivul de generare de ipoteze pe baza seturilor de adnotări GO. Înțelegând tipurile de dovezi care stau la baza unei anumite adnotări GO și modul în care această adnotare este menită să reprezinte lumea reală, utilizatorul poate filtra în mod inteligent fișierele de adnotări și poate prelua acele seturi de adnotări care reflectă tipurile de experimente și de predicții care sunt de relevanță maximă.

Etapa 2: Identificarea termenului de adnotare ontologică adecvat: Decizia cu privire la termenul GO care trebuie utilizat într-o adnotare depinde de mai mulți factori. Experimentul în sine va aduce o anumită limită în ceea ce privește rezoluția a ceea ce poate fi înțeles din rezultatele sale. De exemplu, fracționarea celulară ar putea localiza moleculele unei proteine în nucleul unei celule, dar experimentele de imunolocalizare ar putea localiza moleculele aceluiași tip de proteină în nucleul unei celule. Ca urmare, aceeași genă poate avea adnotări la termeni diferiți în aceeași ontologie, deoarece adnotările se bazează pe experimente diferite. Se depun eforturi pentru a asigura coerența adnotărilor prin verificări periodice ale coerenței adnotărilor. În cazul în care sunt identificate neconcordanțe, GOC ia măsuri pentru a le rezolva, colaborând cu curatorii implicați și, dacă este necesar, cu specialiști în domeniu. Limitările metodelor experimentale îi pot determina pe curatori să își folosească propria expertiză științifică și cunoștințele de bază atunci când selectează un termen. Este important să se țină cont de faptul că alegerea unui termen GO se face uneori prin deducție făcută de către adnotator pe baza cunoștințelor sale anterioare. Un exemplu ar fi cazul în care o mutație într-o genă de menținere a ordinii determină un defect într-un proces foarte larg, cum ar fi morfogeneza membrelor. Un curator care are cunoștințe anterioare despre funcția acestei gene ca fiind implicată în fiziologia celulară de bază poate fi sigur că defectul în morfogeneză este un produs secundar al celulelor nesănătoase și că produsul genic nu este implicat în morfogeneză în sine. Sarcina de a stabili care subprocese sunt părți ale unui anumit proces și care se află în afara acestuia reprezintă o provocare nu numai pentru dezvoltatorii și curatorii de ontologii, ci și pentru biologii de laborator. O metodă de abordare a acestei probleme constă în definirea fiecărui proces cu un început și un sfârșit discret. Dezvoltatorii ontologiilor GO folosesc această metodă ori de câte ori este posibil atunci când definesc tipurile de procese. Acest lucru permite adnotatorilor să capteze cât mai bine cunoștințele bazate pe tipul GO definit. Acest GOC a adoptat acum o politică, deja realizată de grupul MGI, de a crea adnotări care sunt „contextuale”. Aceasta înseamnă că termenii din alte ontologii, cum ar fi tipul de celulă (CL) (6) și alte ontologii OBO Foundry (7), precum și din dicționarul anatomic al șoarecilor (8), sunt utilizați împreună cu termenii GO în adnotări. Ca urmare, adnotarea poate descrie cu mai multă acuratețe realitatea biologică care trebuie să fie captată.

Anotarea funcției moleculare

În cea mai simplă situație biologică, moleculele de un anumit tip sunt asociate cu un singur tip de funcție moleculară. O anumită moleculă m este o instanță a unui tip de moleculă M (reprezentată, de exemplu, în baza de date UniProt), iar propensiunea sa de a acționa într-un anumit mod este o instanță a tipului de funcție moleculară F (reprezentată de un termen GO corespunzător). Astfel, o moleculă din tipul de produs genetic Adh1, alcool dehidrogenază 1 (clasa I), are ca funcție o instanță a tipului de funcție moleculară activitate de alcool dehidrogenază. Aceasta înseamnă că o astfel de moleculă are potențialul de a executa această funcție într-un anumit context. În acest sens, termenul „activitate” este înțeles în sensul în care este utilizat într-un context biochimic; și este mai adecvat să fie citit ca însemnând: „activitate potențială”. Rețineți că, deși același șir de caractere, „alcool dehidrogenază”, este utilizat atât în denumirea genei, cât și în funcția moleculară, șirul în sine se referă la entități diferite: în primul caz, la tipul de moleculă; în al doilea, la tipul de funcție pe care molecula respectivă are tendința de a o executa. Această ambiguitate își are rădăcinile în tendința de a denumi moleculele în funcție de funcțiile pe care le execută și este important să înțelegem această distincție, deoarece numele unei molecule și funcția moleculară căreia îi este atribuită molecula pot să nu fie neapărat în concordanță, de exemplu pentru că molecula poate executa mai multe funcții.

Dacă spunem că instanțele unui anumit tip de produs genetic au potențialul de a executa o anumită funcție, acest lucru nu înseamnă că fiecare instanță a acestui tip va executa de fapt această funcție. Astfel, moleculele tipului de produs genic Zp2 de șoarece se găsesc în ovocit și au propensiunea de a se lega de moleculele tipului de produs genic Acr în timpul fertilizării . Dacă, totuși, un ovocit nu este niciodată fecundat, moleculele există în continuare și au în continuare propensiunea de a executa funcția de legare, dar funcția nu este niciodată executată.

Probele experimentale folosite pentru a testa dacă un anumit tip de funcție moleculară F există vin sub forma unui „test” pentru executarea acelui tip de funcție în moleculele unui anumit tip specific M. Dacă se identifică cazuri de F într-un astfel de test, acest lucru justifică o adnotare corespunzătoare a funcției moleculare care afirmă o asociere între M și F. Ca exemplu, figura 2 prezintă rezultatele unui test pentru activitatea funcției moleculare retinol dehidrogenază, preluate dintr-un studiu realizat de Zhang et al. (În toată această lucrare vom indica tipurile folosind caractere italice.) Tipul de funcție moleculară activitate retinol dehidrogenază este definit în ontologia funcțiilor moleculare prin reacția: retinol + NAD+ → retinal + NADH + H+. Instanțele moleculelor de produs genic adnotate la acest termen au potențialul de a executa această activitate catalitică. În acest experiment, un extract de proteină celulară a fost incubat cu două substraturi, all-trans-retinol (cercuri deschise) sau 9-cis-retinol (cercuri umplute) și cofactorul NAD+ timp de 10 minute, iar cantitatea de retinal generată a fost măsurată. Graficul arată rata de acumulare a produsului (retinal) în raport cu concentrația de substrat (retinoid) utilizată. Rezultatele arată că reacția definită de tipul de funcție moleculară GO activitate retinol dehidrogenază a fost într-adevăr instanțiată – execuția acestei funcții a avut loc. Faptul că retinolul a fost transformat în retinal este o dovadă a existenței instanțelor acestui tip de funcție moleculară. În acest experiment, instanțele tipului de funcție sunt identificate prin observarea execuțiilor reale. Afirmăm că unele molecule din acest extract au funcții moleculare de tipul activității de retinol dehidrogenază deoarece au fost măsurate direct aparițiile execuțiilor instanțelor de acest tip.

Anotarea proceselor biologice

O instanță de funcție moleculară este potențialul durabil al unei instanțe de produs genetic de a acționa într-un anumit mod. O instanță de proces biologic este execuția uneia sau mai multor astfel de instanțe de funcții moleculare care lucrează împreună pentru a realiza un anumit obiectiv biologic. O instanță de proces biologic este, la nivel de granularitate celulară sau de organism, ceea ce este execuția unei funcții la nivel de moleculă. Există o relație între funcțiile moleculare și procesele biologice. În acest moment, această relație nu este reprezentată în mod explicit în GO. Din punctul de vedere al adnotării genelor, suntem interesați să depășim relațiile instanță-instanță la nivel de celulă sau de organism și să obținem capacitatea de a deduce relații tip-tip care leagă tipurile de produse genetice la nivel molecular de granularitate de tipurile de procese la nivelul celulei sau al organismului. Suntem interesați de faptul că moleculele unui anumit tip de produs genetic pot fi asociate cu instanțe ale unui tip de funcție moleculară (cunoscută sau necunoscută) a cărei execuție contribuie la apariția unui proces biologic de un anumit tip. Se pot face inferențe cu privire la astfel de relații tip-tip, deoarece experimentele sunt concepute pentru a testa ce se întâmplă atunci când condițiile biologice specificate sunt îndeplinite în circumstanțe tipice – circumstanțe în care, ca urmare a eforturilor experimentatorului, nu intervin evenimente perturbatoare. Experimentele sunt concepute pentru a fi reproductibile și predictive, descriind cazurile pe care ne așteptăm să le găsim în sistemele biologice care îndeplinesc condițiile definite. Dacă experimentele viitoare arată că experimentele precedente nu au descris situația tipică preconizată, atunci concluziile experimentelor precedente sunt puse sub semnul întrebării și pot fi reanalizate și reinterpretate, sau chiar respinse în întregime, iar adnotările corespunzătoare trebuie atunci modificate în consecință.

Anotațiile în acest fel indică uneori erori în relațiile tip-tip descrise în ontologie. Un exemplu este eliminarea recentă a tipului secreție de seretonină ca fiind un copil is_a al secreției de neurotransmițători din ontologia GO Biological Process. Această modificare a fost făcută ca urmare a unei adnotări dintr-o lucrare care arată că serotonina poate fi secretată de celulele sistemului imunitar, unde nu acționează ca neurotransmițător.

Asocierile dintre produsele genice și procesele biologice, de asemenea, pot fi detectate experimental. Atunci când instanțele tipului de proces biologic P sunt detectate, fie prin observare directă, fie prin analiză experimentală, ca fiind asociate cu instanțele unui anumit tip de produs genic M, atunci acest lucru justifică afirmarea acelui tip de asociere între M și P care se numește o adnotare a procesului biologic.

Pentru acele specii de organisme la care instrumentele de studiu genetic pot fi aplicate cu succes, asocierea tipurilor de produse genice cu tipurile de procese biologice se realizează, de obicei, prin studiul perturbărilor proceselor biologice în urma mutațiilor genetice. Curatorii utilizează codul de evidență IMP pentru aceste adnotări. Figura 3 prezintă un exemplu de analiză mutațională efectuată de Washington-Smoak et al. cu privire la efectele unei mutații a genei Shh asupra dezvoltării inimii de șoarece . Panoul din stânga prezintă o imagine a unei inimi cu copii normale ale genei (WT) la 16,5 zile de embriogeneză; panoul din dreapta prezintă o inimă cu copii defecte ale genei la 16,5 zile de embriogeneză. Figura ilustrează în mod clar faptul că dezvoltarea căilor de evacuare a inimii este defectuoasă la embrionul cu gena defectă. Ontologia GO Biological Process definește tipul de dezvoltare a inimii ca fiind: „procesul al cărui rezultat specific este progresia inimii în timp, de la formarea acesteia până la structura matură”. Inima este un organ gol, muscular, care, prin contracții ritmice, menține circulația sângelui.”

Pe baza studiului mutațional raportat în Washington-Smoak et al, un curator MGI a realizat o adnotare care leagă dezvoltarea inimii și gena Shh folosind codul de evidență IMP (Fig. 1). Această adnotare se bazează pe identificarea la animalul normal a unei molecule din produsul genei Shh cu o funcție moleculară a cărei execuție contribuie la o apariție a procesului biologic de dezvoltare a inimii. Știm că procesul biologic de dezvoltare a inimii există, deoarece îl observăm la animalul normal. Știm că o moleculă de SHH contribuie la acest proces deoarece, atunci când eliminăm toate cazurile de produs al genei Shh la un animal, procesul de dezvoltare a inimii este perturbat. Astfel, adnotarea afirmă că o moleculă a proteinei SHH are potențialul de a executa o funcție moleculară care contribuie la o instanță a tipului de dezvoltare a inimii din ontologia proceselor biologice. De asemenea, generalizăm faptul că execuția funcției moleculare a unei molecule de SHH la un anumit șoarece va contribui într-un anumit fel la dezvoltarea inimii acelui șoarece. Cu toate acestea, rezultatele oricărui test fenotipic sunt limitate la rezolvarea fenotipului în sine. În experimentul descris mai sus, am validat procesul biologic, dar nu putem face inferențe directe cu privire la natura funcției executate. Din acest motiv, precum și din alte motive practice, ontologiile funcțiilor moleculare și ale proceselor biologice au fost dezvoltate independent.

Anotarea componentelor celulare

În marea majoritate a cazurilor, adnotările care leagă produsul genic de tipurile de componente celulare se fac pe baza observării directe a unei instanțe a componentei celulare la microscop, ca de exemplu în , care raportează un experiment în care un anticorp care recunoaște produsele genetice ale genei Atp1a1 este utilizat pentru a marca localizarea instanțelor unor astfel de produse în embrionii de șoarece preimplantați (figura 4). Colorația fluorescentă arată că produsele genice sunt localizate la nivelul membranei plasmatice a celulelor acestor embrioni. În acest caz, instanțele produselor genetice sunt moleculele legate de anticorpii fluorescenți, iar instanța componentei celulare este membrana plasmatică care este observată la microscop. În consecință, un curator a utilizat rezultatele acestui experiment pentru a face o adnotare a produsului genic ATP1A1 la componenta celulară GO membrană plasmatică (Fig. 1). Ca și în cazul funcțiilor moleculare și al proceselor biologice, există, de asemenea, o relație între funcția moleculară și componenta celulară. Este simplu să se formuleze ipoteza că, dacă o moleculă a unui produs genetic se găsește într-o instanță a unei anumite componente celulare, atunci acel produs genetic are potențialul de a-și executa funcția și în acea componentă celulară. Dacă execuția funcției este detectată în componenta respectivă, atunci putem face o generalizare privind tipul funcției moleculare și tipul componentei celulare. Presupunem, pe baza datelor experimentale acumulate, că suficiente instanțe ale produsului genic își vor executa funcțiile într-o anumită instanță a tipului de componentă celulară și că un număr suficient de molecule își vor executa funcția în așa fel încât aceste execuții să devină relevante din punct de vedere biologic. Ca și în cazul funcției moleculare și al procesului biologic, dovezile experimentale pentru funcția moleculară și adnotările componentei celulare sunt adesea separabile. Prin urmare, din punct de vedere practic, aceste ontologii sunt, de asemenea, dezvoltate separat.

Perspectiva curatorului

Anotarea funcției moleculare

Anotarea proceselor biologice

Anotarea componentelor celulare

Lasă un răspuns Anulează răspunsul