The curator perspective
GOアノテーションは、遺伝子産物タイプと分子機能、生物プロセス、細胞コンポーネントタイプの間のリンク(言い換えれば、遺伝子産物とその産物ができること、それがどの生物プロセスに貢献するか、それが生物の自然の生活の中で細胞のどこで機能することができるかとの間のリンク)を表します。 形式的には、GOアノテーションは15列の行で構成されている。 i) アノテーションされた遺伝子または遺伝子産物の公開データベース ID、 ii) 遺伝子産物に関連するオントロジー用語の GO:ID 、 iii) 証拠コード、 iv) 特定のアノテーションをサポートする情報源の参照/引用(図 1)の 4 つの主要フィールドがある。 GOCのキュレーターは遺伝子産物にアノテーションを施す際に標準的な方法を用いることに合意しており、その方法は電子メールの交換、品質管理レポート、対面会議、定期的な電話会議によって実施されている。 アノテーションは、15フィールドのタブ区切りファイルとしてGene Ontology Consortiumに提供されます。 4つのフィールドは、アノテーションされる遺伝子産物、関連で使用されるオントロジー用語、アノテーションをサポートする証拠の種類、および元の証拠が提示された文献を示します。 この原稿で説明した3つのアノテーションを示す。
これらの実践とアノテーション構造およびGO定義のアノテーションプロセスの追加詳細は、GOウェブサイトから入手可能である。 簡単に言えば、アノテーションプロセスは、一連のステップで展開される。 まず、生物医学文献に記載されている特定の実験が、特定のキュレーターのキュレーションプロセスの責任に関連するものとして特定される。 次に、キュレーターは選択された各実験の結果の文書化に専門知識を適用する。 このプロセスでは、実験においてどの遺伝子産物が研究されているか、実験自体の性質、および実験が遺伝子産物と相関していると特定した分子機能、生物学的プロセス、細胞構成要素を決定することが必要である。
最後に、アノテーションの品質管理プロセスは、アノテーションが正しい形式的構造を有することを保証し、キュレーターおよびキュレーターグループ間のアノテーションの一貫性を評価し、GO自体の洗練と拡張に貢献し、ますます他のオントロジーにも貢献するかもしれないというアノテーション活動から生じる知識を収穫するために採用されている。 GOアノテーションの主な目標は、アノテーションされた生物で行われた実験で得られた証拠によってサポートされるゲノム固有のアノテーションを作成することである。 しかし、多くのアノテーションは、他の生物で行われた実験から推測されたり、実験からではなく、当該遺伝子の配列特徴に関する知識から推測されたりするものである。 このような情報も、対応するエビデンスコードによってGOアノテーションに取り込まれている。 したがって、このようなアノテーションの利用者は、アノテーションが主張を裏付ける実験的証拠に基づいていること、あるいはアノテーションが構造類似性に基づく予測であることのいずれかを、これらのコードが反映していることを理解することが重要である。 実験的に検証されたGOアノテーションと計算で導き出されたGOアノテーションの違いは、アノテーションファイルで確認することができる。 この複雑さは、ユーザーが考慮しなければ、データ解析を混乱させ、GOアノテーションセットに基づく仮説生成の目標を損なう可能性がある。 与えられたGOアノテーションの根底にある証拠の種類と、そのアノテーションが現実世界をどのように表現しているかを理解することで、ユーザーはアノテーションファイルを賢くフィルターし、最大限の関連性を持つ実験と予測の種類を反映するアノテーションセットを取得することができます。 アノテーションに使用するGO用語の決定は、いくつかの要因に依存する。 実験そのものは、その結果から理解できることの解像度に何らかの制限をもたらす。 例えば、細胞分画では、あるタンパク質の分子を細胞の核に局在させるかもしれないが、免疫局在実験では、同じ種類のタンパク質の分子を細胞の核に局在させるかもしれない。 その結果、同じ遺伝子であっても、異なる実験に基づいてアノテーションされているため、同じオントロジーの異なる用語にアノテーションされていることがある。 定期的なアノテーションの整合性チェックにより、アノテーションの整合性を確保するように努めている。 矛盾が確認された場合、GOCは関係するキュレーターと協力し、必要に応じてドメインの専門家と連携して解決するための措置を講じます。 実験的手法の限界から、キュレーターは用語を選択する際に自身の科学的専門知識や背景知識を用いることがある。 GO用語の選択は、アノテーターがこれまでの知識に基づいて行う推論によって行われる場合があることを念頭に置くことが重要である。 例えば、ハウスキーピング遺伝子の変異が、四肢の形態形成のような非常に広いプロセスに異常をきたすような場合である。 この遺伝子が基本的な細胞生理学に関与しているという背景知識を持つキュレーターは、形態形成の欠陥は不健康な細胞の副産物であり、その遺伝子産物は形態形成自体には関与していないと確信できるかもしれない。 あるプロセスにおいて、どのサブプロセスがその一部で、どれがその外にあるのかを確定する作業は、オントロジー開発者やキュレーターだけでなく、実験室の生物学者にとっても困難なことである。 この問題に対処する1つの方法は、各プロセスを個別の開始と終了で定義することである。 GOオントロジー開発者はプロセスの種類を定義する際に、可能な限りこの方法を使用している。 これにより、アノテーターは定義されたGOタイプに基づく知識を最適に把握することができる。 このGOCは現在、MGIグループによってすでに実現されている、「文脈的」なアノテーションを作成するという方針を採用しています。 これは、細胞型(CL)(6)や他のOBO Foundryオントロジー(7)、マウス解剖学辞書(8)など、他のオントロジーからの用語を、GO用語と組み合わせてアノテーションに使用することを意味します。 その結果、アノテーションは、捉えるべき生物学的現実をより正確に記述できる。
分子機能アノテーション
最も単純な生物学的状況では、あるタイプの分子は、単一の分子機能タイプに関連付けされる。 特定の分子mは分子タイプM(例えばUniProtデータベースで表現)のインスタンスであり、ある方法で作用するその傾向は分子機能タイプF(対応するGOタームで表現)のインスタンスである。 つまり、遺伝子産物型Adh1(アルコール脱水素酵素1(クラスI))の分子は、その機能として分子機能型アルコール脱水素酵素活性のインスタンスを持つ。 つまり、このような分子は、与えられた文脈の中でこの機能を実行する可能性を持っているということである。 この意味での「活性」という用語は、生化学的な文脈で使われるような意味であり、「潜在的な活性」という意味としてより適切に読まれる。 アルコールデヒドロゲナーゼ」という同じ文字列が遺伝子名と分子機能の両方で使われているが、この文字列自体は異なる実体を指していることに注意しよう。 この曖昧さは、分子が実行する機能に基づいて名前を付ける傾向に根ざしており、分子が複数の機能を実行する場合など、分子の名前とその分子が帰属する分子機能が必ずしも一致しないことがあるため、この区別を理解することが重要です
ある遺伝子産物型のインスタンスがある機能を実行する可能性があると言っても、この型のすべてのインスタンスが実際にこの機能を実行することを意味しません。 例えば、マウスの遺伝子産物型Zp2の分子は卵母細胞に存在し、受精の際に遺伝子産物型Acrの分子と結合する性質がある。 しかし、卵母細胞が受精しない場合、分子はまだ存在し、結合機能を実行する傾向を持っているが、機能は実行されない。
ある分子機能タイプFが存在するかどうかをテストするために使用する実験的証拠は、ある特定のタイプMの分子におけるその機能タイプの実行の「アッセイ」という形でもたらされる。 例えば、図2はZhangらの研究から得られた分子機能レチノールデヒドロゲナーゼ活性のアッセイ結果である(本稿ではイタリック体で型を表す)。分子機能型レチノールデヒドロゲナーゼ活性は、分子機能オントロジーでは「レチノール+NAD+→レチナ+NADH+H+」という反応で定義されている。 この用語に注釈された遺伝子産物分子は、この触媒活性を実行する可能性を持っている。 この実験では、細胞タンパク質抽出液を2種類の基質、all-trans-retinol(開丸)または9-cis-retinol(塗丸)と補酵素NAD+とともに10分間インキュベートし、生成したレチナールの量を測定した。 グラフは、使用した基質(レチノイド)の濃度に対する生成物(レチナール)の蓄積速度を示しています。 この結果から、GO分子機能型レチノールデヒドロゲナーゼ活性で定義された反応は、確かにインスタンス化されている、つまりこの機能の実行が起こったことがわかる。 レチノールがレチナールに変換される現象が観察されたことは、この分子機能タイプのインスタンスが存在することの証拠である。 この実験では、実際に実行される様子を観察することで、機能型のインスタンスを同定しています。