GeneOntologyアノテーション(遺伝子存在論)。 what they mean and where they come from

The curator perspective

GOアノテーションは、遺伝子産物タイプと分子機能、生物プロセス、細胞コンポーネントタイプの間のリンク(言い換えれば、遺伝子産物とその産物ができること、それがどの生物プロセスに貢献するか、それが生物の自然の生活の中で細胞のどこで機能することができるかとの間のリンク)を表します。 形式的には、GOアノテーションは15列の行で構成されている。 i) アノテーションされた遺伝子または遺伝子産物の公開データベース ID、 ii) 遺伝子産物に関連するオントロジー用語の GO:ID 、 iii) 証拠コード、 iv) 特定のアノテーションをサポートする情報源の参照/引用(図 1)の 4 つの主要フィールドがある。 GOCのキュレーターは遺伝子産物にアノテーションを施す際に標準的な方法を用いることに合意しており、その方法は電子メールの交換、品質管理レポート、対面会議、定期的な電話会議によって実施されている。 アノテーションは、15フィールドのタブ区切りファイルとしてGene Ontology Consortiumに提供されます。 4つのフィールドは、アノテーションされる遺伝子産物、関連で使用されるオントロジー用語、アノテーションをサポートする証拠の種類、および元の証拠が提示された文献を示します。 この原稿で説明した3つのアノテーションを示す。

これらの実践とアノテーション構造およびGO定義のアノテーションプロセスの追加詳細は、GOウェブサイトから入手可能である。 簡単に言えば、アノテーションプロセスは、一連のステップで展開される。 まず、生物医学文献に記載されている特定の実験が、特定のキュレーターのキュレーションプロセスの責任に関連するものとして特定される。 次に、キュレーターは選択された各実験の結果の文書化に専門知識を適用する。 このプロセスでは、実験においてどの遺伝子産物が研究されているか、実験自体の性質、および実験が遺伝子産物と相関していると特定した分子機能、生物学的プロセス、細胞構成要素を決定することが必要である。

最後に、アノテーションの品質管理プロセスは、アノテーションが正しい形式的構造を有することを保証し、キュレーターおよびキュレーターグループ間のアノテーションの一貫性を評価し、GO自体の洗練と拡張に貢献し、ますます他のオントロジーにも貢献するかもしれないというアノテーション活動から生じる知識を収穫するために採用されている。 GOアノテーションの主な目標は、アノテーションされた生物で行われた実験で得られた証拠によってサポートされるゲノム固有のアノテーションを作成することである。 しかし、多くのアノテーションは、他の生物で行われた実験から推測されたり、実験からではなく、当該遺伝子の配列特徴に関する知識から推測されたりするものである。 このような情報も、対応するエビデンスコードによってGOアノテーションに取り込まれている。 したがって、このようなアノテーションの利用者は、アノテーションが主張を裏付ける実験的証拠に基づいていること、あるいはアノテーションが構造類似性に基づく予測であることのいずれかを、これらのコードが反映していることを理解することが重要である。 実験的に検証されたGOアノテーションと計算で導き出されたGOアノテーションの違いは、アノテーションファイルで確認することができる。 この複雑さは、ユーザーが考慮しなければ、データ解析を混乱させ、GOアノテーションセットに基づく仮説生成の目標を損なう可能性がある。 与えられたGOアノテーションの根底にある証拠の種類と、そのアノテーションが現実世界をどのように表現しているかを理解することで、ユーザーはアノテーションファイルを賢くフィルターし、最大限の関連性を持つ実験と予測の種類を反映するアノテーションセットを取得することができます。 アノテーションに使用するGO用語の決定は、いくつかの要因に依存する。 実験そのものは、その結果から理解できることの解像度に何らかの制限をもたらす。 例えば、細胞分画では、あるタンパク質の分子を細胞の核に局在させるかもしれないが、免疫局在実験では、同じ種類のタンパク質の分子を細胞の核に局在させるかもしれない。 その結果、同じ遺伝子であっても、異なる実験に基づいてアノテーションされているため、同じオントロジーの異なる用語にアノテーションされていることがある。 定期的なアノテーションの整合性チェックにより、アノテーションの整合性を確保するように努めている。 矛盾が確認された場合、GOCは関係するキュレーターと協力し、必要に応じてドメインの専門家と連携して解決するための措置を講じます。 実験的手法の限界から、キュレーターは用語を選択する際に自身の科学的専門知識や背景知識を用いることがある。 GO用語の選択は、アノテーターがこれまでの知識に基づいて行う推論によって行われる場合があることを念頭に置くことが重要である。 例えば、ハウスキーピング遺伝子の変異が、四肢の形態形成のような非常に広いプロセスに異常をきたすような場合である。 この遺伝子が基本的な細胞生理学に関与しているという背景知識を持つキュレーターは、形態形成の欠陥は不健康な細胞の副産物であり、その遺伝子産物は形態形成自体には関与していないと確信できるかもしれない。 あるプロセスにおいて、どのサブプロセスがその一部で、どれがその外にあるのかを確定する作業は、オントロジー開発者やキュレーターだけでなく、実験室の生物学者にとっても困難なことである。 この問題に対処する1つの方法は、各プロセスを個別の開始と終了で定義することである。 GOオントロジー開発者はプロセスの種類を定義する際に、可能な限りこの方法を使用している。 これにより、アノテーターは定義されたGOタイプに基づく知識を最適に把握することができる。 このGOCは現在、MGIグループによってすでに実現されている、「文脈的」なアノテーションを作成するという方針を採用しています。 これは、細胞型(CL)(6)や他のOBO Foundryオントロジー(7)、マウス解剖学辞書(8)など、他のオントロジーからの用語を、GO用語と組み合わせてアノテーションに使用することを意味します。 その結果、アノテーションは、捉えるべき生物学的現実をより正確に記述できる。

分子機能アノテーション

最も単純な生物学的状況では、あるタイプの分子は、単一の分子機能タイプに関連付けされる。 特定の分子mは分子タイプM(例えばUniProtデータベースで表現)のインスタンスであり、ある方法で作用するその傾向は分子機能タイプF(対応するGOタームで表現)のインスタンスである。 つまり、遺伝子産物型Adh1(アルコール脱水素酵素1(クラスI))の分子は、その機能として分子機能型アルコール脱水素酵素活性のインスタンスを持つ。 つまり、このような分子は、与えられた文脈の中でこの機能を実行する可能性を持っているということである。 この意味での「活性」という用語は、生化学的な文脈で使われるような意味であり、「潜在的な活性」という意味としてより適切に読まれる。 アルコールデヒドロゲナーゼ」という同じ文字列が遺伝子名と分子機能の両方で使われているが、この文字列自体は異なる実体を指していることに注意しよう。 この曖昧さは、分子が実行する機能に基づいて名前を付ける傾向に根ざしており、分子が複数の機能を実行する場合など、分子の名前とその分子が帰属する分子機能が必ずしも一致しないことがあるため、この区別を理解することが重要です

ある遺伝子産物型のインスタンスがある機能を実行する可能性があると言っても、この型のすべてのインスタンスが実際にこの機能を実行することを意味しません。 例えば、マウスの遺伝子産物型Zp2の分子は卵母細胞に存在し、受精の際に遺伝子産物型Acrの分子と結合する性質がある。 しかし、卵母細胞が受精しない場合、分子はまだ存在し、結合機能を実行する傾向を持っているが、機能は実行されない。

ある分子機能タイプFが存在するかどうかをテストするために使用する実験的証拠は、ある特定のタイプMの分子におけるその機能タイプの実行の「アッセイ」という形でもたらされる。 例えば、図2はZhangらの研究から得られた分子機能レチノールデヒドロゲナーゼ活性のアッセイ結果である(本稿ではイタリック体で型を表す)。分子機能型レチノールデヒドロゲナーゼ活性は、分子機能オントロジーでは「レチノール+NAD+→レチナ+NADH+H+」という反応で定義されている。 この用語に注釈された遺伝子産物分子は、この触媒活性を実行する可能性を持っている。 この実験では、細胞タンパク質抽出液を2種類の基質、all-trans-retinol(開丸)または9-cis-retinol(塗丸)と補酵素NAD+とともに10分間インキュベートし、生成したレチナールの量を測定した。 グラフは、使用した基質(レチノイド)の濃度に対する生成物(レチナール)の蓄積速度を示しています。 この結果から、GO分子機能型レチノールデヒドロゲナーゼ活性で定義された反応は、確かにインスタンス化されている、つまりこの機能の実行が起こったことがわかる。 レチノールがレチナールに変換される現象が観察されたことは、この分子機能タイプのインスタンスが存在することの証拠である。 この実験では、実際に実行される様子を観察することで、機能型のインスタンスを同定しています。

Figure 2
figure 2

Molecular Function Annotation Data.JPは、レチノール脱水素酵素活性というタイプの分子機能を持つ分子と断定している。 このグラフはZhang et al.から転載した。 グラフはX軸に基質として使用したレチノイドの濃度、Y軸にレチノールデヒドロゲナーゼ活性をとっている。 開いている円は基質として all-trans-retinol を、閉じている円は基質として 9-cis-retinol を表している。 酵素サンプルは、Rdh1遺伝子をコードするcDNAを導入した細胞の粗抽出液から採取したものである。

生物プロセスアノテーション

分子機能インスタンスは、ある方法で作用する遺伝子産物インスタンスの永続的な潜在能力のことである。 生物学的プロセスインスタンスは、特定の生物学的目的を達成するために一緒に働く1つまたは複数のそのような分子機能インスタンスの実行です。 生物学的プロセスとは、細胞レベルまたは生物レベルの粒度であり、機能の実行は分子レベルである。 分子機能と生物学的プロセスの間には関係がある。 現時点では、この関係はGOでは明示的に表現されていない。 遺伝子アノテーションの観点からは、細胞や生物レベルのインスタンス-インスタンス関係を超えて、分子レベルの遺伝子産物型と細胞や生物レベルのプロセス型を結びつけるタイプ-タイプ関係を推論する能力を獲得することに興味がある。 我々は、ある遺伝子産物型の分子が、その実行がある型の生物学的プロセスの発生に寄与する分子機能型(既知または未知)のインスタンスと関連づけられるという事実に興味がある。 このようなタイプ-タイプ関係についての推論が可能なのは、実験が、典型的な状況、すなわち、実験者の努力の結果、妨害となる出来事が起こらない状況において、特定の生物学的条件が満たされたときに何が起こるかを検証するように設計されているためである。 実験は再現性と予測性を持つように設計されており、定義された条件を満たす生物系で見られると予想される事例を記述する。 もし将来の実験で、先行する実験が意図した典型的な状況を記述していないことが分かったら、先行する実験からの結論は疑問視され、再分析や再解釈、あるいは完全に否定され、対応する注釈はそれに応じて修正される必要がある

このように注釈は、オントロジーに記述された型-タイプの関係における誤りを指摘することがある。 その例として、最近、GO Biological Process オントロジーから神経伝達物質分泌の is_a 子として seretonin secretion という型が削除されたことが挙げられる。 この変更は、セロトニンが神経伝達物質として作用しない免疫系の細胞から分泌される可能性があることを示す論文のアノテーションの結果として行われた。 生物学的プロセスタイプPのインスタンスが、与えられた遺伝子産物タイプMのインスタンスと関連していることが、直接観察または実験的アッセイによって検出された場合、これは生物学的プロセスアノテーションと呼ばれるMとP間のその種の関連性を主張することが正当化される。 キュレーターはこれらのアノテーションにIMPエビデンスコードを使用する。 図 3 は、Washington-Smoak らによって行われた、マウスの心臓発生における Shh 遺伝子の変異の影響に関する変異解析の一例である。 左のパネルは、胚発生16.5日目の遺伝子のコピーが正常な心臓(WT)の画像、右のパネルは胚発生16.5日目の遺伝子のコピーが欠損している心臓の画像である。 この図から、欠陥遺伝子を持つ胚では、心臓の流出路の発達に欠陥があることが明らかである。 GO Biological Processオントロジーでは、心臓発生というタイプを次のように定義している。 心臓の形成から成熟した構造まで、時間の経過に伴って進行する特定の結果を持つプロセス。 心臓は中空の筋肉質の器官で、リズミカルに収縮することで血液の循環を維持している」

Figure 3
figure 3

Biological Process Annotation Data.を参照。 この図はWashington Smoak et al.から転載した。 この図は、16.5dpcのマウス胚の心臓の顕微鏡写真である。 左の図はShh遺伝子の機能的コピーを2つ持つ動物、右の図は機能的コピーを持たない動物である。 AoとPaはそれぞれ大動脈と肺動脈を示す。 は流出路の異常を示す。 Developmental Biology, 283, Washington Smoak et al, Sonic hedgehog is required for cardiac outflow tract and neural crest development, 357-72, Copyright 2005, with permission from Elsevier.

Figure 4
“>

Cellular Component Annotation.FIGure 5

figure 6 <div> <div><5769 この図は、MacPhee et al.から転載したものである。 この図は、ATP1A1タンパク質の免疫蛍光法による局在診断の結果である顕微鏡写真である。 照明された部分は、細胞膜に沿ったタンパク質の位置を示している。 Developmental Biology, 222, MacPhee et al, Differential involvement of Na(+),K(+)-ATPase isozymes in preimplantation development of the mouse, 486-498, Copyright 2000, with permission from Elsevier.から転載している。</p></div> </figure></div> <p>ワシントン-スモークらで報告された変異研究に基づき、MGIキュレーターがIMP証拠コードを用いて心臓発生とShh遺伝子を結びつけるアノテーションを作成した(Fig.1)。 この注釈は、正常な動物において、Shh遺伝子の産物のうち、その実行が生物学的プロセスの心臓発達の発生に寄与する分子機能を持つ分子を同定することに基づいている。 正常な動物で観察されるからこそ、生物学的な心臓の発達過程が存在することがわかるのである。 SHHの分子がこのプロセスに寄与していることは、動物におけるShh遺伝子の遺伝子産物のすべてのインスタンスを取り去ったとき、心臓の発達のプロセスが妨げられるので、私たちは知っているのです。 このように、SHHタンパク質分子は、Biological Process ontologyのheart developmentという型のインスタンスに寄与する分子機能を実行する可能性を持っていることが確認された。 また、あるマウスでSHH分子の分子機能が実行されると、そのマウスの心臓の発達に何らかの形で貢献することが一般化される。 しかし、どのような表現型アッセイであっても、その結果は表現型そのものの解明に限定される。 上記の実験では、生物学的プロセスは確認できたが、実行された機能の性質について直接的な推論を行うことはできない。 分子機能オントロジーと生物学的プロセスオントロジーが独立して開発されたのは、このような実用的な理由によるものである。</p> <h3>細胞成分アノテーション</h3> <p>多くの場合、遺伝子産物と細胞成分のタイプを結びつけるアノテーションは、顕微鏡で細胞成分のインスタンスを直接観察することに基づいて行われる。例えば、着床前のマウス胚におけるATP1a1遺伝子産物を認識する抗体を用いてそのインスタンスの位置を表示する実験(図4)を報告しているように、である。 蛍光染色により、この遺伝子産物が胚の細胞の細胞膜に位置していることがわかる。 この場合、遺伝子産物のインスタンスは蛍光抗体と結合した分子であり、細胞成分のインスタンスは顕微鏡で観察される細胞膜である。 そこで、キュレーターはこの実験結果を用いて、ATP1A1遺伝子産物をGO細胞成分plasma membraneにアノテーションした(図1)。 分子機能と生物学的プロセスと同様に、分子機能と細胞成分の関係も存在する。 ある細胞成分のインスタンスで遺伝子産物の分子が見つかれば、その遺伝子産物はその細胞成分でもその機能を実行する可能性があるという仮説は簡単である。 もし、その細胞成分の中で機能の実行が検出されれば、分子機能の種類と細胞成分の種類に関する一般化が可能になる。 蓄積された実験データに基づいて、遺伝子産物の十分なインスタンスが細胞成分型のいくつかのインスタンスで機能を実行し、十分な分子が、これらの実行が生物学的に関連するように機能を実行することを仮定する。 分子機能と生物学的プロセスのように、分子機能と細胞成分のアノテーションの実験的証拠は分離可能であることが多い。 したがって、実用的な観点から、これらのオントロジーも別々に開発されている</p>。

コメントを残す

メールアドレスが公開されることはありません。