移動要素配列のみから得られた機能するヒト遺伝子のコード配列

Results and Discussion

AD7Cの場合。 AD7Cは神経細胞の糸状タンパク質遺伝子である。 これは41kDaの膜スパンリンタンパク質をコードしており、初期アルツハイマー病の診断に有用である(14, 15)。 コード配列は1,128 ntの長さで、repeatmaskerによると5つ(または4つ、下記参照)のAlu配列の断片から構成されていることがわかった。 すべてAlu反復配列の逆相補配列と一致する。 このアラインメントを表2にまとめた。 表2には、最もよく一致したAlu配列の各領域の類似度と長さが記載されているが、これらはref. 14.

この表を見る。

  • View inline
  • View popup

Table 2. AD7C

最初に、AluSpはコーディング配列の最初の281 ntに92%の精度でマッチする。 3ntのギャップの後、141ntのAluJoが87%の精度でマッチする。 次に2nt後、AluJo配列の追加部分が、翻訳に影響を与える2つの置換によって修飾されたポリ(A)テールのかなりの部分を含む167ntに93%の精度で一致した。 これらの2つの短い断片は、コーディング配列中の1つのAlu配列ホモログを表しているようだが、AluJoの重複領域があるため、明らかに再配列が起こっているようである。 次に、ポリ(A)テールが修飾されている部分を含むAluScと302ntで92%一致した。 最後に、239 ntのAluSxが88%で一致し、これもポリ(A)テールのかなりの部分が修飾されていることがわかる。 ゲノムでは、この一致はコーディング配列領域の終わりまで続き、Alu配列にもう一つ一致するものがある(データは示していない)

遺伝子コーディング領域全体がAlu配列のクラスターから作られたように思われる。 個々のAlu配列の一致の間の数塩基のギャップは、おそらくrepeatmaskerのアライメントプロセスの詳細であり、無視してもよいだろう。 興味あることは、ME配列から有用な遺伝子を形成するために、どの程度配列に変化が生じているかである。 表2にまとめたAlu配列は、repeatmaskerのコレクションから単にベストマッチしたものであり、必ずしも元のAluクラスターに存在したAlu配列ではないので、一般にどのような配列変化が生じたかを特定することはできない。 サンプルは、含まれる3本のポリ(A)鎖を調べることで推定することができる。 これらは相補的なAlu配列の中で合計60Tsになる。 これらのポリ(T)領域では、8つの変化が起こっており、すべてフェニルアラニン以外のアミノ酸の翻訳可能なコドンにつながっている。 これらは6つのA置換と2つのAs挿入から成っている。 この小さなサンプルで≈17%の変化は正の選択を示唆している。 もちろん、Tsの列の中で可能なサイレント置換は1つだけで、3番目の塩基のTからCへの遷移である。 さらに、5つのAlu配列のうち、Tに富む内部配列が4例あり、そのうちの1例ではこのような無声置換が起こっている。 このうち2例では、6塩基の欠失と4塩基の挿入による長さの違いが生じており、当然ながら翻訳可能なコドンにつながっている。 これは、Aluリピートのクラスターが活性のあるヒト遺伝子に変換された明確なケースである。 私達は、5′制御領域がどのように構成されているかはまだ知りません。 この情報があれば、いつの日か、この遺伝子を生み出した進化の過程について、より詳しく語ることができるようになるでしょう。 ヒトゲノムの特定可能な全長表現(ビルド34)は、AD7C mRNA配列と97%しか類似していないことが指摘されている(A. F. Smit, personal communication)(14)。 その違いは、ゲノム配列がかなりの長さにわたって翻訳できないようなものである。 mRNAのより良いゲノムコピーは見つかっていないが、この遺伝子はイントロンを含む可能性があり、Alu配列のために同定が困難かもしれない。

BNIP3. BNIP3は、他のタンパク質との相互作用を通じてアポトーシスの制御に関わるタンパク質の遺伝子である(16-18)。 OMIM(Online Mendelian Inheritance in Man)の項目の見出しは、BCL2/ADENOVIRUS E1B 19KD PROTEIN-INTERACTING PROTEIN 3: BNIP3である。 表1によると、コード配列の97%はHERV70RMのそれと密接に関連している。 HERV70RMはrepeatmaskerライブラリに含まれるHERV70のバージョンに使っている名前で、認識できるレトロウイルス遺伝子残基を含まないが、ヒト内在性レトロウイルスと名付けられている。 長さは7kb以上で、BNIP3コード配列との関係はHERV70RMの4641ヌクレオチド以降に生じる。 BNIP3 mRNAのコーディング配列は、この遺伝子がほぼ15kbのDNAに広がる6つのエキソンからなるにもかかわらず、HERV70RMの配列と完全に整列している。 この関係を解決するために、遺伝子全体に対してrepeatmaskerを実行し、その結果を表3に示した。 これらのデータのほとんどはrepeatmaskerの出力であり、遺伝子内のエクソンの位置を示すために2列が追加されている。 ほとんどの場合、遺伝子中のHERV70RMセグメントの同定は、エクソンと密接に整合している。 この一致は、歴史が明らかであるように思えるほどである。 おそらく、HERV70RMの4-7kb程度の部分がイントロンのない遺伝子に変換され、それが進化して有用となり、後にそこにイントロンが挿入されて現代のBNIP3遺伝子につながったに違いない。 実際、14番染色体上のBNIP3P配列は、イントロンを欠き、ヒトゲノムを用いてBNIP3 mRNAと行った検索で非常に良い一致を示すことから、偽遺伝子と同定されたものである。 これは、このイベントの初期の段階の化石であるか、あるいは、後の段階でmRNAから作られた実際の偽遺伝子である可能性がある。

  • View inline
  • View popup
Table 3. BNIP3遺伝子のME

この解釈をさらに検討するために、コーディング配列はblast2配列を用いてHERV70RM配列と整列された。 その結果、HERV70RM配列の5507-6073と6732-7289の位置にほぼ完全なcds領域のコピーが2つあり、≈80%一致した。 従って、HERV70RMの表3に示した位置は、単にrepeatmaskerのベストフィットであり、必ずしもBNIP3コード配列の実際の配列起源を示すものではない。 HERV70RMの領域の一つのコピーとして発生した可能性が高いと思われる。 表3は、HERV70RMとBNIP3のエキソンでない遺伝子の領域との間の配列類似性の一例を示している。 この領域の歴史は不明である。 いずれにしても、BNIP3遺伝子のエキソンのほとんどがHERV70RMの連続した伸張に由来していることは明らかである。 BNIP3遺伝子の中に広く広がっているHERV70RMの一連のつながった断片の存在について、他に思い当たる説明がないので、これは「イントロンの遅れ」の良いケースと思われる。

重要な問題はHERV70RMの性質である。 これらの研究で使われたコピーはrepeatmaskerにリストされたヒトの繰り返し配列のライブラリーにリストされている。 これは不完全なものであり、古典的な内在性レトロウイルスとは言えない。 hervdデータベース(http://herv.img.cas.cz)は、私がここでHERV70RMと呼んでいるものと配列が似ているヒトゲノムの多くの領域をリストしているが、それらのどれも≈1 kb以上の長さにはマッチしていない。 実際、このデータベースにはBNIP3 cdsにマッチする63の配列があるが、そのほとんどは短いマッチング領域しか示していない。 hervdデータベースには、HERV70と呼ばれる、HERV70RMと配列の類似性を示さないエントリーが多数存在するため、状況の解明が必要である。 HERV70RMの完全な長さのコピーは現在のヒトゲノムには存在しないので、ヒト内在性レトロウイルス配列としての地位は疑わしい。Blast of the Human Genome (filter off) でHERV70RMで検索すると多くのヒットがあり、いくつかの例は完全長マッチであるかのようにグラフ化されます。 それらは存在せず、プログラムは近くの断片的なマッチのグループからそれらを組み立てた。

RepeatmaskerをHERV70RMに対して実行すると、Alu配列の二つの小さな断片と、その中の他のMEが発見された。 repeatmaskerがHERV70(HERV70RM)と同定する領域があり、これにはBNIP3コード配列のコピーの領域が含まれる。 ヒトゲノムのBlast(フィルターオフ、デフォルト)では、hervdデータベースに存在する63個のうち、BNIP3コード配列にマッチする配列は3つしか見つからなかったので、ここで警告が必要です。 コーディング配列(cds)にマッチする断片が多数存在することを確認し、Blastを用いてヒトゲノムの中から120個を発見した。 このデータは、HERV70RMの解釈はともかく、BNIP3遺伝子のcds配列がMEの配列と全体として密接に関連していることを示しており、重要なポイントである。 BNIP3遺伝子はマウスゲノムに存在し、そのコード配列は89%の確率でヒトと一致します。 タンパク質の配列は、マウスのタンパク質に5aのギャップと1aのギャップがある以外は、90%の精度で一致する。 遺伝子の配置も似ており、6個のエキソンが≈15 kbに渡って伸びている。 タンパク質の違いに対応する15ntと3ntのギャップを除けば、ヒトのエクソンと同じ長さである。 cdは配列上非常に密接に一致しているので、マウスBNIP3エキソンはヒトBNIP3エキソンと同様にヒトHERV70RMとの関係を示している。 興味深いことに、マウスゲノムのブラストで見られる、ヒトHERV70RMと一致する配列は、BNIP3エクソン以外には存在しない。 もちろん、他の多くのHERVsやMERVsは配列を共有しているが、マウスゲノムには同等のERVはないようだ。repeatmaskerは、マウスBNIP3遺伝子領域を調べるために、ヒトのリピートでもマウスのリピートでも使用することができる。 ヒトのリピートでは、マウスBNIP3エクソンはHERV70RM配列として認識されるが、マウスのリピートでは、配列は一致しない。 2つの遺伝子のエクソンはほぼ同じである。 マウスとヒトのBNIP3 cdのヌクレオチド配列は、90%近く一致している。 マウスとヒトのコーディング配列間のK sは0.41、K a = 0.047である(K sは同義置換による分岐、K aはアミノ酸置換を引き起こす変化による分岐)(19)。 この類似性から、どのような事象であれ、はるか昔に起こったものであることがわかる。

BNIP3遺伝子はラットからも配列が決定されており、cdsはマウスBNIP3のそれと95%似ているので、同じ議論が適用される。 ラットとヒトのコード配列間のK sは0.37、K a = 0.048である(20)。ラットゲノムのblastではヒトHERV70RMの一部に類似するBNIP3エクソンと他の二つのラット配列が見つかったが、マウスゲノムのblastではヒトHERV70RMに類似するBNIP3エクソンのみが見つかっている。 GenBankのBlast検索によると、ニワトリ(Gallus gallus)はヒトBNIP3と類似のmRNA配列を持っている。 ある大きな領域では453 nt中367 nt、81%の一致が見られ、その他の小さな領域にも類似の証拠がある。 BNIP3とHERV70RMの進化と関係を完全に調べることは、多くの種で価値がありそうだ。

Syncytin. この例はSmit (4)によって挙げられたものであるが、最近の証拠ではSyncytinはヒト胎盤で機能する遺伝子であることが示されているのでここに記した(21, 22)。 このmRNAは、ヒトゲノムに多くのコピーで存在する内在性レトロウイルスHERV-Wに全面的に由来している。 著者ら(21)は、ERVWE1が転写産物の源となる遺伝子領域であると特定しているが、これは確かではないかもしれない。 ERVWE1は10.2kbの長さで、通常のLTR-gag-pol-env-LTRの配置で構成されている。 Syncytin mRNAは2.8kbの長さで、5′LTR、いくつかの追加配列、env遺伝子、3′LTRから構成されている。 1,617ntのcdsは内在性レトロウイルスのenv遺伝子だけを含んでいる。 その中で、シンシチンの機能的に重要な領域を特定することができる。 env遺伝子がどの程度の進化的変化を経て現在の機能を持つようになったかは不明である。 Entrez GeneにはGeneRIFsと呼ばれるものが掲載されている(www.ncbi.nlm.nih.gov/projects/GeneRIF/GeneRIFhelp.html):

  1. Env HERV-W glycoprotein mediates cell-cell fusion upon interaction with the type D mammalian retrovirus receptor(哺乳類レトロウイルス受容体と相互作用する際に細胞間の融合を仲介する)。 Envタンパク質は胎盤のsyncytiotrophoblastで検出され、妊娠中や胎盤形成中の生理学的役割を示唆している。

  2. 正常な胎盤構造、特に細胞栄養芽細胞とsyncytiotrophoblastの融合過程に寄与している。

  3. BeWo細胞において、SyncytinのmRNA量はフォルスコリンによって刺激されることが示された。

  4. シンシチン遺伝子の活性化は終期胎盤で最も高い。

  5. HERV-Wエンブ糖タンパク質はヒト絨毛細胞性芽球の初代培養の分化に直接関与している。

  6. 低酸素はヒト胎盤BeWo細胞の絨毛細胞融合時にSyncytinとその受容体の発現と機能を変化させる。

  7. Syncytin遺伝子発現は低酸素によってダウンレギュレートされ、胎盤低酸素の過程で障害妊娠でSyncytinが減少するという仮説が強化された

HHCM. HHCMは、52kDaのタンパク質を(1,404-ntのcdsで)コードするヒト肝細胞癌3.0kbのDNA配列として同定されている。 それは、ラット肝細胞とNIH 3T3線維芽細胞の両方を形質転換する。†表1は、それがほぼ90%L1 MEで構成されていることを示している。 配列の一致率は≈70%に過ぎず、L1配列の一部を起源としているため、多くの配列変化が生じている。 L1MD2の18-331 ntと437-1470 ntの領域にマッチしている。 MEは不思議な働きをするものだが、これはL1が我々のゲノムに与えた有益な貢献ではないようだ。 NM_006543のレコードは「追加レビューのためRefSeqスタッフにより一時的に削除」され、Smit(私信)は密接に一致するゲノム配列を見つけられませんでした。 従って、この例は今後の研究の候補としなければならない。

LG30. LG30は13番染色体のG72/G30領域にある機能未知の遺伝子である。 この領域の変異は双極性障害に関係しているが(23, 24)、G72が原因である可能性が高いようである(25)。 LG30のコード領域は216ntしかなく、その長さの100%がLTR class ME (MLT1E, MLT1G) に関係している。

GTF2IRD2. GTF2IRD2は当初、転写因子遺伝子として記載され(26, 27)、NCBIのエントリーは表1に示す断片から構成されていた。 そのため、ここに記載した。 最近、詳しく研究され(28, 29)、この断片は実は3′エクソンであり、全コード配列の半分以上の長さを持つ唯一の長いエクソンであることが判明している。 このエクソンは完全にME配列Charlie8で構成されている。 以下は文献29からの引用である。 「GTF2IRD2は7q11.23に集まった新規TFII-Iファミリー遺伝子の3番目のメンバーである。 GTF2IRD2タンパク質は2つの推定ヘリックス-ループ-ヘリックス領域(I-リピート)と珍しいC-末端のCHARLIE8トランスポゾン様ドメインを含み、機能的融合遺伝子を生み出すトランスポゾンのランダム挿入の結果として生じたと考えられている。 CHARLIE8様領域は、シャルコー・マリー・トゥース神経障害1A型で提唱されているのと同様のメカニズムで、トランスポザーゼの安定性に影響を及ぼす可能性のある、ある程度のトランスポザーゼ機能をまだ持っていることが示唆された。 GTF2IRD2は哺乳類において高度に保存されており、マウスのオルソログ(Gtf2ird2)も単離されている」

MEに由来するらしい他の転写コード化配列。 表4は、コーディング配列がコンピュータプログラムによって決定され、これらのcdが少なくとも80%の程度でMEから構成されている、観察された転写物の49例のリストである。 このコレクションは2004年2月にNCBIの遺伝子転写産物コレクションに対してrepeatmaskerを実行して作られましたが、3月初旬に確認したところ、このようにマークされた転写産物はすべてコレクションから削除されていました。 誰かがジャンクだと判断したのだろう。ある意味そうかもしれないが、この記事の観点からは、それらは潜在的に有用であると考えられ、さらに調査されるべきものである。 その中には、MEの断片が転写された例もありそうで、これは頻繁に起こるプロセスである。 ME1行目の領域は、マウス、ラット、ヒトのRNAコレクションで発現している(未発表データ)。 Smitの表(4)は拡張され(27)、少なくとも部分的にMEに由来する47の潜在的遺伝子を含むようになった。 しかし、これら2つの表の中心的な問題は、これらの候補が実際に機能している遺伝子であるかどうかということである。 実際、大半の場合、これらのmRNAが機能している遺伝子によって産生されているという証拠はない。 これらの表には、mRNAのほぼ全体がMEに由来する例が2つあり、そのうちの1つは前述のSyncytinである(21, 22)。 もう一つはenv遺伝子とLTRを含むHERV3にかなり近い関係にある配列の断片の転写と思われ、その転写物はenv遺伝子mRNAと記載されている。 その機能の証拠は胎盤栄養細胞における転写であり(28)、ERVに類似し胎盤において重要な役割を持つと主張され得るマウスのintracysternal A-particleを連想させる(29)。

記載した事例とおそらく今述べた例(4、27)は、MEの一部が変換されて本質的に完全な遺伝子コード配列を形成したことを示すものである。 表4が示すように、もっと多くの例があると思われる。 これらの観察は、MEが我々の進化に貢献した多くの既知の方法を追加するものである。 このテーマについては、最近、Kazazian(30)がレビューしており、彼は、MEは単に持っていると便利というだけでなく、運転席に座っていると特徴づけています。 このレビューのため、ここで広範な議論をする理由はない

コメントを残す

メールアドレスが公開されることはありません。