Sequence assemblies and genome annotation
イルミナのペアエンド(40-70×)を混合使用して16実験室マウス系統について染色体規模のアセンブリが作成された。 mate-pairs(3、6、10キロベース)、fosmid、BAC末端配列(補足表1)、Dovetail Genomics Chicago libraries19。 擬似染色体は、種を超えたシンテニーアラインメントを利用して並行して作成され、未知のギャップ塩基を除いて2.254 (WSB/EiJ) から 2.328 ギガベース (Gb) (AKR/J) のゲノムアセンブリとなりました。 各株のゲノム長の約0.5-2%は未配列で、未知のギャップ塩基(18-49%)と繰り返し配列(61-79%)で構成されており(補足表2)、1株あたり89-410の遺伝子が予測されていた(補足表3)。 14系統のミトコンドリアゲノム(mtDNA)アセンブリは既報の配列20を支持したが、AKR/J、BALB/cJ、C3H/HeJ、LP/Jでは少数の高品質新規配列変異がGenBankエントリーと矛盾した(補足表4)。 PWK/PhJとNZO/HlLtJでは、新規のmtDNAハプロタイプが同定された。 特にNZO/HlLtJは55のSNPを持ち(33は野生由来株と共有)、他の古典的近縁種とは異なるようである(補足図1)。 これまでの変異カタログでは、NZO/HlLtJと別の実験用近交系系統NZB/BlNJ21との間に高い一致性(>97%共有SNPs)が示されている。
我々は、まず各系統のペアエンドシーケンスリードをすべてそれぞれのゲノムアセンブリに再整列し、次にこれらの整列を使用してSNPとインデルを同定することにより、C57BL/6J参照ゲノム2バージョン(MGSCv311とGRCm382)に対する系統染色体の塩基精度を評価した。 SNPとインデルを合わせたエラー率は、MGSCv3が0.334、GRCm38が0.02であるのに対し、1kbあたり0.09-0.1エラーだった(補足表5)。 次に、以前に8つの株の構造変異コールを検証するために使用した612組のポリメラーゼ連鎖反応(PCR)プライマー対を使用した22。 このアセンブリでは、4.7-6.7%のプライマーペアが誤ったアライメントを示したのに対し、MGSCv3では10%であった(補足表6)。 最後に、C57BL/6J、CAST/EiJ、PWK/PhJ、SPRET/EiJの肝臓と脾臓からのPacBioロングリード相補DNA配列のアライメントは、GRCm38参照ゲノムが最も正しく整列したcDNAリードの割合を示し(それぞれ99%と98%)、系統やMGSCv3は1-2%低かった(補足表7)。 アセンブリにおける既知のマウスリピートファミリーの表現から、ショートリピート(<200塩基対(bp))の含有量はGRCm38と同等であることがわかった(補足図2a,b)。 8361>
GENCODE C57BL/6Jアノテーションと複数の組織からの株特異的RNAシーケンス(RNA-Seq)を用いて、株特異的コンセンサス遺伝子セットを作成した23(補足表8、補足図3)。 コンセンサス遺伝子セットには、20,000以上のタンパク質コーディング遺伝子と18,000以上の非コーディング遺伝子が含まれている(図1aおよび補足表1)。 古典的実験室株では、GRCm38参照遺伝子セットに存在するコーディング転写産物の90.2%(野生由来株では88.0%)、非コーディング転写産物の91.2%(野生由来株では91.4%)が比較注釈されている。 株特異的RNA-Seqからの遺伝子予測(Comparative Augustus24)は、古典的な株遺伝子アノテーションセットに平均1,400の新しいアイソフォームを野生由来に、1,207の新しいアイソフォームを追加している。 PacBio cDNAシーケンスに基づく遺伝子予測により、CAST/EiJ、PWK/PhJ、SPRET/EiJにさらに平均1,865の新規アイソフォームが導入された。 推定新規遺伝子座は、株特異的RNA-Seqから予測されたスプライシング遺伝子で、参照ゲノムから予測された遺伝子と重複していないものと定義される。 平均して、野生株では37個、古典株では22個の遺伝子が推定新規遺伝子座(補足データ1)であった。 これらの多くは、遺伝子重複事象に起因するものと思われる。 さらに、自動化された偽遺伝子アノテーションワークフローであるPseudopipe25と、GRCm38参照ゲノムからリフティングした手動キュレーションによる偽遺伝子により、1株あたり平均11,000(全株間で3,317の保存)偽遺伝子が同定され(補足図4)、これらはレトロトランスポジション(〜80%)または遺伝子複製(〜20%)により発生したようであった。
a, GENCODE biotypeで分類した遺伝子数を示す系統特異的遺伝子セットの概要。 b, C57BL/6J(GRCm38)参照ゲノム(上)に対する配列決定リードのアラインメントに基づく、17近交系マウス系統の11番染色体上の50Mb区間の200kbウィンドウにおけるHeterozygous SNP(hSNP)密度。 ラベルは最も密度の高い領域と重なる遺伝子を示す。 GRCm38の71.006-71.170MbのCAST/EiJとWSB/EiJで可視化したSNP(上段)、Derl2、Mis12、Nlrp1b(下段)など。 c, hSNPsに富む領域の配列とタンパク質コード遺伝子の総量(GRCm38参照ゲノムとの比較)。 e, hSNP領域内外のLTR、LINE、SINEの配列分岐度(%)を箱ひげ図にしたもの。 配列分岐は、トランスポーザブルエレメントタイプのコンセンサス配列に対する相対値(n = GRCm38のリピート数、***はWelchの2標本t検定によるP < 0.001を示す)である。 箱ひげ図は25%、75%、中央値を示す。
Regions of the mouse genome with extreme allelic variation
Inbred laboratory mouse strains are characterized by least 20 generations of inbreeding and are genetically homozygous at almost all loci1.The inbspreedings inbreeding, the inbred laboratory mouse strains are inbspreeding. にもかかわらず、以前のSNP variation catalogでは、リードをC57BL/6J参照ゲノムにアラインメントすると、高品質のヘテロ接合性SNP(hSNP)が同定された12。 hSNPの密度が高いということは、コピー数の変化や、リファレンスアセンブリには存在しない新規遺伝子が、リファレンス中の単一の遺伝子座に部分的にマッピングせざるを得なかったことを示しているのかもしれない12,21。 したがって、これらの同定は、ゲノムアセンブリの誤りを発見するための強力なツールである。 我々は、MGP variation catalog v521から116,439 (C57BL/6NJ) から 1,895,741 (SPRET/EiJ) までの高品質hSNPを同定した(補足表9)。 上位5%のSNP密集領域(10kbスライディングウィンドウあたり71個以上のSNPが存在する領域)に着目して解析を行ったところ、系統間で既知の多型領域の大部分が同定され(補図5)、全hSNPの約49%を占めた(補図9、補図6a)。 このカットオフをすべての系統特異的hSNP領域に適用し、重複または隣接するウィンドウをマージした結果、1系統あたり117 (C57BL/6NJ) から 2,567 (SPRET/EiJ) のhSNP領域が残り(補足表9)、平均サイズは18-20 kbだった(補足表6b)。 多くのhSNPクラスタは免疫(例えばMHC、NOD様受容体、AIM様受容体)、感覚(例えば嗅覚、味覚受容体)、生殖(例えば妊娠特異的糖タンパク質、精子関連Eリッチタンパク質)、神経系・行動関連遺伝子(例えばitch receptor26、γ-protocadherins27)などに重複していた(図1b、補足図5)。 野生株hSNP領域はいずれも遺伝子とコーディング配列(CDS)の塩基対数がどの古典的近縁種よりも大きい(それぞれ≧503、≧0.36メガベース(Mb)、補足表9)。 C57BL/6JとC57BL/6NJで同定された領域(それぞれ117と141、合わせて145)は、ギャップ、未配置スキャフォールド、セントロメア領域などの既知のGRCm38アセンブリ問題と交差していた(107/145、73.8%)。 残りの候補領域には、大きなタンパク質ファミリー(15/145、10.3%)と繰り返し要素(17/145、11.7%)が含まれている(補足データ2)。
hSNP密集領域の全遺伝子の組み合わせから26のタンパク質クラスに割り当てられた1,109のPantherDBマッチを特定することによって、hSNP領域に存在するタンパク質クラスを調査した(補足データ3)。 防衛・免疫系が最も多く(155遺伝子、Supplementary Data 4)、全タンパク質クラスヒットの13.98%を占めた(Supplementary Table 10)。 これは、ゲノムワイドで推定される割合と比較して5倍も濃縮されている(図1d)。 特に、古典的な株では89個の免疫関連遺伝子が同定され、そのうち84個は少なくとも1つの野生由来株と共通であった(図1d)。 SPRET/EiJは最も多くの系統特異的遺伝子をヒットさせた(22遺伝子)。
hSNP領域には多くのパラロガス遺伝子ファミリーが存在し(補足データ3)、機能的ヒトオルソログを持つ遺伝子も含まれていた。 いくつかの顕著な例としては、アポリポタンパク質L対立遺伝子(その変異体は、ヒト睡眠病の主要原因であるTrypanosoma bruceiに対する抵抗性を与える可能性がある)28、IFI16(インターフェロンγ誘導性タンパク質16、AIM2様受容体のメンバー)、ヒト免疫ウイルス(HIV)30に頓挫感染したリンパ系CD4 T細胞の死に必要なDNAセンサがある30、など。 NAIP (NLR family apoptosis inhibitory protein)は、機能的なコピー数の変動がLegionella pneumophila感染時の細胞死の増加と関連している31、セクレタリオグロビン (Scgb members)は、ヒトおよびマウスにおいて腫瘍形成と浸潤に関与していると考えられる32,33。 また、機能情報がほとんど知られていない大規模な遺伝子ファミリーも同定された。 ヒポカルシン様1(Hpcal1)とそのホモログを含む約50の遺伝子群が同定された(第12染色体:18-25Mb)。 Hpcal1は、主に網膜光受容体、神経細胞、神経内分泌細胞で発現する神経系カルシウムセンサーに属する遺伝子である34。 この領域はC57BL/6JとC57BL/6NJを除く全ての系統でhSNPsが濃縮されている。 興味深いことに、この領域内のCpsf3(21.29Mb)は、すべての系統で保存性の高い島に位置し、C57BL/6NJのホモ接合体ノックアウトでは、生存能力の低い子孫を産むことが分かっている35。 その他の例としては、約20の真核生物翻訳開始因子1A(eIF1a)ホモログを含む12番染色体上の別の領域(87-88Mb)、約100のDlg1様遺伝子を含む14番染色体上の領域(41-45Mb)などがある。 全てのhSNP候補領域内の遺伝子は同定され、注釈が付けられている(補足図5)。
GRCm38上のhSNP密集領域におけるレトロトランスポゾン量を推定無分布と比較して調べたところ、LTR(経験値< 1×10-7) と long interspersed nuclear elements(LINE)(経験値< 1×10-7) が著しく豊富であることがわかった(補足表11、12)。 遺伝子レトロトランスポジションは古くから遺伝子ファミリーの多様性36、正選択された適応をもたらす新規対立遺伝子37の創造に関与していると言われている。 一旦転移された遺伝子は、配列の分岐に伴い、時間とともに変異を蓄積していく38,39。 LTR、LINE、short interspersed nuclear element(SINE)については、hSNP領域内の平均配列分岐率はゲノムの他の部分と比較して有意に低かった(P < 1×10-22) (Fig. 1e)。 平均配列分岐度の差が最も大きかったのは、hSNP密集領域内と外側のLTRの間であった。 8361>
De novo assembly of complex gene families
我々のデータは、これまでマウス系統のゲノムで知られていなかったコピー数の変動を解明し、遺伝子の拡大、縮小、新規対立遺伝子(<80%配列同一)を発見することに成功した。 例えば、嗅覚受容体は23の異なるクラスターが同定され、近交系間で実質的な変異があることが示された。 マウスでは、表現型の違い、特に食性や行動における違いが、異なる嗅覚受容体レパートリーと関連していることが分かっています40,41。 そこで、CAST/EiJの嗅覚受容体レパートリーをde novoアセンブリで解析し、1,249個の嗅覚受容体候補遺伝子を同定した(Supplementary Data 5)。 参照株(C57BL/6J)と比較して、CAST/EiJは20の嗅覚受容体を失い、37の遺伝子ファミリーを獲得している。 8361>
我々は、感染に対する自然および適応応答を制御するいくつかの重要な免疫遺伝子座に新しい遺伝子メンバーを発見した。 例えば、C57BL/6Jの第10染色体(22.1-22.4Mb)には、Raet1対立遺伝子とマイナー組織適合抗原であるH60のメンバーが含まれている。 Raet1とH60は、ナチュラルキラー細胞の活性化受容体であるNKG2Dにとって重要なリガンドである43。 NKG2Dリガンドは、感染細胞44や転移細胞45の表面に発現しており、移植片の自己免疫反応に関与している可能性がある46。 de novoアセンブリから、8つのCC創始者株において、6つの異なるRaet1/H60ハプロタイプが同定された。 同定されたハプロタイプのうち3つは古典的近縁種CCの創始者間で共有されており(A/J, 129S1/SvImJ, NOD/ShiLtJは同じハプロタイプ)、野生由来の近縁種(CAST/EiJ, PWK/PhJ, WSB/EiJ)にはそれぞれ3種類のRaet1/H60ハプロタイプが確認できた(図2bおよび補足図7、8参照)。 CAST/EiJハプロタイプは単一のRaet1ファミリーメンバー(Raet1e)のみをコードし、H60対立遺伝子を持たないが、古典的なNOD/ShiLtJハプロタイプは4つのH60と3つのRaet1対立遺伝子を持つ。 Aspergillus fumigatus感染に対する抵抗性を規定するいくつかの量的形質座位(QTL)の一つであるAspergillus resistant locus 4(Asprl4)はこの座位に重なり、1Mb(QTLの約10%)の区間からなり、他の古典的株と比較して、NZO/HlLtJに特有のハプロタイプを持っている(補足図7)。 A. fumigatus 感染に抵抗性を示す CAST/EiJ と NZO/HlLtJ では Asprl4 と生存率との間に系統特異的なハプロタイプが報告されており47 、これらはまたこの遺伝子座で H60 アレルを失った唯一の系統である。
11番染色体上の3つの免疫関連遺伝子座、IRG (GRCm38: 48.85-49.10 Mb), Nlrp1 (71.05-71.30 Mb), Slfn (82.9-83.3 Mb) について、多型の複雑さとマウス生存に対する重要性48, 49, 50を考慮した上で検討を行った。 Nlrp1遺伝子座(NOD-like receptors, pyrin domain-containing) は、内因性微生物産物や代謝ストレスを感知し、自然免疫反応を刺激するインフラマソーム成分をコードしている51。 ハツカネズミでは、Nlrp1対立遺伝子はBacillus anthracis致死毒素の感知に関与し、インフラマソームの活性化とマクロファージのパイロプトーシスを引き起こす52,53。 我々は、6つの株(CAST/EiJ, PWK/PhJ, WSB/EiJ, SPRET/EiJ, NOD/ShiLtJ, C57BL/6J)を比較し、7種類の異なるNlrp1ファミリーを見いだした。 各系統はNlrp1メンバーのユニークなハプロタイプを持ち、近交系マウス系統間でこの遺伝子座の広範な配列多様性が強調されている(図2c)。 3つのM. m. domesticus系統(C67BL/6J、NOD/ShiLtJ、WSB/EiJ)はそれぞれ異なる組み合わせのNlrp1ファミリーメンバーを持っており、Nlrp1d-1fはこれまで知られていなかった新しい系統特異的な対立遺伝子であることがわかった。 異なるNlrp1対立遺伝子間の多様性は、マウスとラットの対立遺伝子間の配列発散よりも高い。 例えば、C57BL/6JにはNlrp1cが存在するが、他の2系統には存在しない。一方、Nlrp1b2はNOD/ShiLtJとWSB/EiJの両方に存在するがC57BL/6Jには存在しない。 PWK/PhJ(M.musculus)では、Nlrp1遺伝子座はGRCm38参照ゲノムに対してほぼ2倍の大きさで、新規Nlrp1ホモログを含む(図2c)。一方、M. spretus(同じく野生由来)ではこの遺伝子座は他のどのマウス系統よりもはるかに短かった。 Nlrp1遺伝子座のPWK/PhJ集合体における遺伝子間領域の約90%はトランスポゾンで構成されている(図2d)。
野生由来のPWK/PhJ(M. m. musculus)とCAST/EiJ(M. m. castaneus)株はハプロタイプが非常に似ているが、PWK/PhJマクロファージは炭疽病致死毒素によるパイロプティック細胞死に対して抵抗性であるが、CAST/EiJマクロファージは抵抗性でない54. Nlrp1cはPWK/PhJマクロファージのcDNAから増幅されるが、CAST/EiJでは増幅されないことから、抵抗性の原因となっているファミリーメンバーである可能性が示唆された54。 de novoアセンブルでは、両マウス株はNlrp1cのプロモーター領域を共有している。しかし、転写されると、Nlrp1c_CASTのcDNAは、プライマー結合部位のSNPs(5′…CACT-3′ → 5′…TACC-3′ )により以前設計したプライマー54で増幅することができない。 PWK/PhJのプライマー結合部位はC57BL/6Jと同じであるが、Nlrp1cは偽遺伝子であると予測される。 Nlrp1b_CASTとNlrp1b_PWKの間ではヌクレオチド結合ドメイン(NBD)に18アミノ酸のミスマッチが見られた。 これらの相違は、Nlrp1cがマウスの炭疽病致死毒素耐性の唯一のメディエーターではなく、他のいくつかのメンバーが関与している可能性を示唆している。 CAST/EiJではNlrp1b2とNlrp1dは機能的に無傷であるが、PWK/PhJではストップコドンやフレームシフト変異があるため偽遺伝子と予想された。 C57BL/6Jでは、Nlrp1bの3つのスプライシングアイソフォーム(SV1、SV2、SV3)が報告されている54。 PWK/PhJとC57BL/6Jとのドットプロットは、PWK/PhJのNlrp1b2およびNlrp1d対立遺伝子での共線性の崩壊を示している(図2d)。 我々が配列決定したすべての野生由来株は完全長のNlrp1dを含んでおり、C57BL/6Jに対してこれらのアリルで同様の共線性の破壊を示す(補足データ6)。 C57BL/6JのSV1アイソフォームはNlrp1bとNlrp1dの切断された祖先のパラログに由来しており、Nlrp1dはC57BL/6J系統で失われたことが示された。 PWK/PhJ, CAST/EiJ, WSB/EiJ, NOD/ShiLtJ のNlrp1遺伝子座のゲノム構造はFiber-FISHで確認した(補足図9)。
集合体は、調べた他の遺伝子座:免疫関連GTPases(IRGs)とシュラフェンファミリー(Slfn)でもそれぞれ幅広い多様性が見られた。 IRGタンパク質は、ほとんどの脊椎動物に存在するインターフェロン誘導性GTPaseのサブファミリーに属している55。 マウスでは、IRGタンパク質ファミリーは、Chlamydia trachomatis、Trypanosoma cruzi、Toxoplasma gondiiなどの細胞内病原体に対する抵抗性を付与することによって、適応免疫系に貢献している56。 私たちのデノボアセンブリは、CAST/EiJ48の既報のデータと一致している。 また、WSB/EiJ、PWK/PhJ、SPRET/EiJに存在する3つの高度に分岐したハプロタイプの順序、方向、構造を初めて明らかにし、再配置されたプロモーター、挿入された処理済み偽遺伝子、高頻度のLINE反復の新規アノテーションを加えた(補足データ6)。
Schlafen(11番染色体:82.9-83.3Mb)ファミリー遺伝子は、免疫反応、細胞分化、増殖・成長、がん浸潤、化学療法抵抗性に関与していると報告されている。 ヒトでは、SLFN11がコドン使用型メカニズムによりHIVタンパク質合成を阻害することが報告されており57、ヒト以外の霊長類ではSlfn11遺伝子に対する正の選択が報告されており58、ヒトでは、SLFN11がHIVタンパク質合成を阻害することが報告されており58、ヒトでは、SLFN11がHIVタンパク質合成を阻害することが報告されている。 マウスでは、Slfnのハプロタイプが適合しない系統の間で胚死亡が起こる可能性がある59。 野生由来の3つのCC創始株(CAST/EiJ、PWK/PhJ、WSB/EiJ)のSlfnのアセンブルにより、初めてこの遺伝子座に広範な変異が存在することが示された。 また、Slfn遺伝子群50のうち、Slfn8、Slfn9、Slfn10は、これらの系統間で顕著な配列多様性を示した。 例えば、Sfln8はPWK/PhJでは偽遺伝子と予測されるが、他の株ではタンパク質をコードしている。CAST/EiJのアリルにはC57BL/6Jの基準と比較して78アミノ酸のミスマッチがある(補足図10参照)。 CAST/EiJとPWK/PhJはともにSfln10の機能的コピーを有しており、C57BL/6JとWSB/EiJでは偽遺伝子と予測される。 PWK/PhJとWSB/EiJでは、Slfn4の上流に25アミノ酸のN末端延長を引き起こす新規の開始コドンが同定された。 参考文献に存在する別のメンバー、Slfn14はPWK/PhJとCAST/EiJでは保存されているが、WSB/EiJでは偽遺伝子である(補足図10)。
菌株アセンブリから得られた参考ゲノム更新
現在GRCm38参考アセンブリ(C57BL/6J)では配列にギャップがあって不完全な遺伝子が11種類存在する。 まず、これらの遺伝子座をC57BL/6NJアセンブリのそれぞれの領域と比較し、重複が不十分なために以前省略された参照株のパブリックアセンブリからのコンティグを特定するために使用された。 次に、C57BL/6NJのアセンブリで目的の領域にアラインメントされたC57BL/6Jリードを抽出し、ターゲットアセンブリを行うことで、現在参照株から欠落している配列をカバーするコンティグを生成した。 8361>
参照ゲノムに対する改良と汎系統遺伝子予測は、GENCODEコンソーシアム60によって維持されている既存の参照ゲノムアノテーションの更新に使用された。 既存の参照アノテーション(表1)と比較して、75%の新規イントロンを含む株特異的RNA-Seq(Comparative Augustus)遺伝子予測を調べた(GENCODE M8、1-12番染色体)。 785の予測のうち、62が新しい遺伝子座のアノテーションにつながり、19のタンパク質コード遺伝子と6の偽遺伝子が含まれていた(補足表14および補足データ8)。 基準ゲノム上で新しい遺伝子座が予測されたほとんどの場合、既存のアノテーションが確認されたが、不完全であることが多かった。 例えば、Nmur1遺伝子は、その5′末端で拡張され、以前に欠落していた開始コドンを含む上流エキソンにスプライシングされるという予測を支持する証拠に基づいて、完全なものにされた。 Mroh3遺伝子は、もともと未処理の偽遺伝子と注釈されていたが、新規イントロンの同定により、CDSを完全長に拡張することが可能となり、タンパク質コード化遺伝子に更新された。 また、以前は偽遺伝子とされていたものは、タンパク質をコードする遺伝子座のナンセンス媒介性崩壊(NMD)転写物として残されている。 また、新規のバイシストロン遺伝子であるChml_Opn3については、当初は単一エクソン遺伝子であるとされていたが、拡張され、その最初のエクソンがOpn3遺伝子と共有されることが判明した。
我々は11番染色体上に、Itgb3とMettl2間にまたがる既存の遺伝子Efcab3 を大きく拡張する新しい188エクソンの遺伝子を見つけています(図3A)。 このEfcab3様遺伝子は、HAVANAガイドライン61に従って手作業でキュレーション、検証され、GENCODEリリースM11以降ではGm11639として同定された。 Efcab3/Efcab13はカルシウム結合タンパク質をコードし、新規遺伝子は主にEF-ハンドタンパク質の繰り返しドメインから構成されている(補足図12)。 シンテニーとゲノム構造の解析から、Efcab3遺伝子座はほとんどの霊長類を含む他の哺乳類間でほぼ保存されていることが示された。 比較遺伝子予測では、オランウータン、アカゲザル、ブッシュベビー、リスザルに全長版が同定された。 しかし、この遺伝子座はチンパンジー、ゴリラ、ヒト(ヒト科)の共通祖先において、約15MBの染色体内再配列により、内部のEF-ハンドドメインの繰り返しの多くが削除され、断絶している(図3bおよび補足図13)。 ヒトの遺伝子型-組織発現(GTEx)データ62の解析から、EFCAB13遺伝子座は多くの組織型にわたって発現しており、精巣と甲状腺で最も高い発現が測定された。 一方、EFCAB3遺伝子座は精巣で低レベルの測定可能な発現があるだけである。 このことは、EFCAB13バージョンの上流に完全長遺伝子のプロモーターが存在することと一致し、H3K4me3解析でも支持されている(補足図14)。 マウスでは、遺伝子Efcab3は皮質板上層で高発現する多くの組織全体で発生時に特異的に発現し(URL参照)、マウスとヒトの両方で脳の構造変化と関連するゲノム17q21.31シンテニック領域のすぐ近くに位置する63。 CRISPR(clustered regularly interspaced short palindromic repeat)を用いてEfcab3様変異マウス(Efcab3em1(IMPC)Wtsi、方法論参照)を作成し、188項目の主要表現型を記録した(補足データ9)。 また、ハイスループットな神経解剖学的スクリーニングの一環として、22の異なる脳構造にわたって40の脳パラメータを測定した(補足表15および16、方法論参照)。 特に、Efcab3様変異マウスでは、一致した野生型対照と比較して、脳の大きさの異常が確認された(図3c)。 興味深いことに、側脳室は最も深刻な影響を受けた脳構造の一つであり、65%の肥大を示した(P = 0.007)。 また、脳橋核は42%(P = 0.001)、小脳は27%(P = 0.02)サイズアップしており、この2つの領域は運動活動に関与している(図3dおよび補足図15)。 また、視床は19%大きくなった(P = 0.007)。 その結果、脳全体の面積パラメータは7%拡大した(P = 0.006)。 これらの結果を総合すると、Efcab3様遺伝子は前脳から後脳にかけての脳の発達と脳の大きさを調節する役割を担っている可能性がある。