Sestavy sekvencí a anotace genomu
Sestavy chromozomů byly vytvořeny pro 16 kmenů laboratorních myší pomocí směsi Illumina paired-end (40-70×), mate-pair (3, 6, 10 kilobází (kb)), fosmidových a koncových sekvencí BAC (doplňková tabulka 1) a knihoven Dovetail Genomics Chicago19. Pseudochromosomy byly vytvářeny paralelně s využitím mezidruhových syntéz, což vedlo k sestavení genomu o velikosti 2,254 (WSB/EiJ) až 2,328 gigabází (Gb) (AKR/J) bez neznámých mezerovitých bází. Přibližně 0,5-2 % celkové délky genomu na kmen bylo nesloženo a je tvořeno neznámými mezerovitými bázemi (18-49 %) a opakujícími se sekvencemi (61-79 %) (doplňková tabulka 2), s 89 až 410 předpovězenými geny na kmen (doplňková tabulka 3). Sestavy mitochondriálního genomu (mtDNA) pro 14 kmenů podpořily dříve publikované sekvence20 , ačkoli malý počet vysoce kvalitních nových sekvenčních variant u AKR/J, BALB/cJ, C3H/HeJ a LP/J byl v rozporu se záznamy v GenBank (doplňková tabulka 4). Nové haplotypy mtDNA byly identifikovány u PWK/PhJ a NZO/HlLtJ. Zejména NZO/HlLtJ obsahoval 55 SNP (33 společných s divokými kmeny) a jeví se odlišný ve srovnání s ostatními klasickými inbredními kmeny (doplňkový obr. 1). Předchozí katalogy variací ukázaly vysokou shodu (>97 % sdílených SNP) mezi NZO/HlLtJ a dalším inbredním laboratorním kmenem NZB/BlNJ21.
Zhodnotili jsme přesnost bází chromozomů kmene vzhledem ke dvěma verzím referenčního genomu C57BL/6J (MGSCv311 a GRCm382) tak, že jsme nejprve znovu zarovnali všechna čtení párového sekvenování z každého kmene zpět do příslušných sestav genomu a poté jsme tato zarovnání použili k identifikaci SNP a indelů. Kombinovaná míra chyb SNP a indelů byla 0,09-0,1 chyby na kb ve srovnání s 0,334 u MGSCv3 a 0,02 u GRCm38 (doplňková tabulka 5). Dále jsme použili sadu 612 párů primerů polymerázové řetězové reakce (PCR), které byly dříve použity k ověření volání strukturních variant u osmi kmenů22. Sestavy měly 4,7-6,7 % párů primerů vykazujících nesprávné zarovnání ve srovnání s 10 % pro MGSCv3 (doplňková tabulka 6). A konečně zarovnání dlouhých čtení komplementárních sekvencí DNA PacBio z jater a sleziny C57BL/6J, CAST/EiJ, PWK/PhJ a SPRET/EiJ ukázalo, že referenční genom GRCm38 měl nejvyšší podíl správně zarovnaných čtení cDNA (99 %, resp. 98 %) a kmeny a MGSCv3 o 1-2 % nižší (doplňková tabulka 7). Zastoupení známých myších rodin repetic v sestavách ukazuje, že obsah krátkých repetic (<200 párů bází (bp)) byl srovnatelný s GRCm38 (doplňkový obr. 2a,b). Celkový počet dlouhých repetic (>200 bp) je konzistentní u všech kmenů; celkové délky sekvencí jsou však konzistentně kratší než u GRCm38 (Doplňkový obr. 2c).
Kmenově specifické konsenzuální genové sady byly vytvořeny pomocí anotace GENCODE C57BL/6J a kmenově specifického sekvenování RNA (RNA-Seq) z více tkání23 (Doplňková tab. 8 a Doplňkový obr. 3). Sady konsensuálních genů obsahují více než 20 000 protein kódujících genů a více než 18 000 nekódujících genů (obr. 1a a doplňková tabulka 1). U klasických laboratorních kmenů bylo srovnatelně anotováno 90,2 % kódujících transkriptů (88,0 % u kmenů odvozených z volné přírody) a 91,2 % nekódujících transkriptů (91,4 % u kmenů odvozených z volné přírody) přítomných v referenční genové sadě GRCm38. Předpovědi genů z kmenově specifické RNA-Seq (Comparative Augustus24) přidaly v průměru 1 400 nových izoforem k divoce odvozeným a 1 207 nových izoforem ke klasickým genovým anotačním souborům kmenů. Předpovědi genů založené na sekvenování cDNA PacBio vnesly do souborů CAST/EiJ, PWK/PhJ a SPRET/EiJ v průměru dalších 1 865 nových izoforem. Putativní nové lokusy jsou definovány jako splicované geny, které byly předpovězeny na základě kmenově specifické RNA-Seq a nepřekrývaly se s žádnými geny promítnutými z referenčního genomu. V průměru bylo 37 genů putativních nových lokusů (doplňková data 1) u divokých kmenů a 22 u klasických kmenů. Nejčastěji se zdá, že jsou výsledkem genových duplikací. Kromě toho automatický pracovní postup anotace pseudogenů Pseudopipe25 spolu s ručně kurátorovanými pseudogeny přenesenými z referenčního genomu GRCm38 identifikoval v průměru 11 000 (3 317 konzervovaných mezi všemi kmeny) pseudogenů na kmen (doplňkový obr. 4), které zřejmě vznikly buď retrotranspozicí (~80 %), nebo událostmi genové duplikace (~20 %).
Oblasti myšího genomu s extrémní alelickou variabilitou
Inbrední kmeny laboratorních myší se vyznačují nejméně 20 generacemi inbreedingu a jsou geneticky homozygotní téměř ve všech lokusech1. Navzdory tomu předchozí katalogy variability SNP identifikovaly vysoce kvalitní heterozygotní SNP (hSNP), když byly čteny zarovnány k referenčnímu genomu C57BL/6J12. Přítomnost vyšší hustoty hSNP může naznačovat změny v počtu kopií nebo nové geny, které nejsou přítomny v referenčním souboru a jsou nuceny částečně mapovat jeden lokus v referenčním souboru12,21 . Jejich identifikace je tedy účinným nástrojem pro vyhledávání chyb v sestavách genomů. Z katalogu variací MGP v521 jsme identifikovali 116 439 (C57BL/6NJ) až 1 895 741 (SPRET/EiJ) vysoce kvalitních hSNP (doplňková tabulka 9). Zaměření naší analýzy na 5 % oblastí s největší hustotou hSNP (okna ≥ 71 hSNP na 10 kb posuvného okna) identifikovalo většinu známých polymorfních oblastí mezi kmeny (doplňkový obr. 5) a představovalo ~49 % všech hSNP (doplňková tab. 9 a doplňkový obr. 6a). Po použití této hranice na všechny kmenově specifické hSNP oblasti a sloučení překrývajících se nebo sousedících oken zůstalo na každý kmen 117 (C57BL/6NJ) až 2567 (SPRET/EiJ) hSNP oblastí (Doplňková tabulka 9) s průměrnou velikostí 18-20 kb (Doplňkový obr. 6b). Mnohé klastry hSNP se překrývají s geny pro imunitu (například MHC, receptory podobné NOD a receptory podobné AIM), smyslové (například čichové a chuťové receptory), reprodukční (například glykoproteiny specifické pro těhotenství a proteiny bohaté na E asociované se spermiemi) a neuronální geny a geny související s chováním (například svědivé receptory26 a γ-protokadheriny27) (obr. 1b a doplňkový obr. 5). Všechny oblasti hSNP divokých kmenů obsahovaly počty párů bází genů a kódujících sekvencí (CDS) větší než u kteréhokoli klasického inbredního kmene (≥503 a ≥0,36 megabází (Mb); doplňková tabulka 9). Oblasti identifikované u C57BL/6J a C57BL/6NJ (117, resp. 141; 145 dohromady) protínají známé problémy při sestavování GRCm38 včetně mezer, neumístěných lešení nebo centromerických oblastí (107/145, 73,8 %). Zbývající kandidátské oblasti zahrnují velké proteinové rodiny (15/145, 10,3 %) a opakující se elementy (17/145, 11,7 %) (Doplňková data 2).
Zkoumali jsme třídy proteinů přítomných v oblastech hSNP identifikací 1 109 shod PantherDB, přiřazených k 26 třídám proteinů z kombinovaného souboru všech genů v hustých oblastech hSNP (Doplňková data 3). Nejvíce zastoupenou třídou proteinů byla obrana a imunita (155 genů, Doplňková data 4), která představovala 13,98 % všech shod tříd proteinů (Doplňková tabulka 10). Jednalo se o pětinásobné obohacení ve srovnání s odhadovanou celogenomovou mírou (obr. 1d). Pozoruhodné je, že u klasických kmenů bylo identifikováno 89 genů souvisejících s imunitou, z nichž 84 bylo společných alespoň s jedním z divokých kmenů (obr. 1d). SPRET/EiJ přispěl největším počtem genových shod specifických pro kmen (22 genů).
Mezi oblastmi hSNP bylo zastoupeno mnoho paralogních genových rodin (doplňková data 3), včetně genů s funkčními lidskými ortology. Několik významných příkladů zahrnuje alely apolipoproteinu L, jehož varianty mohou propůjčovat odolnost vůči Trypanosoma brucei, primární příčině lidské spavé nemoci28,29; IFI16 (interferon gama inducible protein 16, člen receptorů podobných AIM2), DNA senzor potřebný pro smrt lymfoidních CD4 T buněk abortivně infikovaných lidským imunovirem (HIV)30 ; NAIP (apoptózu inhibující protein rodiny NLR), u něhož je funkční změna počtu kopií spojena se zvýšenou buněčnou smrtí při infekci bakterií Legionella pneumophila31; a sekretoglobiny (členové Scgb), které se mohou podílet na tvorbě nádorů a invazi u lidí i myší32,33. Byly také identifikovány velké rodiny genů, u nichž je známo jen málo funkčních informací. Byl identifikován shluk přibližně 50 genů, který zahrnuje hippokalcinu podobný gen 1 (Hpcal1) a jeho homology (chromozom 12: 18-25 Mb). Hpcal1 patří mezi neuronální senzory vápníku exprimované především ve fotoreceptorech sítnice, neuronech a neuroendokrinních buňkách34. Tato oblast je obohacena o hSNP u všech kmenů kromě C57BL/6J a C57BL/6NJ. Zajímavé je, že v této oblasti se Cpsf3 (21,29 Mb) nachází na ostrově s vysokou mírou zachování u všech kmenů a homozygotní knockout C57BL/6NJ produkuje subviabilní potomstvo35. Mezi další příklady patří další oblast na chromozomu 12 (87-88 Mb) obsahující přibližně 20 homologů eukaryotického iniciačního faktoru translace 1A (eIF1a) a na chromozomu 14 (41-45 Mb) obsahující přibližně 100 genů podobných Dlg1. Geny ve všech kandidátních oblastech hSNP byly identifikovány a anotovány (doplňkový obr. 5).
Zkoumali jsme obsah retrotranspozonů v hustých oblastech hSNP na GRCm38 ve srovnání s odhadovaným nulovým rozložením (milion simulací) a zjistili jsme významné obohacení jak LTR (empirické P < 1 × 10-7), tak dlouhých intersperovaných jaderných elementů (LINE) (empirické P < 1 × 10-7) (doplňkové tabulky 11 a 12). Retrotranspozice genů se již dlouho podílí na vytváření diverzity genových rodin36 , nových alel propůjčujících pozitivně selektované adaptace37. Po transpozici transponovatelných elementů dochází v průběhu času k akumulaci mutací v důsledku divergence sekvence38,39. U LTR, LINE a krátkých intersperovaných jaderných elementů (SINE) byla průměrná procentuální sekvenční divergence významně nižší (P < 1 × 10-22) v oblastech hSNP ve srovnání se zbytkem genomu (obr. 1e). Největší rozdíl v průměrné sekvenční divergenci byl mezi LTR uvnitř a vně hustých oblastí hSNP. Při zkoumání pouze opakujících se elementů s divergencí menší než 1 % jsme zjistili, že tyto oblasti jsou významně obohaceny o LTR (empirické P < 1 × 10-7) a LINE (empirické P = 0,047).
De novo sestavení komplexních genových rodin
Naše data objasnila variabilitu počtu kopií, která byla dříve v genomech myších kmenů neznámá, a odhalila expanze genů, kontrakce a nové alely (<80 % sekvenční identity). Bylo například identifikováno 23 různých shluků čichových receptorů, což naznačuje značnou variabilitu mezi inbredními kmeny. U myší byly fenotypové rozdíly, zejména ve stravování a chování, spojeny s odlišnými repertoáry čichových receptorů40,41 . Za tímto účelem jsme charakterizovali repertoár čichových receptorů CAST/EiJ pomocí naší de novo sestavy a identifikovali 1 249 kandidátních genů čichových receptorů (doplňková data 5). Ve srovnání s referenčním kmenem (C57BL/6J) ztratil CAST/EiJ 20 čichových receptorů a získal 37 členů rodiny genů: Obr. 2: Kmenově specifické alely pro čichové a imunitní lokusy.
a, Geny čichových receptorů na chromozomu 11 CAST/EiJ. Zisk/ztráta genů a podobnost jsou vztaženy k C57BL/6J. Noví členové jsou pojmenováni podle svých nejpodobnějších homologů. b, Pořadí genů napříč lokusem Raet1/H60 u rodičovských kmenů Collaborative Cross (A/J, NOD/ShiLtJ a 129S1/SvImJ mají na tomto lokusu stejný haplotyp, reprezentovaný NOD/ShiLtJ). Název kmene černě/červeně označuje Aspergillus fumigatus rezistentní/citlivý. Čárkovaný rámeček označuje nepotvrzené pořadí genů. c, Nové alely kódující proteiny rodiny genů Nlrp1 u divokých kmenů a dvou klasických inbredních kmenů. Barvy znázorňují fylogenetické vztahy (nahoře, strom spojování sousedů aminokyselin domény NBD) a relativní pořadí genů napříč kmeny (dole). d, Regionální bodový graf lokusu Nlrp1 u PWK/PhJ ve srovnání s referenčním C57BL/6J GRCm38 (barevné označení stejné jako panel c). Šedé bloky označují repetice a transponovatelné elementy.
Objevili jsme nové genové členy v několika důležitých imunitních lokusech regulujících vrozené a adaptivní odpovědi na infekci. Například chromozom 10 (22,1-22,4 Mb) na C57BL/6J obsahuje alely Raet1 a členy minoritního histokompatibilního antigenu H60. Raet1 a H60 jsou důležitými ligandy pro NKG2D, aktivační receptor přirozených zabíječských buněk43. Ligandy NKG2D jsou exprimovány na povrchu infikovaných44 a metastatických buněk45 a mohou se podílet na autoimunitních reakcích na alogenní štěpy46. Z de novo sestavy bylo mezi osmi zakladatelskými kmeny CC identifikováno šest různých haplotypů Raet1/H60; tři z identifikovaných haplotypů jsou společné pro klasické inbrední CC zakladatele (A/J, 129S1/SvImJ a NOD/ShiLtJ mají stejný haplotyp) a tři různé haplotypy Raet1/H60 byly identifikovány u každého z divokých inbredních kmenů (CAST/EiJ, PWK/PhJ a WSB/EiJ) (obr. 2b a doplňkové obr. 7 a 8). Haplotyp CAST/EiJ kóduje pouze jednoho člena rodiny Raet1 (Raet1e) a žádné alely H60, zatímco klasický haplotyp NOD/ShiLtJ má čtyři alely H60 a tři alely Raet1. Aspergillus-rezistentní lokus 4 (Asprl4), jeden z několika kvantitativních znakových lokusů (QTL), které zprostředkovávají rezistenci vůči infekci Aspergillus fumigatus, překrývá tento lokus a zahrnuje 1 Mb (~10 % QTL) interval, který ve srovnání s ostatními klasickými kmeny obsahuje haplotyp jedinečný pro NZO/HlLtJ (doplňkový obr. 7). Kmenově specifické haplotypové asociace s Asprl4 a přežíváním byly zaznamenány u kmenů CAST/EiJ a NZO/HlLtJ, které vykazují rezistenci k infekci A. fumigatus47 a jsou to také jediné kmeny, které ztratily alely H60 na tomto lokusu.
Zkoumali jsme tři lokusy související s imunitou na chromozomu 11, IRG (GRCm38: 48,85-49,10 Mb), Nlrp1 (71,05-71,30 Mb) a Slfn (82,9-83,3 Mb), a to z důvodu jejich polymorfní složitosti a významu pro přežití myší48,49,50 . Lokus Nlrp1 (NOD-like receptors, pyrin domain-containing) kóduje složky inflammasomu, které detekují endogenní mikrobiální produkty a metabolický stres, čímž stimulují vrozené imunitní odpovědi51. U myši domácí se alely Nlrp1 podílejí na detekci smrtícího toxinu Bacillus anthracis, což vede k aktivaci inflammasomu a pyroptóze makrofágů52,53. Porovnáním šesti kmenů (CAST/EiJ, PWK/PhJ, WSB/EiJ, SPRET/EiJ, NOD/ShiLtJ a C57BL/6J) jsme objevili sedm různých členů rodiny Nlrp1. Každý kmen má jedinečný haplotyp členů rodiny Nlrp1, což poukazuje na rozsáhlou sekvenční rozmanitost v tomto lokusu napříč inbredními kmeny myší (obr. 2c). Každý ze tří kmenů M. m. domesticus (C67BL/6J, NOD/ShiLtJ a WSB/EiJ) nese jinou kombinaci členů rodiny Nlrp1; Nlrp1d-1f jsou nové kmenově specifické alely, které nebyly dosud známy. Diverzita mezi různými alelami Nlrp1 je vyšší než sekvenční divergence mezi alelami myší a potkanů. Například C57BL/6J obsahuje Nlrp1c, která není přítomna u ostatních dvou kmenů, zatímco Nlrp1b2 je přítomna u NOD/ShiLtJ i WSB/EiJ, ale ne u C57BL/6J. U PWK/PhJ (M. m. musculus) je lokus Nlrp1 téměř dvakrát větší než u referenčního genomu GRCm38 a obsahuje nové homology Nlrp1 (obr. 2c), zatímco u M. spretus (rovněž divokého původu) je tento lokus mnohem kratší než u kteréhokoli jiného myšího kmene. Přibližně 90 % intergenních oblastí v sestavě PWK/PhJ lokusu Nlrp1 je tvořeno transponovatelnými elementy (obr. 2d).
V divoce odvozených genomech PWK/PhJ (M. m. musculus) a CAST/EiJ (M. m. castaneus) mají velmi podobné haplotypy; makrofágy PWK/PhJ jsou však odolné vůči pyroptotické buněčné smrti vyvolané smrtícím toxinem antraxu, zatímco makrofágy CAST/EiJ nikoli54. Předpokládá se, že Nlrp1c může být příčinným členem rodiny, který zprostředkovává rezistenci; Nlrp1c lze amplifikovat z cDNA makrofágů PWK/PhJ, ale ne CAST/EiJ54. V de novo sestavách mají oba myší kmeny stejnou promotorovou oblast pro Nlrp1c; při transkripci však cDNA Nlrp1c_CAST nemohla být amplifikována dříve navrženými primery54 kvůli SNP v místě vazby primeru (5′…CACT-3′ → 5′…TACC-3′). Vazebné místo primeru u PWK/PhJ je stejné jako u C57BL/6J, avšak Nlrp1c je předpokládaný pseudogen. Mezi Nlrp1b_CAST a Nlrp1b_PWK jsme zjistili neshodu 18 aminokyselin v doméně vázající nukleotidy (NBD). Tyto rozdílné profily naznačují, že Nlrp1c není jediným zprostředkovatelem rezistence vůči smrtelnému toxinu antraxu u myší, ale může se na ní podílet několik dalších členů. Nově anotované členy Nlrp1b2 a Nlrp1d se zdají být funkčně neporušené v CAST/EiJ, ale oba byly předpovězeny jako pseudogeny v PWK/PhJ kvůli přítomnosti stop kodonů nebo frameshift mutací. U C57BL/6J byly zaznamenány tři isoformy sestřihu Nlrp1b (SV1, SV2 a SV3)54 . Bodový graf mezi PWK/PhJ a referenční C57BL/6J ilustruje narušení ko-linearity u alel PWK/PhJ Nlrp1b2 a Nlrp1d (obr. 2d). Všechny divoké kmeny, které jsme sekvenovali, obsahují plnou délku Nlrp1d a vykazují podobné narušení ko-linearity u těchto alel ve srovnání s C57BL/6J (doplňková data 6). Izoforma SV1 u C57BL/6J je odvozena od zkrácených paralogů předků Nlrp1b a Nlrp1d, což naznačuje, že Nlrp1d byl v linii C57BL/6J ztracen. Struktura genomu lokusu Nlrp1 u PWK/PhJ, CAST/EiJ, WSB/EiJ a NOD/ShiLtJ byla potvrzena pomocí Fiber-FISH (doplňkový obr. 9).
Sestavy také ukázaly rozsáhlou diverzitu u každého z dalších zkoumaných lokusů: GTPáz souvisejících s imunitou (IRG) a rodiny Schlafen (Slfn). Proteiny IRG patří do podrodiny interferonem indukovaných GTPáz přítomných u většiny obratlovců55. U myší přispívají členové rodiny proteinů IRG k adaptivnímu imunitnímu systému tím, že poskytují odolnost proti intracelulárním patogenům, jako jsou Chlamydia trachomatis, Trypanosoma cruzi a Toxoplasma gondii56. Naše de novo sestavení je v souladu s dříve publikovanými údaji pro CAST/EiJ48. Poprvé ukazuje pořadí, orientaci a strukturu tří vysoce divergentních haplotypů přítomných u WSB/EiJ, PWK/PhJ a SPRET/EiJ, včetně nové anotace přeskupených promotorů, vložených zpracovaných pseudogenů a vysoké frekvence opakování LINE (doplňková data 6).
Rodina genů Schlafen (chromozom 11: 82,9-83,3 Mb) se údajně podílí na imunitních reakcích, diferenciaci buněk, proliferaci a růstu, invazi rakoviny a rezistenci vůči chemoterapii. U lidí bylo hlášeno, že SLFN11 inhibuje syntézu proteinů HIV mechanismem založeným na využití kodonů57 a u primátů, kteří nejsou lidmi, byla zaznamenána pozitivní selekce na gen Slfn1158. U myší může dojít k embryonální smrti mezi kmeny nesoucími nekompatibilní haplotypy Slfn59. Sestavení Slfn pro tři zakladatelské kmeny CC divokého původu (CAST/EiJ, PWK/PhJ a WSB/EiJ) poprvé ukázalo rozsáhlou variabilitu v tomto lokusu. Členové skupiny 4 genů Slfn50 , Slfn8, Slfn9 a Slfn10, vykazují mezi těmito kmeny značnou sekvenční rozmanitost. Například Sfln8 je předpokládaný pseudogen u PWK/PhJ, ale u ostatních kmenů kóduje protein; alela CAST/EiJ obsahuje 78 aminokyselinových neshod ve srovnání s referenčním kmenem C57BL/6J (doplňkový obr. 10). Jak CAST/EiJ, tak PWK/PhJ obsahují funkční kopie Sfln10, který je předpokládaným pseudogenem u C57BL/6J a WSB/EiJ. U PWK/PhJ a WSB/EiJ byl identifikován nový start kodon před Slfn4, který způsobuje prodloužení N-konce o 25 aminokyselin. Další člen přítomný v referenčním souboru, Slfn14, je konzervován v PWK/PhJ a CAST/EiJ, ale je pseudogenem ve WSB/EiJ (doplňkový obr. 10).
Aktualizace referenčního genomu informovaná sestavami kmenů
V současné době je v referenční sestavě GRCm38 (C57BL/6J) 11 genů, které jsou neúplné kvůli mezeře v sekvenci. Nejprve byly tyto lokusy porovnány s příslušnými oblastmi v sestavě C57BL/6NJ a použity k identifikaci kontigů z veřejných sestav referenčního kmene, které byly dříve vynechány z důvodu nedostatečného překrytí. Za druhé, čtení C57BL/6J zarovnaná k zájmovým oblastem v sestavě C57BL/6NJ byla extrahována pro cílenou sestavu, což vedlo k vytvoření kontigů pokrývajících sekvence, které v současné době v referenční sestavě chybí. Oba přístupy vedly k doplnění deseti nových genových struktur (například doplňkový obr. 11 a doplňková data 7) a téměř úplnému zahrnutí genu Sts, který dříve chyběl.
Zlepšení referenčního genomu spolu s předpověďmi genů pro celý kmen byly použity k poskytnutí aktualizací stávající anotace referenčního genomu, kterou udržuje konsorcium GENCODE60. Zkoumali jsme předpovědi genů specifických pro kmen RNA-Seq (Comparative Augustus), které obsahují 75 % nových intronů, ve srovnání se stávající referenční anotací (tabulka 1) (GENCODE M8, chromozomy 1-12). Ze 785 zkoumaných predikcí vedlo 62 k anotaci nových lokusů, včetně 19 protein kódujících genů a 6 pseudogenů (doplňková tabulka 14 a doplňková data 8). Ve většině případů, kdy byl na referenčním genomu předpovězen nový lokus, jsme identifikovali již existující, ale často neúplnou anotaci. Například gen Nmur1 byl rozšířen na svém 5′ konci a učiněn kompletním na základě důkazů podporujících předpověď, která se spojila s předcházejícím exonem obsahujícím dříve chybějící start kodon. Gen Mroh3, který byl původně anotován jako nezpracovaný pseudogen, byl aktualizován na gen kódující protein díky identifikaci nového intronu, který umožnil prodloužení CDS na plnou délku. Dříve anotovaný model pseudogenu byl zachován jako transkript s nesmyslným rozpadem (NMD) lokusu kódujícího protein. U nového bicistronického lokusu Chml_Opn3 byl původně anotován gen Chml s jedním exonem, který byl prodloužen a bylo zjištěno, že sdílí svůj první exon s genem Opn3.
Objevili jsme nový 188exonový gen na chromozomu 11, který významně rozšiřuje stávající gen Efcab3 rozkládající se mezi Itgb3 a Mettl2 (obr. 3a). Tento gen podobný Efcab3 byl ručně kurátorován, validován podle pokynů HAVANA61 a identifikován v GENCODE od vydání M11 jako Gm11639. Efcab3/Efcab13 kódují proteiny vázající vápník a nový gen se skládá především z opakujících se proteinových domén EF-hand (doplňkový obr. 12). Analýza syntézy a struktury genomu ukázala, že lokus Efcab3 je do značné míry konzervován u ostatních savců, včetně většiny primátů. Srovnávací predikce genů identifikovala verzi v plné délce u orangutana, makaka rhesus, křováka a opice veverky. Lokus však obsahuje bod zlomu u společného předka šimpanze, gorily a člověka (Homininae) v důsledku ~15 Mb intrachromozomální přestavby, která také odstranila mnoho vnitřních opakování domény EF-hand (obr. 3b a doplňkový obr. 13). Analýza údajů o genotypově-tkáňové expresi (GTEx)62 u člověka ukázala, že lokus EFCAB13 je exprimován v mnoha typech tkání, přičemž nejvyšší exprese byla naměřena ve varlatech a štítné žláze. Naproti tomu lokus EFCAB3 má pouze nízkou měřitelnou expresi ve varleti. To odpovídá tomu, že promotor genu plné délky je přítomen před verzí EFCAB13, což potvrzuje analýza H3K4me3 (doplňkový obr. 14). U myší je gen Efcab3 specificky exprimován během vývoje v mnoha tkáních s vysokou expresí v horních vrstvách kortikální desky (viz URL) a nachází se v bezprostřední blízkosti syntenické oblasti genomu 17q21.31 spojené se strukturálními změnami mozku u myší i lidí63. Pomocí CRISPR (clustered regularly interspaced short palindromic repeats) jsme vytvořili mutantní myši podobné Efcab3 (Efcab3em1(IMPC)Wtsi, viz Metody) a zaznamenali 188 primárních fenotypových měření (Doplňková data 9). V rámci vysoce výkonného neuroanatomického screeningu jsme také měřili 40 mozkových parametrů ve 22 různých mozkových strukturách (doplňkové tabulky 15 a 16, viz Metody). Pozoruhodné je, že u myší s mutací podobnou Efcab3 byly zjištěny anomálie ve velikosti mozku ve srovnání s odpovídajícími kontrolami divokého typu (obr. 3c). Zajímavé je, že jednou z nejvíce postižených mozkových struktur byla postranní komora, která vykazovala zvětšení o 65 % (P = 0,007). Jádra pontu se rovněž zvětšila o 42 % (P = 0,001) a mozeček o 27 % (P = 0,02); tyto dvě oblasti se podílejí na motorické aktivitě (obr. 3d a doplňkový obr. 15). Talamus se rovněž zvětšil o 19 % (P = 0,007). V důsledku toho se celkový parametr plochy mozku zvětšil o 7 % (P = 0,006). Celkově tyto výsledky naznačují potenciální roli genu podobného Efcab3 při regulaci vývoje mozku a jeho velikosti od předního mozku po zadní mozek.
.