Sekvenssamlinger og genomannotation
Samlinger i kromosomskala blev fremstillet for 16 laboratoriemusestammer ved hjælp af en blanding af Illumina paird-end (40-70×), mate-par (3, 6, 10 kilobaser (kb)), fosmid- og BAC-endemsekvenser (Supplerende tabel 1) og Dovetail Genomics Chicago-biblioteker19. Pseudokromosomer blev fremstillet parallelt ved hjælp af synteny alignments på tværs af arter, hvilket resulterede i genomsamlinger på mellem 2,254 (WSB/EiJ) og 2,328 gigabaser (Gb) (AKR/J), eksklusive ukendte gapbaser. Ca. 0,5-2 % af den samlede genomlængde pr. stamme var uplaceret og består af ukendte gapbaser (18-49 %) og gentagelsessekvenser (61-79 %) (Supplerende tabel 2), med mellem 89 og 410 forudsagte gener pr. stamme (Supplerende tabel 3). Mitokondriegenom (mtDNA)-samlinger for 14 stammer understøttede tidligere offentliggjorte sekvenser20 , selv om et lille antal nye sekvensvarianter af høj kvalitet i AKR/J, BALB/cJ, C3H/HeJ og LP/J var i konflikt med GenBank-indtastninger (Supplerende tabel 4). Der blev identificeret nye mtDNA-haplotyper i PWK/PhJ og NZO/HlLtJ. NZO/HlLtJ indeholdt 55 SNP’er (33 delt med de vildt afledte stammer) og fremstår forskellig fra de andre klassiske indavlsstammer (supplerende figur 1). Tidligere variationskataloger har vist en høj overensstemmelse (>97% delte SNP’er) mellem NZO/HlLtJ og en anden indavlet laboratoriestamme NZB/BlNJ21.
Vi vurderede basisnøjagtigheden af stamme-kromosomerne i forhold til to versioner af C57BL/6J-referencegenomet (MGSCv311 og GRCm382) ved først at realligne alle parvise sekventeringslæsninger fra hver stamme tilbage til deres respektive genomsamlinger og derefter bruge disse tilpasninger til at identificere SNP’er og indels. Den kombinerede SNP- og indel-fejlrate var 0,09-0,1 fejl pr. kb sammenlignet med 0,334 for MGSCv3 og 0,02 for GRCm38 (Supplerende tabel 5). Dernæst anvendte vi et sæt af 612 polymerasekædereaktions-(PCR)-primerpar, der tidligere er blevet anvendt til at validere strukturelle variantopkald i otte stammer22. Samlingerne havde 4,7-6,7 % primerpar, der viste ukorrekte tilpasninger sammenlignet med 10 % for MGSCv3 (Supplerende tabel 6). Endelig viste alignering af PacBio long-read komplementære DNA-sekvenser fra lever og milt fra C57BL/6J, CAST/EiJ, PWK/PhJ og SPRET/EiJ, at GRCm38-referencegenomet havde den højeste andel af korrekt alignede cDNA-reads (henholdsvis 99 % og 98 %), mens stammerne og MGSCv3 lå 1-2 % lavere (Supplerende tabel 7). Repræsentationen af kendte gentagelsesfamilier af mus i samlingerne viser, at indholdet af korte gentagelser (<200 basepar (bp)) var sammenligneligt med GRCm38 (Supplerende fig. 2a,b). Det samlede antal lange gentagelser (>200 bp) er konsistent på tværs af alle stammer; de samlede sekvenslængder er dog konsekvent kortere end GRCm38 (Supplerende Fig. 2c).
Stamme-specifikke konsensusgen-sæt blev fremstillet ved hjælp af GENCODE C57BL/6J-annotationen og stamme-specifik RNA-sekventering (RNA-Seq) fra flere væv23 (Supplerende tabel 8 og Supplerende Fig. 3). Konsensusgenesættene indeholder over 20 000 proteinkodende gener og over 18 000 ikke-kodende gener (fig. 1a og supplerende tabel 1). For de klassiske laboratoriestammer blev 90,2 % af de kodende transskriptioner (88,0 % i vildtlevende stammer) og 91,2 % af de ikke-kodende transskriptioner (91,4 % i vildtlevende stammer), der er til stede i GRCm38-referencegen-sættet, sammenlignende annoteret. Genprædiktioner fra stamme-specifik RNA-Seq (Comparative Augustus24) tilføjede i gennemsnit 1.400 nye isoformer til vildt afledte og 1.207 nye isoformer til klassiske stamme-annotationssæt af gener. Genprædiktion baseret på PacBio cDNA-sekventering introducerede i gennemsnit yderligere 1 865 nye isoformer til CAST/EiJ, PWK/PhJ og SPRET/EiJ. Putative nye loci er defineret som splejsede gener, der blev forudsagt ud fra stamme-specifik RNA-Seq og ikke overlappede nogen gener, der blev fremskrevet fra referencegenomet. I gennemsnit var 37 gener putative nye loci (Supplerende data 1) i vildt afledte stammer og 22 i klassiske stammer. Disse synes oftest at være et resultat af genduplikationer. Derudover identificerede en automatiseret pseudogenannotationsworkflow, Pseudopipe25, sammen med manuelt kuraterede pseudogener, der blev løftet over fra GRCm38-referencegenomet, i gennemsnit 11.000 (3.317 bevaret mellem alle stammer) pseudogener pr. stamme (Supplerende fig. 4), som synes at være opstået enten gennem retrotransposition (~80 %) eller genduplikeringsbegivenheder (~20 %).
Regioner af musegenomet med ekstrem allelisk variation
Indavlede laboratoriemusestammer er karakteriseret ved mindst 20 generationers indavl og er genetisk homozygote på næsten alle loci1. På trods af dette har tidligere SNP-variationskataloger identificeret heterozygote SNP’er (hSNP’er) af høj kvalitet, når læsninger blev justeret til C57BL/6J-referencegenomet12. Tilstedeværelsen af højere tætheder af hSNP’er kan indikere ændringer i antallet af kopier eller nye gener, der ikke er til stede i referencemønstret, og som er tvunget til delvist at kortlægge et enkelt locus i referencen12,21. Identificering af dem er således et effektivt redskab til at finde fejl i genomsamlinger. Vi identificerede mellem 116 439 (C57BL/6NJ) og 1 895 741 (SPRET/EiJ) hSNP’er af høj kvalitet fra MGP-variationskataloget v521 (Supplerende tabel 9). Ved at fokusere vores analyse på de øverste 5% mest hSNP-tætte regioner (vinduer ≥ 71 hSNP’er pr. 10 kb glidende vindue) identificerede vi størstedelen af de kendte polymorfe regioner blandt stammerne (Supplerende figur 5) og tegnede sig for ~49% af alle hSNP’er (Supplerende tabel 9 og Supplerende figur 6a). Efter anvendelse af denne cut-off på alle stamme-specifikke hSNP-regioner og sammenlægning af overlappende eller tilstødende vinduer forblev der mellem 117 (C57BL/6NJ) og 2 567 (SPRET/EiJ) hSNP-regioner tilbage pr. stamme (Supplerende tabel 9) med en gennemsnitlig størrelse på 18-20 kb (Supplerende figur 6b). Mange hSNP-klynger overlapper immunitet (f.eks. MHC, NOD-lignende receptorer og AIM-lignende receptorer), sensoriske (f.eks. olfaktoriske og smagsreceptorer), reproduktive (f.eks. graviditetsspecifikke glykoproteiner og sperm-associerede E-rige proteiner) og neuronale- og adfærdsrelaterede gener (f.eks. kløe-receptorer26 og γ-protocadheriner27) (Fig. 1b og Supplerende Fig. 5). Alle hSNP-regionerne i de vildt afledte stammer indeholdt gen- og kodningssekvenser (CDS) med et større antal basepar end nogen klassisk indavlet stamme (henholdsvis ≥503 og ≥0,36 megabaser (Mb); Supplerende tabel 9). De regioner, der blev identificeret i C57BL/6J og C57BL/6NJ (henholdsvis 117 og 141; 145 kombineret), skærer kendte GRCm38-samlingsproblemer, herunder huller, uplacerede stilladser eller centromeriske regioner (107/145, 73,8 %). De resterende kandidatregioner omfatter store proteinfamilier (15/145, 10,3 %) og gentagelseselementer (17/145, 11,7 %) (Supplerende data 2).
Vi undersøgte proteinklasser, der er til stede i hSNP-regionerne, ved at identificere 1,109 PantherDB-match, der blev tildelt 26 proteinklasser fra et kombineret sæt af alle gener i hSNP-tætte regioner (Supplerende data 3). Forsvar og immunitet var den største repræsenterede proteinklasse (155 gener, Supplerende data 4), der tegnede sig for 13,98% af alle proteinklassetræffere (Supplerende tabel 10). Dette var en femdobbelt berigelse sammenlignet med en estimeret genomdækkende sats (fig. 1d). Især blev 89 immunrelaterede gener identificeret i klassiske stammer, hvoraf 84 blev delt med mindst én af de vildt afledte stammer (Fig. 1d). SPRET/EiJ bidrog med det største antal stamme-specifikke genhits (22 gener).
Mange paralogiske genfamilier var repræsenteret blandt hSNP-regionerne (Supplerende data 3), herunder gener med funktionelle menneskelige ortologer. Flere fremtrædende eksempler omfatter apolipoprotein L-alleler, hvis varianter kan give resistens over for Trypanosoma brucei, den primære årsag til menneskelig sovesyge28,29; IFI16 (interferon gamma-inducerbart protein 16, et medlem af AIM2-lignende receptorer), en DNA-sensor, der er nødvendig for død af lymfoide CD4 T-celler, der er abortivt inficeret med humant immunovirus (HIV)30; NAIP (NLR-familiens apoptosehæmmende protein), hvor funktionel kopiantalvariation er forbundet med øget celledød ved Legionella pneumophila-infektion31 , og sekretoglobiner (Scgb-medlemmer), som kan være involveret i tumordannelse og invasion hos både mennesker og mus32,33. Der blev også identificeret store genfamilier, hvor der kun er få funktionelle oplysninger kendt. Der blev identificeret en klynge af ca. 50 gener, som omfatter hippocalcin-like 1 (Hpcal1) og dets homologer (kromosom 12: 18-25 Mb). Hpcal1 hører til de neuronale kalciumsensorer, der primært udtrykkes i retinale fotoreceptorer, neuroner og neuroendokrine celler34. Denne region er beriget med hSNP’er i alle stammer undtagen C57BL/6J og C57BL/6NJ. Det er interessant, at Cpsf3 (21,29 Mb) inden for denne region er placeret på en ø med høj bevaringsgrad i alle stammer, og en homozygot C57BL/6NJ-knockout giver subviable afkom35. Andre eksempler omfatter en anden region på kromosom 12 (87-88 Mb), der indeholder ca. 20 homologer af eukaryotisk translationsinitieringsfaktor 1A (eIF1a), og på kromosom 14 (41-45 Mb), der indeholder ca. 100 Dlg1-lignende gener. Gener inden for alle hSNP-kandidatregioner er blevet identificeret og annoteret (Supplerende fig. 5).
Vi undersøgte retrotransposonindholdet i hSNP-tætte regioner på GRCm38 sammenlignet med en estimeret nulfordeling (en million simuleringer) og fandt en signifikant berigelse af både LTR’er (empirisk P < 1 × 10-7) og lange interspredte nukleare elementer (LINE’er) (empirisk P < 1 × 10-7) (Supplerende tabeller 11 og 12). Genretrotransposition er længe blevet impliceret i skabelsen af genfamiliediversitet36, nye alleler, der giver positivt udvalgte tilpasninger37. Når transponerede transponerbare elementer først er transponeret, akkumulerer de mutationer over tid, efterhånden som sekvensen divergerer38,39. For LTR’er, LINE’er og korte interspredte nukleare elementer (SINE’er) var den gennemsnitlige procentvise sekvensdivergens signifikant lavere (P < 1 × 10-22) inden for hSNP-regioner sammenlignet med resten af genomet (fig. 1e). Den største forskel i den gennemsnitlige sekvensdivergens var mellem LTR’er inden for og uden for hSNP-tætte regioner. Ved kun at undersøge gentagelseselementer med mindre end 1% divergens fandt vi, at disse regioner er signifikant beriget for LTR’er (empirisk P < 1 × 10-7) og LINE’er (empirisk P = 0.047).
De novo samling af komplekse genfamilier
Vores data belyste kopiantalvariation, der tidligere var ukendt i musestammens genomer, og afdækkede genudvidelser, sammentrækninger og nye alleler (<80% sekvensidentitet). For eksempel blev der identificeret 23 forskellige klynger af olfaktoriske receptorer, hvilket indikerer en betydelig variation mellem indavlede stammer. Hos mus er fænotypiske forskelle, især med hensyn til kost og adfærd, blevet knyttet til forskellige olfaktoriske receptorrepertoirer40,41. Med henblik herpå har vi karakteriseret CAST/EiJ-olfaktorreceptorrepertoiret ved hjælp af vores de novo-sammensætning og identificeret 1.249 kandidatgener til olfaktoriske receptorgener (Supplerende data 5). I forhold til referencestammen (C57BL/6J) har CAST/EiJ mistet 20 olfaktoriske receptorer og fået 37 genfamiliemedlemmer: 12 nye og 25 understøttet af offentliggjorte forudsigelser baseret på messenger RNA (mRNA) afledt af hele CAST/EiJ olfaktoriske slimhinder (Fig. 2a og Supplerende tabel 13)42.
Vi opdagede nye genmedlemmer ved flere vigtige immunloci, der regulerer medfødte og adaptive reaktioner på infektion. For eksempel indeholder kromosom 10 (22,1-22,4 Mb) på C57BL/6J Raet1-alleler og mindre histokompatibilitetsantigen-medlemmer af H60. Raet1 og H60 er vigtige ligander for NKG2D, en aktiverende receptor for naturlige dræberceller43. NKG2D-ligander udtrykkes på overfladen af inficerede44 og metastatiske celler45 og kan deltage i allograft autoimmune reaktioner46. Ud fra de novo-sammensætningen blev der identificeret seks forskellige Raet1/H60 haplotyper blandt de otte CC-stifterstammer; tre af de identificerede haplotyper er fælles for de klassiske indavlede CC-stiftere (A/J, 129S1/SvImJ og NOD/ShiLtJ har den samme haplotype), og der blev identificeret tre forskellige Raet1/H60 haplotyper i hver af de vildt afledte indavlede stammer (CAST/EiJ, PWK/PhJ og WSB/EiJ) (fig. 2b og supplerende fig. 7 og 8). CAST/EiJ-haplotypen koder kun for et enkelt Raet1-familiemedlem (Raet1e) og ingen H60-alleler, mens den klassiske NOD/ShiLtJ-haplotype har fire H60-alleler og tre Raet1-alleler. Aspergillus-resistent locus 4 (Asprl4), en af flere kvantitative egenskabsloci (QTL’er), der formidler resistens mod Aspergillus fumigatus-infektion, overlapper dette locus og består af et 1 Mb (~10% af QTL) interval, der sammenlignet med andre klassiske stammer indeholder en haplotype, der er unik for NZO/HlLtJ (Supplerende figur 7). Stamme-specifikke haplotypeforbindelser med Asprl4 og overlevelse er blevet rapporteret for CAST/EiJ og NZO/HlLtJ, som begge udviser resistens over for A. fumigatus-infektion47 , og de er også de eneste stammer, som har mistet H60-alleler på dette locus.
Vi undersøgte tre immunitetsrelaterede loci på kromosom 11, IRG (GRCm38: 48,85-49,10 Mb), Nlrp1 (71,05-71,30 Mb) og Slfn (82,9-83,3 Mb), på grund af deres polymorfe kompleksitet og betydning for musens overlevelse48,49,50. Nlrp1-lokussen (NOD-like receptors, pyrin domain-containing) koder for inflammasomkomponenter, der registrerer endogene mikrobielle produkter og metaboliske belastninger og derved stimulerer de medfødte immunreaktioner51. I husmusen er Nlrp1-alleler involveret i at opfange Bacillus anthracis’ dødelige toksin, hvilket fører til inflammasomaktivering og pyroptose af makrofager52,53. Vi opdagede syv forskellige Nlrp1-familiemedlemmer ved at sammenligne seks stammer (CAST/EiJ, PWK/PhJ, WSB/EiJ, SPRET/EiJ, NOD/ShiLtJ og C57BL/6J). Hver stamme har en unik haplotype af Nlrp1-medlemmer, hvilket fremhæver den omfattende sekvensdiversitet på dette locus på tværs af indavlede musestammer (Fig. 2c). Hver af de tre M. m. domesticus-stammer (C67BL/6J, NOD/ShiLtJ og WSB/EiJ) bærer en anden kombination af Nlrp1-familiemedlemmer; Nlrp1d-1f er nye stammespecifikke alleler, som tidligere var ukendte. Diversiteten mellem forskellige Nlrp1-alleler er større end sekvensdiversiteten mellem alleler fra mus og rotter. F.eks. indeholder C57BL/6J Nlrp1c, som ikke findes i de to andre stammer, mens Nlrp1b2 findes i både NOD/ShiLtJ og WSB/EiJ, men ikke i C57BL/6J. I PWK/PhJ (M. m. musculus) er Nlrp1-lokusset næsten dobbelt så stort som i GRCm38-referencegenomet og indeholder nye Nlrp1-homologer (Fig. 2c), mens dette lokus i M. spretus (også vild afstammet) er meget kortere end i nogen anden musestamme. Ca. 90 % af de intergene regioner i PWK/PhJ-samlingen af Nlrp1-lokus består af transposable elementer (Fig. 2d).
Den vildt afledte PWK/PhJ (M. m. musculus) og CAST/EiJ (M. m. castaneus) stammer har meget ens haplotyper; PWK/PhJ-makrofager er imidlertid resistente over for pyroptotisk celledød induceret af dødbringende miltbrandtoksin, mens CAST/EiJ-makrofager ikke er det54. Det er blevet antydet, at Nlrp1c kan være det kausale familiemedlem, der formidler resistens; Nlrp1c kan amplificeres fra cDNA fra PWK/PhJ-makrofager, men ikke fra CAST/EiJ54. I de novo-sammensætningerne deler begge musestammer den samme promotorregion for Nlrp1c; når den blev transskriberet, kunne cDNA af Nlrp1c_CAST imidlertid ikke amplificeres med tidligere designede primere54 på grund af SNP’er på primerbindingsstedet (5′…CACT-3′ → 5′…TACC-3′). Primerbindingsstedet i PWK/PhJ er det samme som i C57BL/6J, men Nlrp1c er et pseudogen, der er forudsagt. Vi fandt en mismatch på 18 aminosyrer i det nukleotidbindende domæne (NBD) mellem Nlrp1b_CAST og Nlrp1b_PWK. Disse divergerende profiler tyder på, at Nlrp1c ikke er den eneste mediator for resistens over for dødbringende miltbrandtoksin hos musen, men at flere andre medlemmer kan være involveret. De nyligt annoterede medlemmer Nlrpp1b2 og Nlrp1d synes funktionelt intakte i CAST/EiJ, men blev begge forudsagt som pseudogener i PWK/PhJ på grund af tilstedeværelsen af stopkodoner eller frameshift-mutationer. I C57BL/6J blev der rapporteret om tre splejsningsisoformer af Nlrp1b (SV1, SV2 og SV3)54. En dot-plot mellem PWK/PhJ og C57BL/6J-referencen illustrerer forstyrrelsen af samlinearitet ved PWK/PhJ Nlrp1b2- og Nlrp1d-allelerne (fig. 2d). Alle de vilde stammer, som vi sekventerede, indeholder Nlrp1d i fuld længde og udviser en lignende forstyrrelse af samlinearitet ved disse alleler i forhold til C57BL/6J (Supplerende data 6). SV1-isoformen i C57BL/6J er afledt af afkortede ancestrale paraloger af Nlrp1b og Nlrp1d, hvilket indikerer, at Nlrp1d blev tabt i C57BL/6J-linjen. Genomstrukturen af Nlrp1-lokussen i PWK/PhJ, CAST/EiJ, WSB/EiJ og NOD/ShiLtJ blev bekræftet ved hjælp af Fiber-FISH (Supplerende fig. 9).
Samlingerne viste også omfattende diversitet ved hver af de andre undersøgte loci: immunitetsrelaterede GTPaser (IRG’er) og Schlafen-familien (Slfn). IRG-proteiner tilhører en underfamilie af interferon-inducerbare GTPaser, der findes i de fleste hvirveldyr55. I mus bidrager medlemmer af IRG-proteinfamilien til det adaptive immunsystem ved at give modstandsdygtighed over for intracellulære patogener som f.eks. Chlamydia trachomatis, Trypanosoma cruzi og Toxoplasma gondii56. Vores de novo-sammensætning stemmer overens med tidligere offentliggjorte data for CAST/EiJ48. For første gang viser den rækkefølgen, orienteringen og strukturen af tre stærkt divergerende haplotyper, der findes i WSB/EiJ, PWK/PhJ og SPRET/EiJ, herunder ny annotation af omarrangerede promotorer, indsatte forarbejdede pseudogener og en høj frekvens af LINE-repeteringer (Supplerende data 6).
Den Schlafen (kromosom 11: 82,9-83,3 Mb) familie af gener er angiveligt involveret i immunrespons, celledifferentiering, celledifferentiering, proliferation og vækst, kræftinvasion og kemoterapiresistens. Hos mennesker blev det rapporteret, at SLFN11 hæmmer HIV-proteinsyntesen ved en kodonbrugsbaseret mekanisme57 , og hos ikke-menneskelige primater er der rapporteret om positiv selektion på genet Slfn1158. Hos mus kan der forekomme fosterdød mellem stammer med inkompatible Slfn-haplotyper59. Samling af Slfn for de tre CC-stifterstammer af vild oprindelse (CAST/EiJ, PWK/PhJ og WSB/EiJ) viste for første gang omfattende variation på dette locus. Medlemmer af gruppe 4 Slfn-generne50 , Slfn8, Slfn9 og Slfn10, udviser en betydelig sekvensdiversitet blandt disse stammer. F.eks. er Sfln8 en forudsagt pseudogen i PWK/PhJ, men er proteinkodende i de andre stammer; CAST/EiJ-allelen indeholder 78 aminosyre-mismatches sammenlignet med C57BL/6J-referencen (Supplerende figur 10). Både CAST/EiJ og PWK/PhJ indeholder funktionelle kopier af Sfln10, som er en forudsagt pseudogen i C57BL/6J og WSB/EiJ. Et nyt startkodon opstrøms for Slfn4, som forårsager en 25 aminosyre N-terminal forlængelse, blev identificeret i PWK/PhJ og WSB/EiJ. Et andet medlem, der findes i referencen, Slfn14, er bevaret i PWK/PhJ og CAST/EiJ, men er et pseudogen i WSB/EiJ (Supplerende fig. 10).
Referencegenopdateringer informeret af stammeassembler
Der er i øjeblikket 11 gener i GRCm38-referencemassen (C57BL/6J), som er ufuldstændige på grund af et hul i sekvensen. Først blev disse loci sammenlignet med de respektive regioner i C57BL/6NJ-samlingen og brugt til at identificere contigs fra offentlige samlinger af referencestammen, som tidligere var udeladt på grund af utilstrækkeligt overlap. For det andet blev C57BL/6J-reads, der var tilpasset de interessante regioner i C57BL/6NJ-samlingen, ekstraheret med henblik på målrettet samling, hvilket førte til generering af contigs, der dækker sekvenser, der i øjeblikket mangler i referencen. Begge tilgange resulterede i færdiggørelse af ti nye genstrukturer (f.eks. Supplerende fig. 11 og Supplerende data 7) og den næsten fuldstændige inddragelse af Sts-genet, som tidligere manglede.
Forbedringer af referencegenomet kombineret med pan-stamme-genprædiktioner blev brugt til at levere opdateringer til den eksisterende annotation af referencegenomet, som vedligeholdes af GENCODE-konsortiet60. Vi undersøgte de stamme-specifikke RNA-Seq-genprædiktioner (Comparative Augustus), der indeholder 75 % nye introner sammenlignet med den eksisterende referenceannotation (tabel 1) (GENCODE M8, kromosomer 1-12). Af de 785 undersøgte forudsigelser førte 62 til annotering af nye loci, herunder 19 proteinkodende gener og 6 pseudogener (Supplerende tabel 14 og Supplerende data 8). I de fleste tilfælde, hvor et nyt locus blev forudsagt på referencegenomet, identificerede vi allerede eksisterende, men ofte ufuldstændig, annotation. For eksempel blev Nmur1-genet forlænget i 5′-enden og gjort komplet på grundlag af beviser, der støttede en forudsigelse, der splejsede til et opstrøms exon, der indeholdt det tidligere manglende startkodon. Mroh3-genet, der oprindeligt blev annoteret som et ubehandlet pseudogen, blev opdateret til et proteinkodende gen på grund af identifikationen af et nyt intron, der gjorde det muligt at forlænge CDS’et til fuld længde. Den tidligere annoterede pseudogenmodel er blevet bibeholdt som et nonsense-medieret henfald (NMD) transkript af det proteinkodende locus. Ved det nye bicistroniske locus, Chml_Opn3, var den oprindelige annotation et enkelt exon-gen, Chml, som blev udvidet og viste sig at dele sit første exon med Opn3-genet.
Vi opdagede et nyt 188-exon-gen på kromosom 11, som udvider det eksisterende gen Efcab3 betydeligt, der spænder mellem Itgb3 og Mettl2 (Fig. 3a). Dette Efcab3-lignende gen blev kurateret manuelt, valideret i henhold til HAVANA-retningslinjerne61 og identificeret i GENCODE-udgivelser M11 og fremefter som Gm11639. Efcab3/Efcab13 koder for calciumbindende proteiner, og det nye gen består primært af gentagne EF-hand-proteindomæner (Supplerende fig. 12). En analyse af synteny- og genomstruktur viste, at Efcab3-lokusset i vid udstrækning er bevaret på tværs af andre pattedyr, herunder de fleste primater. Sammenlignende genprædiktion identificerede den fulde længdeversion i orangutang, rhesusmakak, bushbaby og egernabe. Locus indeholder imidlertid et brudpunkt ved den fælles forfader til chimpanse, gorilla og menneske (Homininae) på grund af en ~15 Mb intrachromosomal omlægning, der også slettede mange af de interne EF-hand-domænerepeats (Fig. 3b og Supplerende Fig. 13). Analyse af Genotype-Tissue Expression (GTEx)62 data62 hos mennesker viste, at EFCAB13 locus udtrykkes på tværs af mange vævstyper, med den højeste ekspression målt i testis og skjoldbruskkirtel. I modsætning hertil har EFCAB3-lokusset kun et lavt målbart udtryk i testis. Dette er i overensstemmelse med, at promotoren for det fulde gen er til stede opstrøms fra EFCAB13-versionen, hvilket understøttes af H3K4me3-analyser (Supplerende fig. 14). Hos mus udtrykkes genet Efcab3 specifikt under udviklingen i mange væv med høj ekspression i de øverste lag af den kortikale plade (se URL’er) og er placeret i umiddelbar nærhed af den genomiske 17q21.31 synteniske region, der er forbundet med strukturelle ændringer i hjernen hos både mus og mennesker63. Vi brugte CRISPR (clustered regularly interspaced short palindromic repeats) til at skabe Efcab3-lignende mutantmus (Efcab3em1(IMPC)Wtsi, se Metoder) og registrerede 188 primære fænotypemålinger (Supplerende data 9). Vi målte også 40 hjerneparametre på tværs af 22 forskellige hjernestrukturer som en del af en neuro-anatomisk screening med højt gennemløb (Supplerende tabeller 15 og 16, se Metoder). Især blev der identificeret anomalier i hjernestørrelsen i Efcab3-lignende mutantmus sammenlignet med matchede vildtypekontroller (Fig. 3c). Interessant nok var den laterale ventrikel en af de mest alvorligt påvirkede hjernestrukturer med en udvidelse på 65% (P = 0,007). Pontinkernerne blev også forøget i størrelse med 42 % (P = 0,001) og lillehjernen med 27 % (P = 0,02); disse to regioner er involveret i motorisk aktivitet (Fig. 3d og Supplerende Fig. 15). Thalamus var også større med 19 % (P = 0,007). Som følge heraf blev den samlede hjernearealparameter forstørret med 7 % (P = 0,006). Tilsammen tyder disse resultater på en potentiel rolle for Efcab3-lignende genet til at regulere hjernens udvikling og hjernestørrelse fra forhjernen til baghjernen.