Sequence assemblies and genome annotation
Chromosoom-schaal assemblies werden geproduceerd voor 16 laboratoriummuis stammen met behulp van een mengsel van Illumina gepaarde-end (40-70×), mate-paren (3, 6, 10 kilobasen (kb)), fosmid, en BAC eindsequenties (Supplementary Table 1), en Dovetail Genomics Chicago bibliotheken19. Pseudochromosomen werden geproduceerd in parallel gebruik te maken van cross-species syntenie uitlijningen wat resulteert in genoom-assemblages van tussen de 2.254 (WSB / EiJ) en 2.328 gigabases (Gb) (AKR / J) met uitzondering van onbekende gat basen. Ongeveer 0,5-2% van de totale genoomlengte per stam was ongeplaatst en bestaat uit onbekende hiaatbasissen (18-49%) en herhaalde sequenties (61-79%) (Supplementary Tabel 2), met tussen 89 en 410 voorspelde genen per stam (Supplementary Tabel 3). Mitochondriaal genoom (mtDNA) assemblages voor 14 stammen ondersteunden eerder gepubliceerde sequenties20, hoewel een klein aantal hoge kwaliteit nieuwe sequentie varianten in AKR/J, BALB/cJ, C3H/HeJ, en LP/J in strijd waren met GenBank vermeldingen (Supplementary Table 4). Nieuwe mtDNA haplotypen werden geïdentificeerd in PWK/PhJ en NZO/HlLtJ. Met name NZO/HlLtJ bevatte 55 SNPs (33 gedeeld met de wild-afgeleide stammen) en lijkt anders te zijn dan de andere klassieke inteeltstammen (supplementaire Fig. 1). Eerdere variatiecatalogi hebben een hoge concordantie (>97% gedeelde SNPs) aangetoond tussen NZO/HlLtJ en een andere inteelt laboratoriumstam NZB/BlNJ21.
We hebben de base-nauwkeurigheid van de stamchromosomen ten opzichte van twee versies van het C57BL/6J referentiegenoom (MGSCv311 en GRCm382) beoordeeld door eerst alle gepaarde-end sequencing-leestjes van elke stam opnieuw uit te lijnen op hun respectieve genoom-assemblages, en vervolgens deze uitlijningen te gebruiken om SNP’s en indels te identificeren. Het gecombineerde SNP- en indelfoutenpercentage was 0,09-0,1 fouten per kb, vergeleken met 0,334 voor MGSCv3 en 0,02 voor GRCm38 (supplementaire tabel 5). Vervolgens gebruikten we een set van 612 polymerase kettingreactie (PCR) primerparen die eerder waren gebruikt voor het valideren van structurele variant calls in acht stammen22. De assemblages vertoonden 4,7-6,7% primerparen met incorrecte uitlijningen, vergeleken met 10% voor MGSCv3 (aanvullende tabel 6). Ten slotte uitlijning van PacBio long-read complementaire DNA-sequenties van lever en milt van C57BL / 6J, CAST / EiJ, PWK / PhJ, en SPRET / EiJ bleek dat de GRCm38 referentie-genoom had het hoogste aandeel van correct uitgelijnd cDNA leest (99% en 98%, respectievelijk) en de stammen en MGSCv3 waren 1-2% lager (Supplementary Tabel 7). De vertegenwoordiging van bekende muizen repeat families in de assemblies laat zien dat het korte repeat (<200 basenparen (bp)) gehalte vergelijkbaar was met GRCm38 (Supplementary Fig. 2a,b). Het totale aantal lange herhalingen (>200 bp) is consistent over alle stammen; de totale sequentielengte is echter consistent korter dan GRCm38 (Supplementary Fig. 2c).
Strain-specifieke consensus gen sets werden geproduceerd met behulp van de GENCODE C57BL/6J annotatie en stam-specifieke RNA-sequencing (RNA-Seq) van meerdere weefsels23 (Supplementary Table 8 en Supplementary Fig. 3). De consensus gen sets bevatten meer dan 20.000 eiwit-coderende genen en meer dan 18.000 niet-coderende genen (Fig. 1a en supplementaire tabel 1). Voor de klassieke laboratoriumstammen werden 90,2% van de coderende transcripten (88,0% bij in het wild levende stammen) en 91,2% van de niet-coderende transcripten (91,4% bij in het wild levende stammen) die in de GRCm38-referentie-genreeks aanwezig zijn, vergelijkenderwijs geannoteerd. Genvoorspellingen op basis van stam-specifieke RNA-Seq (Comparative Augustus24) voegden gemiddeld 1.400 nieuwe isovormen toe aan wild-afgeleide en 1.207 nieuwe isovormen aan klassieke stamgenannotatiesets. Genvoorspelling op basis van PacBio cDNA-sequencing voegde gemiddeld nog eens 1.865 nieuwe isovormen toe aan CAST/EiJ, PWK/PhJ, en SPRET/EiJ. Veronderstelde nieuwe loci zijn gedefinieerd als gesplitste genen die werden voorspeld op basis van stam-specifieke RNA-Seq en die geen genen overlapten die van het referentiegenoom waren geprojecteerd. Gemiddeld waren 37 genen putatieve nieuwe loci (aanvullende gegevens 1) in wild-afgeleide stammen en 22 in klassieke stammen. Meestal lijken deze het resultaat te zijn van genduplicatie. Bovendien identificeerde een geautomatiseerde pseudogeenannotatie-workflow, Pseudopipe25, naast handmatig gecureerde pseudogenen uit het GRCm38-referentiegenoom, gemiddeld 11.000 (3.317 geconserveerd tussen alle stammen) pseudogenen per stam (Supplementary Fig. 4) die lijken te zijn ontstaan door retrotranspositie (~80%) of genduplicatie (~20%).
Regio’s van het muizengenoom met extreme allelische variatie
Geïnfecteerde laboratoriummuizenstammen worden gekenmerkt door ten minste 20 generaties inteelt en zijn genetisch homozygoot op bijna alle loci1. Ondanks dit, hebben eerdere SNP variatie catalogi geïdentificeerd van hoge kwaliteit heterozygote SNP’s (hSNPs) wanneer gelezen werden uitgelijnd met het C57BL/6J referentiegenoom 12. De aanwezigheid van hogere dichtheden van hSNPs kunnen wijzen op kopie aantal veranderingen, of nieuwe genen die niet aanwezig zijn in de referentie-assemblage, gedwongen om gedeeltelijk kaart om een enkele locus in de referentie 12,21. Hun identificatie is dus een krachtig instrument voor het vinden van fouten in genoomassemblages. We identificeerden tussen 116.439 (C57BL / 6NJ) en 1.895.741 (SPRET / EiJ) hoge kwaliteit hSNPs van de MGP variatie catalogus v521 (Supplementary Tabel 9). Het concentreren van onze analyse op de top 5% meest hSNP-gedichte regio’s (vensters ≥ 71 hSNPs per 10 kb schuifvenster) identificeerde de meerderheid van de bekende polymorfe regio’s onder de stammen (Supplementary Fig. 5) en goed voor ~ 49% van alle hSNPs (Supplementary Tabel 9 en Supplementary Fig. 6a). Na het toepassen van deze cut-off op alle stam-specifieke hSNP regio’s en het samenvoegen van overlappende of aangrenzende vensters, tussen 117 (C57BL / 6NJ) en 2.567 (SPRET / EiJ) hSNP regio’s bleven per stam (Supplementary Table 9), met een gemiddelde grootte van 18-20 kb (Supplementary Fig. 6b). Vele hSNP clusters overlappen immuniteits- (bijvoorbeeld MHC, NOD-achtige receptoren, en AIM-achtige receptoren), sensorische (bijvoorbeeld reuk- en smaakreceptoren), reproductieve (bijvoorbeeld zwangerschapsspecifieke glycoproteïnen en sperma-geassocieerde E-rijke proteïnen), en neuronale- en gedragsgerelateerde genen (bijvoorbeeld jeukreceptoren26 en γ-protocadherines27) (Fig. 1b en supplementaire Fig. 5). Alle van de wilde stam hSNP regio’s bevatten gen en coderende sequentie (CDS) base-paar tellingen groter dan een klassieke inteelt stam (≥503 en ≥0.36 megabases (Mb), respectievelijk; Supplementaire Tabel 9). De regio’s geïdentificeerd in C57BL/6J en C57BL/6NJ (117 en 141, respectievelijk; 145 gecombineerd) doorsnijden bekende GRCm38 assemblage problemen, waaronder lacunes, niet geplaatste scaffolds, of centromeric regio’s (107/145, 73,8%). De resterende kandidaat-regio’s omvatten grote eiwitfamilies (15/145, 10,3%) en herhalingselementen (17/145, 11,7%) (Aanvullende Gegevens 2).
We onderzochten eiwitklassen aanwezig in de hSNP regio’s door 1.109 PantherDB matches te identificeren, toegewezen aan 26 eiwitklassen uit een gecombineerde set van alle genen in hSNP dichte regio’s (Aanvullende Gegevens 3). Afweer en immuniteit was de grootst vertegenwoordigde eiwit klasse (155 genen, supplementaire data 4), goed voor 13,98% van alle eiwit klasse hits (supplementaire tabel 10). Dit was een vijfvoudige verrijking vergeleken met een geschat genoom-breed percentage (Fig. 1d). In het bijzonder werden 89 immuun-gerelateerde genen geïdentificeerd in de klassieke stammen, waarvan 84 werden gedeeld met ten minste één van de wild-afgeleide stammen (Fig. 1d). SPRET/EiJ droeg het grootste aantal stam-specifieke gen-hits bij (22 genen).
Vele paraloge genfamilies waren vertegenwoordigd onder de hSNP-regio’s (Supplementary Data 3), waaronder genen met functionele menselijke orthologs. Enkele prominente voorbeelden zijn apolipoproteïne L-allelen, waarvan varianten resistentie kunnen verlenen tegen Trypanosoma brucei, de voornaamste oorzaak van slaapziekte bij de mens28,29; IFI16 (interferon gamma induceerbaar eiwit 16, een lid van de AIM2-achtige receptoren), een DNA-sensor die nodig is voor de dood van lymfoïde CD4 T-cellen die abortief zijn geïnfecteerd met het humane immunovirus (HIV)30 ; NAIP (NLR family apoptosis inhibitory protein), waarin functionele variatie van het kopienummer in verband wordt gebracht met een verhoogde celdood bij Legionella pneumophila-infectie31; en secretoglobines (Scgb-leden), die betrokken kunnen zijn bij tumorvorming en -invasie bij zowel de mens als de muis32,33. Er werden ook grote genfamilies geïdentificeerd waarover weinig functionele informatie bekend is. Een cluster van ongeveer 50 genen, waartoe hippocalcine-like 1 (Hpcal1) en zijn homologen behoren, werd geïdentificeerd (chromosoom 12: 18-25 Mb). Hpcal1 behoort tot de neuronale calciumsensoren die vooral tot expressie komen in retinale fotoreceptoren, neuronen en neuroendocriene cellen34. Deze regio is verrijkt voor hSNPs in alle stammen behalve C57BL/6J en C57BL/6NJ. Interessant is dat binnen deze regio, Cpsf3 (21.29 Mb) is gelegen op een eiland van hoge instandhouding in alle stammen en een homozygote C57BL/6NJ knock-out produceert subviable nakomelingen35. Andere voorbeelden zijn een andere regio op chromosoom 12 (87-88 Mb) die ongeveer 20 eukaryotische translatie-initiatie factor 1A (eIF1a) homologen bevat en op chromosoom 14 (41-45 Mb) die ongeveer 100 Dlg1-achtige genen bevat. Genen binnen alle hSNP kandidaat regio’s zijn geïdentificeerd en geannoteerd (Supplementary Fig. 5).
We onderzochten retrotransposon inhoud in hSNP dichte regio’s op GRCm38 in vergelijking met een geschatte nul-distributie (een miljoen simulaties) en vonden een significante verrijking van zowel LTRs (empirische P < 1 × 10-7) en lange afgewisselde nucleaire elementen (LINEs) (empirische P < 1 × 10-7) (Supplementary Tables 11 en 12). Genen retrotranspositie is lang geïmpliceerd in het creëren van gen familie diversiteit36, nieuwe allelen verlenen positief geselecteerd aanpassingen37. Eenmaal getransponeerd, transponeerbare elementen accumuleren mutaties in de tijd als de sequentie divergeert38,39. Voor LTRs, LINEs en short interspersed nuclear elements (SINEs) was het gemiddelde percentage sequentie-divergentie significant lager (P < 1 × 10-22) binnen hSNP regio’s vergeleken met de rest van het genoom (Fig. 1e). Het grootste verschil in gemiddelde sequentie divergentie was tussen LTRs binnen en buiten de hSNP dichte regio’s. Door alleen herhalingselementen met minder dan 1% divergentie te onderzoeken, vonden we dat deze regio’s significant verrijkt zijn voor LTR’s (empirische P < 1 × 10-7) en LINE’s (empirische P = 0,047).
De novo assemblage van complexe genfamilies
Onze gegevens verhelderden kopie-aantal variatie die voorheen onbekend was in de genomen van muizenstammen en brachten genuitbreidingen, -inkrimpingen en nieuwe allelen (<80% sequentie-identiteit) aan het licht. Bijvoorbeeld, 23 verschillende clusters van olfactorische receptoren werden geïdentificeerd, wat wijst op aanzienlijke variatie tussen inteeltstammen. In de muis, fenotypische verschillen, met name in dieet en gedrag, zijn gekoppeld aan verschillende olfactorische receptor repertoires 40,41. Te dien einde hebben we gekarakteriseerd de CAST / EiJ olfactorische receptor repertoire met behulp van onze de novo montage en geïdentificeerd 1.249 kandidaat olfactorische receptor genen (Supplementaire gegevens 5). Ten opzichte van de referentiestam (C57BL / 6J), CAST / EiJ heeft verloren 20 olfactorische receptoren en opgedaan 37 gen familieleden: 12 nieuwe en 25 die worden ondersteund door gepubliceerde voorspellingen op basis van boodschapper-RNA (mRNA) afkomstig van het volledige olfactorische slijmvlies van CAST/EiJ (fig. 2a en aanvullende tabel 13)42.
We ontdekten nieuwe genleden op verschillende belangrijke immuunloci die de aangeboren en adaptieve reacties op infectie reguleren. Zo bevat chromosoom 10 (22,1-22,4 Mb) op C57BL/6J Raet1-allelen en kleine histocompatibiliteitsantigeenleden van H60. Raet1 en H60 zijn belangrijke liganden voor NKG2D, een activerende receptor van natuurlijke killercellen43. NKG2D-liganden komen tot expressie op het oppervlak van geïnfecteerde44 en metastatische cellen45 en kunnen een rol spelen bij auto-immuunreacties van transplantaten46. Uit de de novo assemblage werden zes verschillende Raet1/H60 haplotypen geïdentificeerd onder de acht CC-stammen; Drie van de geïdentificeerde haplotypen worden gedeeld door de klassieke inteeltstammen CC (A/J, 129S1/SvImJ en NOD/ShiLtJ hebben hetzelfde haplotype) en drie verschillende Raet1/H60 haplotypen werden geïdentificeerd in elk van de wilde inteeltstammen (CAST/EiJ, PWK/PhJ en WSB/EiJ) (Fig. 2b en aanvullende Figs. 7 en 8). Het CAST/EiJ haplotype codeert slechts één Raet1-familielid (Raet1e) en geen H60-allelen, terwijl het klassieke NOD/ShiLtJ haplotype vier H60- en drie Raet1-allelen heeft. De Aspergillus-resistente locus 4 (Asprl4), een van de verschillende kwantitatieve trait loci (QTL’s) die resistentie tegen Aspergillus fumigatus infectie mediëren, overlapt deze locus en omvat een 1 Mb (~10% van QTL) interval dat, vergeleken met andere klassieke stammen, een haplotype bevat dat uniek is voor NZO/HlLtJ (Supplementary Fig. 7). Stam-specifieke haplotype associaties met Asprl4 en overleving zijn gerapporteerd voor CAST/EiJ en NZO/HlLtJ, die beide resistentie vertonen tegen A. fumigatus infectie47 en zij zijn ook de enige stammen die H60 allelen op deze locus hebben verloren.
We onderzochten drie immuniteitsgerelateerde loci op chromosoom 11, IRG (GRCm38: 48,85-49,10 Mb), Nlrp1 (71,05-71,30 Mb), en Slfn (82,9-83,3 Mb) vanwege hun polymorfe complexiteit en hun belang voor de overleving van muizen48,49,50. De Nlrp1 locus (NOD-like receptors, pyrin domain-containing) codeert voor inflammasoomcomponenten die endogene microbiële producten en metabolische stress waarnemen en daardoor aangeboren immuunreacties stimuleren51. In de huismuis zijn Nlrp1 allelen betrokken bij de detectie van Bacillus anthracis dodelijk toxine, wat leidt tot inflammasoom activatie en pyroptose van macrofagen52,53. We ontdekten zeven verschillende Nlrp1 familieleden door het vergelijken van zes stammen (CAST / EiJ, PWK / PhJ, WSB / EiJ, SPRET / EiJ, NOD / ShiLtJ, en C57BL / 6J). Elke stam heeft een unieke haplotype van Nlrp1 leden, het benadrukken van de uitgebreide sequentie diversiteit op deze locus over inteelt muizen stammen (Fig. 2c). Elk van de drie M. m. domesticus stammen (C67BL/6J, NOD / ShiLtJ, en WSB / EiJ) draagt een andere combinatie van Nlrp1 familieleden; Nlrp1d-1f zijn nieuwe stam-specifieke allelen die voorheen onbekend waren. Diversiteit tussen de verschillende Nlrp1 allelen is groter dan de sequentie divergentie tussen muis en rat allelen. Bijvoorbeeld, C57BL/6J bevat Nlrp1c, die niet aanwezig is in de andere twee stammen, terwijl Nlrp1b2 aanwezig is in zowel NOD/ShiLtJ en WSB/EiJ maar niet C57BL/6J. In PWK/PhJ (M. m. musculus), de Nlrp1 locus is bijna dubbel zo groot als de GRCm38 referentie-genoom en bevat nieuwe Nlrp1 homologen (Fig. 2c), terwijl in M. spretus (ook wild-afgeleide) deze locus is veel korter dan in elke andere muis stam. Ongeveer 90% van de intergene regio’s in de PWK/PhJ assemblage van de Nlrp1 locus bestaat uit transponeerbare elementen (Fig. 2d).
De wild-afgeleide PWK/PhJ (M. m. musculus) en CAST/EiJ (M. m. castaneus) stammen delen sterk vergelijkbare haplotypen; PWK/PhJ macrofagen zijn echter resistent tegen pyroptotische celdood geïnduceerd door anthrax dodelijk toxine, terwijl CAST/EiJ macrofagen dat niet zijn54. Er is gesuggereerd dat Nlrp1c het causale familielid zou kunnen zijn dat resistentie medieert; Nlrp1c kan worden geamplificeerd uit cDNA van PWK/PhJ-macrofagen, maar niet van CAST/EiJ54. In de de novo assemblages delen beide muizenstammen dezelfde promotorregio voor Nlrp1c; wanneer getranscribeerd, kon het cDNA van Nlrp1c_CAST echter niet worden geamplificeerd met eerder ontworpen primers54 als gevolg van SNPs op de primerbindingsplaats (5′…CACT-3′ → 5′…TACC-3′). De primerbindingsplaats in PWK/PhJ is dezelfde als die in C57BL/6J, maar Nlrp1c is een voorspeld pseudogeen. We vonden een 18 aminozuur mismatch in het nucleotide-bindende domein (NBD) tussen Nlrp1b_CAST en Nlrp1b_PWK. Deze afwijkende profielen suggereren dat Nlrp1c niet de enige mediator is van resistentie tegen anthrax dodelijk toxine in de muis, maar dat verschillende andere leden hierbij betrokken kunnen zijn. De nieuw geannoteerde leden Nlrp1b2 en Nlrp1d lijken functioneel intact in CAST/EiJ maar werden beide als pseudogeen voorspeld in PWK/PhJ door de aanwezigheid van stopcodons of frameshift-mutaties. In C57BL/6J werden drie splicing isovormen van Nlrp1b (SV1, SV2, en SV3) gerapporteerd54. Een dot-plot tussen PWK/PhJ en de C57BL/6J referentie illustreert de verstoring van de co-lineariteit bij de PWK/PhJ Nlrp1b2 en Nlrp1d allelen (Fig. 2d). Alle wild-afgeleide stammen die we hebben gesequenced bevatten het volledige Nlrp1d en vertonen een vergelijkbare verstoring van de co-lineariteit bij deze allelen ten opzichte van C57BL/6J (Supplementary Data 6). De SV1 isovorm in C57BL/6J is afgeleid van afgeknotte voorouderlijke paralogen van Nlrp1b en Nlrp1d, wat erop wijst dat Nlrp1d in de C57BL/6J lijn verloren is gegaan. De genoom structuur van de Nlrp1 locus in PWK/PhJ, CAST/EiJ, WSB/EiJ, en NOD/ShiLtJ werd bevestigd met behulp van Fiber-FISH (Supplementary Fig. 9).
De assemblages toonden ook uitgebreide diversiteit op elk van de andere onderzochte loci: immuniteit-gerelateerde GTPasen (IRGs) en Schlafen familie (Slfn). IRG-eiwitten behoren tot een subfamilie van interferon-induceerbare GTPasen die aanwezig zijn in de meeste gewervelde dieren55. Bij de muis dragen de leden van de IRG-eiwitfamilie bij tot het adaptieve immuunsysteem door weerstand te bieden tegen intracellulaire pathogenen zoals Chlamydia trachomatis, Trypanosoma cruzi, en Toxoplasma gondii56. Onze de novo assemblage is in overeenstemming met eerder gepubliceerde gegevens voor CAST/EiJ48. Voor de eerste keer, het toont de volgorde, oriëntatie en structuur van drie sterk uiteenlopende haplotypes aanwezig zijn in WSB / EiJ, PWK / PhJ, en SPRET / EiJ, met inbegrip van nieuwe annotatie van herschikte promotors, ingevoegd verwerkt pseudogenen, en een hoge frequentie van LINE herhalingen (Supplementaire gegevens 6).
De Schlafen (chromosoom 11: 82,9-83,3 Mb) familie van genen zijn naar verluidt betrokken bij immuunreacties, celdifferentiatie, proliferatie en groei, kanker invasie, en resistentie tegen chemotherapie. Bij de mens werd gemeld dat SLFN11 de eiwitsynthese van HIV remt door een op codongebruik gebaseerd mechanisme57 en bij niet-menselijke primaten werd positieve selectie op het gen Slfn11 gerapporteerd58. Bij muizen kan embryonale sterfte optreden tussen stammen met incompatibele Slfn haplotypen59. Montage van Slfn voor de drie CC-stammen van wilde oorsprong (CAST/EiJ, PWK/PhJ, en WSB/EiJ) toonde voor het eerst uitgebreide variatie op dit locus. Leden van de groep 4 Slfn-genen50, Slfn8, Slfn9 en Slfn10, vertonen een aanzienlijke sequentie-diversiteit tussen deze stammen. Bijvoorbeeld, Sfln8 is een voorspeld pseudogeen in PWK/PhJ maar is eiwitcoderend in de andere stammen; het CAST/EiJ allel bevat 78 aminozuurmismatches vergeleken met de C57BL/6J referentie (Supplementary Fig. 10). Zowel CAST / EiJ en PWK / PhJ bevatten functionele kopieën van Sfln10, dat is een voorspelde pseudogeen in C57BL / 6J en WSB / EiJ. Een nieuwe startcodon stroomopwaarts van Slfn4, die een 25 aminozuur N-terminale extensie veroorzaakt, werd geïdentificeerd in PWK/PhJ en WSB /EiJ. Een ander lid aanwezig in de referentie, Slfn14, is geconserveerd in PWK/PhJ en CAST/EiJ, maar is een pseudogeen in WSB/EiJ (Supplementary Fig. 10).
Referentie genoom updates geïnformeerd door de stam assemblages
Er zijn momenteel 11 genen in de GRCm38 referentie-assemblage (C57BL/6J) die onvolledig zijn als gevolg van een gat in de sequentie. Eerst werden deze loci vergeleken met de respectieve regio’s in de C57BL/6NJ assemblage en gebruikt om contigs te identificeren van openbare assemblages van de referentiestam eerder weggelaten als gevolg van onvoldoende overlap. Ten tweede, C57BL / 6J leest uitgelijnd met de regio’s van belang in de C57BL / 6NJ assemblage werden geëxtraheerd voor gerichte montage, wat leidt tot de generatie van contigs die sequenties die momenteel ontbreken in de referentie. Beide benaderingen resulteerden in de voltooiing van tien nieuwe gen structuren (bijvoorbeeld, Supplementary Fig. 11 en Supplementary Data 7) en de bijna-complete opname van de Sts gen dat voorheen ontbrak.
Verbetering van het referentie-genoom, gekoppeld aan pan-strain gen voorspellingen, werden gebruikt om updates van de bestaande referentie-genoom annotatie, onderhouden door de GENCODE consortium60 te bieden. Wij onderzochten de stam-specifieke RNA-Seq (Comparative Augustus) genvoorspellingen die 75% nieuwe introns bevatten in vergelijking met de bestaande referentie-annotatie (tabel 1) (GENCODE M8, chromosomen 1-12). Van de 785 onderzochte voorspellingen leidden er 62 tot de annotatie van nieuwe loci, waaronder 19 eiwit-coderende genen en 6 pseudogenen (supplementaire tabel 14 en supplementaire gegevens 8). In de meeste gevallen waarin een nieuwe locus op het referentiegenoom werd voorspeld, hebben we reeds bestaande, maar vaak onvolledige, annotatie gevonden. Zo is het Nmur1-gen aan het 5′-uiteinde verlengd en compleet gemaakt op basis van bewijsmateriaal dat een voorspelling ondersteunt die spliced naar een stroomopwaarts exon dat het voorheen ontbrekende startcodon bevat. Het Mroh3-gen, dat oorspronkelijk als een onverwerkt pseudogeen was geannoteerd, werd geactualiseerd tot een eiwit-coderend gen door de identificatie van een nieuw intron dat de uitbreiding van het CDS tot de volledige lengte mogelijk maakte. Het eerder geannoteerde pseudogeen model is gehandhaafd als een nonsens-gemedieerd verval (NMD) transcript van de eiwit-coderende locus. Op de nieuwe bicistronische locus, Chml_Opn3, was de oorspronkelijke annotatie een gen met één exon, Chml, dat werd verlengd en zijn eerste exon bleek te delen met het Opn3-gen.
We ontdekten een nieuw gen van 188 exonen op chromosoom 11 dat het bestaande gen Efcab3 aanzienlijk verlengt en zich uitstrekt tussen Itgb3 en Mettl2 (fig. 3a). Dit Efcab3-achtige gen werd handmatig gecureerd, gevalideerd volgens de HAVANA richtlijnen61 en geïdentificeerd in GENCODE releases M11 en later als Gm11639. Efcab3/Efcab13 coderen voor calciumbindende eiwitten en het nieuwe gen bestaat voornamelijk uit herhaalde EF-hand eiwitdomeinen (supplementaire Fig. 12). Analyse van de syntenie en de genoomstructuur toonde aan dat de Efcab3 locus grotendeels geconserveerd is bij andere zoogdieren, waaronder de meeste primaten. Vergelijkende genvoorspelling identificeerde de full-length versie in orang-oetan, resus makaak, bushbaby, en doodshoofdaapje. De locus bevat echter een breekpunt bij de gemeenschappelijke voorouder van chimpansee, gorilla en mens (Homininae) als gevolg van een ~15 Mb intrachromosomale herschikking die ook veel van de interne EF-hand domein herhalingen verwijderde (Fig. 3b en supplementaire Fig. 13). Analyse van Genotype-Weefsel Expressie (GTEx) gegevens62 bij de mens toonde aan dat de EFCAB13 locus tot expressie komt in vele weefseltypen, met de hoogste expressie gemeten in testis en schildklier. De EFCAB3 locus daarentegen heeft slechts een laag niveau van meetbare expressie in de testis. Dit is consistent met de promotor van de full-length gen aanwezig is upstream van de EFCAB13 versie, die wordt ondersteund door H3K4me3 analyse (Supplementary Fig. 14). Bij muizen komt het gen Efcab3 specifiek tot expressie tijdens de ontwikkeling in vele weefsels met een hoge expressie in de bovenste lagen van de corticale plaat (zie URLs) en bevindt zich in de onmiddellijke nabijheid van de genomische 17q21.31 syntenische regio gekoppeld aan structurele veranderingen in de hersenen bij zowel muizen als mensen63. We gebruikten CRISPR (clustered regularly interspaced short palindromic repeats) om Efcab3-achtige mutant muizen (Efcab3em1(IMPC)Wtsi, zie Methoden) te creëren en 188 primaire fenotypering maatregelen (Supplementary Data 9) op te nemen. We hebben ook gemeten 40 hersenen parameters over 22 verschillende hersenstructuren als onderdeel van een high-throughput neuro-anatomische scherm (Supplementary tabellen 15 en 16, zie Methoden). Met name werden hersenafwijkingen geïdentificeerd in Efcab3-achtige mutant muizen in vergelijking met gematchte wild-type controles (Fig. 3c). Interessant is dat de laterale ventrikel was een van de meest ernstig getroffen hersenstructuren vertonen een uitbreiding van 65% (P = 0,007). De pontinekernen waren ook 42% groter (P = 0,001) en de kleine hersenen 27% (P = 0,02); deze twee gebieden zijn betrokken bij motorische activiteit (Fig. 3d en aanvullende Fig. 15). De thalamus was ook groter met 19% (P = 0,007). Als gevolg hiervan werd de totale hersengebied parameter vergroot met 7% (P = 0,006). Samen suggereren deze resultaten een potentiële rol van het Efcab3-achtig gen bij de regulering van de hersenontwikkeling en -omvang van de voorhersenen tot de achterhersenen.