Sexton olika laboratoriemusreferensgenom definierar stamspecifika haplotyper och nya funktionella loci

Sekvenssamlingar och annotering av genomet

Samlingar i kromosomskala producerades för 16 laboratoriemusstammar med hjälp av en blandning av Illumina paired-end (40-70×), mate-pairs (3, 6, 10 kilobaser (kb)), fosmid- och BAC-ändsekvenser (kompletterande tabell 1) och Dovetail Genomics Chicago-bibliotek19. Pseudokromosomerna framställdes parallellt med hjälp av syntesanpassningar över artgränserna, vilket resulterade i genomsamlingar på mellan 2,254 (WSB/EiJ) och 2,328 gigabaser (Gb) (AKR/J), exklusive okända gapbaser. Ungefär 0,5-2 % av den totala genomlängden per stam var oplacerad och består av okända gapbaser (18-49 %) och upprepade sekvenser (61-79 %) (kompletterande tabell 2), med mellan 89 och 410 förutsagda gener per stam (kompletterande tabell 3). Mitokondriella arvsmassor (mtDNA) för 14 stammar stödde tidigare publicerade sekvenser20 , även om ett litet antal nya sekvensvarianter av hög kvalitet i AKR/J, BALB/cJ, C3H/HeJ och LP/J stod i konflikt med GenBank-posterna (kompletterande tabell 4). Nya mtDNA haplotyper identifierades hos PWK/PhJ och NZO/HlLtJ. NZO/HlLtJ innehöll 55 SNP:er (33 delade med de vilda stammarna) och verkar vara annorlunda jämfört med de andra klassiska inavelsstammarna (kompletterande figur 1). Tidigare variationskataloger har visat på hög överensstämmelse (>97 % delade SNPs) mellan NZO/HlLtJ och en annan inavlad laboratoriestam NZB/BlNJ21.

Vi bedömde basnoggrannheten hos stammens kromosomer i förhållande till två versioner av C57BL/6J-referensgenomet (MGSCv311 och GRCm382) genom att först återjustera alla parvisa sekvenseringsavläsningar från varje stam tillbaka till deras respektive genomsammansättningar, och sedan använda dessa anpassningar för att identifiera SNPs och indels. Den kombinerade SNP- och indelfelfrekvensen var 0,09-0,1 fel per kb, jämfört med 0,334 för MGSCv3 och 0,02 för GRCm38 (kompletterande tabell 5). Därefter använde vi en uppsättning av 612 primerpar för polymeraskedjereaktion (PCR) som tidigare använts för att validera strukturella varianter i åtta stammar22. I sammansättningarna hade 4,7-6,7 % av primerparen felaktiga anpassningar jämfört med 10 % för MGSCv3 (kompletterande tabell 6). Slutligen visade en anpassning av PacBio long-read komplementära DNA-sekvenser från lever och mjälte från C57BL/6J, CAST/EiJ, PWK/PhJ och SPRET/EiJ att GRCm38-referensgenomet hade den högsta andelen korrekt anpassade cDNA-avläsningar (99 % respektive 98 %) och att stammarna och MGSCv3 hade 1-2 % lägre andel (kompletterande tabell 7). Representationen av kända upprepningsfamiljer av mus i sammansättningarna visar att innehållet av korta upprepningar (<200 baspar (bp)) var jämförbart med GRCm38 (kompletterande fig. 2a,b). Det totala antalet långa upprepningar (>200 bp) är konsekvent i alla stammar; de totala sekvenslängderna är dock konsekvent kortare än GRCm38 (kompletterande figur 2c).

Stammarspecifika konsensusgenuppsättningar togs fram med hjälp av GENCODE C57BL/6J-annotationen och stamspecifik RNA-sekvensering (RNA-Seq) från flera olika vävnader23 (kompletterande tabell 8 och kompletterande figur 3). Konsensusgenuppsättningarna innehåller över 20 000 proteinkodande gener och över 18 000 icke-kodande gener (fig. 1a och kompletterande tabell 1). För de klassiska laboratoriestammarna har 90,2 % av de kodande transkriptionerna (88,0 % i vilda stammar) och 91,2 % av de icke-kodande transkriptionerna (91,4 % i vilda stammar) som finns i GRCm38-referensgenuppsättningen annoterats på ett jämförande sätt. Genprediktioner från stamspecifik RNA-Seq (Comparative Augustus24) lade i genomsnitt till 1 400 nya isoformer till vildavledda och 1 207 nya isoformer till klassiska genannotationsuppsättningar för stammar. Genprediktion baserad på PacBio cDNA-sekvensering tillförde i genomsnitt 1 865 nya isoformer till CAST/EiJ, PWK/PhJ och SPRET/EiJ. Putativa nya loci definieras som splicade gener som förutspåddes från stamspecifik RNA-Seq och som inte överlappade några gener som projicerats från referensgenomet. I genomsnitt var 37 gener putativt nya loci (kompletterande data 1) i vilda stammar och 22 i klassiska stammar. Oftast verkar dessa gener vara resultatet av genduplikationer. Dessutom identifierade ett automatiserat arbetsflöde för pseudogenannotation, Pseudopipe25, tillsammans med manuellt kurerade pseudogener från GRCm38-referensgenomet, i genomsnitt 11 000 (3 317 bevarade mellan alla stammar) pseudogener per stam (kompletterande figur 4) som tycks ha uppstått antingen genom retrotransposition (~80 %) eller genom gendubblering (~20 %).

Fig. 1: Annotation av genomet och innehåll av stamspecifika haplotyper.

a, Sammanfattning av de stamspecifika genuppsättningarna som visar antalet gener uppdelat efter GENCODE-biotyp. b, Heterozygot SNP-täthet (hSNP) för ett 50 Mb-intervall på kromosom 11 i 200 kb-fönster för 17 inavlade musstammar baserat på sekvenseringsläsningar som anpassats till referensgenomet C57BL/6J (GRCm38) (överst). Etiketter anger gener som överlappar de mest täta regionerna. SNPs visualiserade i CAST/EiJ och WSB/EiJ för 71,006-71,170 Mb på GRCm38 (nederst), inklusive Derl2 och Mis12 (övre panel) och Nlrp1b (nedre panel). Grått indikerar att stammens bas överensstämmer med referensen, andra färger indikerar SNP-skillnader och höjden motsvarar sekvenseringsdjupet. c, Total mängd sekvenser och proteinkodande gener i regioner som är berikade för hSNPs (i förhållande till GRCm38-referensgenomet) per stam. d, Översta PantherDB-kategorierna av kodande gener i regioner som är berikade för hSNPs baserat på proteinklass (vänster). Skärning av gener i kategorin försvar och immunitet för vildavlade och klassiska inavlade stammar (höger). e, Boxplot av sekvensdivergens (%) för LTRs, LINEs och SINEs inom och utanför hSNP-regioner. Sekvensdivergens är relativ till en konsensussekvens för typen av transposabelt element (n = antal upprepningar i GRCm38, *** indikerar P < 0,001 med Welchs t-test med två stickprov. Box plots visar 25:e och 75:e percentilerna samt medianvärdet.

Regioner av musens genom med extrem allelisk variation

Inbredda laboratoriemusstammar kännetecknas av minst 20 generationers inavel och är genetiskt homozygota på nästan alla loci1. Trots detta har tidigare SNP-variationskataloger identifierat heterozygota SNP:er (hSNP:er) av hög kvalitet när läsningar anpassats till C57BL/6J-referensgenomet12. Förekomsten av högre tätheter av hSNPs kan tyda på ändringar i antalet kopior eller nya gener som inte finns i referenssammansättningen och som tvingas att delvis kartlägga ett enskilt locus i referensen12,21. Identifiering av dessa är därför ett kraftfullt verktyg för att hitta fel i sammansättningar av genomer. Vi identifierade mellan 116 439 (C57BL/6NJ) och 1 895 741 (SPRET/EiJ) hSNP av hög kvalitet från MGP-variationskatalogen v521 (kompletterande tabell 9). Genom att fokusera vår analys på de 5 % mest hSNP-täta regionerna (fönster ≥ 71 hSNP per 10 kb glidfönster) identifierades majoriteten av kända polymorfa regioner bland stammarna (kompletterande figur 5) och stod för ~49 % av alla hSNP (kompletterande tabell 9 och kompletterande figur 6a). Efter att ha tillämpat denna avgränsning på alla stamspecifika hSNP-regioner och slagit ihop överlappande eller intilliggande fönster återstod mellan 117 (C57BL/6NJ) och 2 567 (SPRET/EiJ) hSNP-regioner per stam (kompletterande tabell 9), med en genomsnittlig storlek på 18-20 kb (kompletterande figur 6b). Många hSNP-kluster överlappar immunitet (t.ex. MHC, NOD-liknande receptorer och AIM-liknande receptorer), sensoriska (t.ex. lukt- och smakreceptorer), reproduktiva (t.ex. dräktighetsspecifika glykoproteiner och spermieassocierade E-richproteiner) samt neuronala och beteende-relaterade gener (t.ex. klådreceptorer26 och γ-protocadheriner27) (fig. 1b och kompletterande fig. 5). Alla hSNP-regioner för vilda stammar som härstammar från vilda stammar innehöll ett antal baspar av gener och kodande sekvenser (CDS) som var större än någon klassisk inavelsstam (≥503 respektive ≥0,36 megabaser (Mb); kompletterande tabell 9). De regioner som identifierades i C57BL/6J och C57BL/6NJ (117 respektive 141; 145 tillsammans) korsar kända GRCm38-monteringsproblem, inklusive luckor, oplacerade scaffolds eller centromeriska regioner (107/145, 73,8 %). De återstående kandidatregionerna omfattar stora proteinfamiljer (15/145, 10,3 %) och upprepade element (17/145, 11,7 %) (Supplementary Data 2).

Vi undersökte de proteinklasser som finns i hSNP-regionerna genom att identifiera 1 109 PantherDB-matchningar, som tilldelades 26 proteinklasser från en kombinerad uppsättning av alla gener i hSNP-täta regioner (Supplementary Data 3). Försvar och immunitet var den största representerade proteinklassen (155 gener, Supplementary Data 4) och stod för 13,98 % av alla träffar i proteinklassen (Supplementary Table 10). Detta var en femfaldig anrikning jämfört med en uppskattad genomövergripande frekvens (fig. 1d). Framför allt identifierades 89 immunrelaterade gener i klassiska stammar, varav 84 delades med minst en av de vilda stammarna (fig. 1d). SPRET/EiJ bidrog med det största antalet stamspecifika genträffar (22 gener).

Många paraloga genfamiljer fanns representerade bland hSNP-regionerna (kompletterande data 3), inklusive gener med funktionella mänskliga ortologer. Flera framträdande exempel är apolipoprotein L-alleler, vars varianter kan ge resistens mot Trypanosoma brucei, den primära orsaken till mänsklig sömnsjuka28,29; IFI16 (interferongammainducerbart protein 16, en medlem av AIM2-liknande receptorer), en DNA-sensor som krävs för att döda lymfoida CD4 T-celler som abortivt infekterats med humant immunovirus (HIV)30; NAIP (NLR-familjens apoptoshämmande protein) där variation i antalet kopior är kopplad till ökad celldöd vid infektion med Legionella pneumophila31 och sekretoglobiner (Scgb-medlemmar), som kan vara inblandade i tumörbildning och invasion hos både människor och möss32,33. Stora genfamiljer där lite funktionell information är känd identifierades också. Ett kluster av cirka 50 gener, som inkluderar hippocalcin-like 1 (Hpcal1) och dess homologer, identifierades (kromosom 12: 18-25 Mb). Hpcal1 tillhör de neuronala kalciumsensorerna som främst uttrycks i retinala fotoreceptorer, neuroner och neuroendokrina celler34. Denna region är berikad med hSNPs i alla stammar utom C57BL/6J och C57BL/6NJ. Intressant nog finns Cpsf3 (21,29 Mb) i denna region på en ö med hög bevarandegrad i alla stammar och en homozygot C57BL/6NJ-knockout ger undermåliga avkommor35. Ytterligare exempel är en annan region på kromosom 12 (87-88 Mb) som innehåller cirka 20 homologer av eukaryotisk translationsinitieringsfaktor 1A (eIF1a) och på kromosom 14 (41-45 Mb) som innehåller cirka 100 Dlg1-liknande gener. Gener inom alla hSNP-kandidatregioner har identifierats och annoterats (kompletterande figur 5).

Vi undersökte retrotransposoninnehållet i hSNP-täta regioner på GRCm38 jämfört med en uppskattad nollfördelning (en miljon simuleringar) och fann en signifikant anrikning av både LTR:er (empirisk P < 1 × 10-7) och långa interspridda nukleära element (LINE:er) (empirisk P < 1 × 10-7) (kompletterande tabeller 11 och 12). Genretrotransposition har länge varit inblandad i skapandet av genfamiljernas mångfald36, nya alleler som ger positivt utvalda anpassningar37. När de transponeras ackumulerar transposerbara element mutationer med tiden när sekvensen divergerar38,39. För LTR, LINE och korta interspridda nukleära element (SINE) var den genomsnittliga procentuella sekvensdivergensen betydligt lägre (P < 1 × 10-22) inom hSNP-regioner jämfört med resten av genomet (fig. 1e). Den största skillnaden i genomsnittlig sekvensdivergens fanns mellan LTRs inom och utanför hSNP-täta regioner. När vi undersökte endast repetitiva element med mindre än 1 % divergens fann vi att dessa regioner är signifikant berikade för LTRs (empirisk P < 1 × 10-7) och LINEs (empirisk P = 0,047).

De novo-sammansättning av komplexa genfamiljer

Våra data belyste kopianummervariation som tidigare varit okänd i musstamens genomer och avslöjade genexpansioner, sammandragningar och nya alleler (<80 % sekvensidentitet). Till exempel identifierades 23 olika kluster av luktreceptorer, vilket visar på en betydande variation mellan inavelsstammar. Hos mus har fenotypiska skillnader, särskilt när det gäller kost och beteende, kopplats till olika repertoarer för luktreceptorer40,41. I detta syfte har vi karakteriserat CAST/EiJ-receptorrepertoaren för luktreceptorer med hjälp av vår de novo-sammanställning och identifierat 1 249 kandidatgener för luktreceptorer (Supplementary Data 5). I förhållande till referensstammen (C57BL/6J) har CAST/EiJ förlorat 20 luktreceptorer och fått 37 genfamiljemedlemmar: 12 nya och 25 som stöds av publicerade förutsägelser baserade på messenger RNA (mRNA) som härrör från CAST/EiJ:s hela luktslemhinna (fig. 2a och kompletterande tabell 13)42.

Fig. 2: Stamspecifika alleler för luktsinnes- och immunitetsloci.

a, Luktsinnesreceptorgener på kromosom 11 hos CAST/EiJ. Genvinst/förlust och likhet är i förhållande till C57BL/6J. Nya medlemmar är namngivna efter deras mest likartade homologer. b, Genordning över Raet1/H60-lokus i föräldrastammarna från Collaborative Cross (A/J, NOD/ShiLtJ och 129S1/SvImJ har samma haplotyp på detta lokus, representerad av NOD/ShiLtJ). Stammarnas namn i svart/rött anger att Aspergillus fumigatus är resistent/mottaglig. Streckad ruta anger obekräftad genordning. c, Nya proteinkodande alleler i Nlrp1-genfamiljen i vilda stammar och två klassiska inavelsstammar. Färgerna representerar de fylogenetiska relationerna (överst, amino acid neighbor joining tree of NBD domain) och den relativa genordningen mellan stammarna (nederst). d, En regional dot plot av Nlrp1-lokusen i PWK/PhJ jämfört med C57BL/6J GRCm38-referensen (färgkodad på samma sätt som i panel c). Grå block indikerar upprepningar och transposerbara element.

Vi upptäckte nya genmedlemmar vid flera viktiga immunloci som reglerar medfödda och adaptiva svar på infektioner. Till exempel innehåller kromosom 10 (22,1-22,4 Mb) på C57BL/6J Raet1-alleler och mindre histokompatibilitetsantigenmedlemmar av H60. Raet1 och H60 är viktiga ligander för NKG2D, en aktiverande receptor för naturliga mördarceller43. NKG2D-ligander uttrycks på ytan av infekterade44 och metastatiska celler45 och kan delta i autoimmuna svar på allotransplantat46. Från de novo-samlingen identifierades sex olika Raet1/H60 haplotyper bland de åtta CC-grundstammarna; Tre av de identifierade haplotyperna delas av de klassiska inavlade CC-grundarna (A/J, 129S1/SvImJ och NOD/ShiLtJ har samma haplotyp) och tre olika Raet1/H60-haplotyper identifierades i var och en av de vilda inavlade stammarna (CAST/EiJ, PWK/PhJ och WSB/EiJ) (fig. 2b och de kompletterande figurerna 7 och 8). Haplotypen CAST/EiJ kodar endast för en enda Raet1-familjemedlem (Raet1e) och inga H60-alleler, medan den klassiska NOD/ShiLtJ-aplotypen har fyra H60- och tre Raet1-alleler. Det Aspergillus-resistenta locus 4 (Asprl4), ett av flera kvantitativa egenskapsloci (QTL) som förmedlar resistens mot Aspergillus fumigatus-infektion, överlappar detta locus och består av ett 1 Mb (~10 % av QTL) intervall som, jämfört med andra klassiska stammar, innehåller en haplotyp som är unik för NZO/HlLtJ (kompletterande fig. 7). Stamspecifika haplotypsamband med Asprl4 och överlevnad har rapporterats för CAST/EiJ och NZO/HlLtJ, som båda uppvisar resistens mot A. fumigatus-infektion47 och de är också de enda stammarna som har förlorat H60-alleler på detta locus.

Vi undersökte tre immunitetsrelaterade loci på kromosom 11, IRG (GRCm38: 48,85-49,10 Mb), Nlrp1 (71,05-71,30 Mb) och Slfn (82,9-83,3 Mb) på grund av deras polymorfa komplexitet och betydelse för musens överlevnad48,49,50. Locus Nlrp1 (NOD-like receptors, pyrin domain-containing) kodar för inflammasomkomponenter som känner av endogena mikrobiella produkter och metaboliska påfrestningar och därigenom stimulerar medfödda immunsvar51. Hos husmusen är Nlrp1-alleler involverade i att känna av Bacillus anthracis dödliga toxin, vilket leder till inflammasomaktivering och pyroptos hos makrofager52,53. Vi upptäckte sju olika Nlrp1-familjemedlemmar genom att jämföra sex stammar (CAST/EiJ, PWK/PhJ, WSB/EiJ, SPRET/EiJ, NOD/ShiLtJ och C57BL/6J). Varje stam har en unik haplotyp av Nlrp1-medlemmar, vilket belyser den omfattande sekvensdiversiteten vid detta locus mellan inavlade musstammar (fig. 2c). Var och en av de tre M. m. domesticus-stammarna (C67BL/6J, NOD/ShiLtJ och WSB/EiJ) bär på en annan kombination av Nlrp1-familjemedlemmar; Nlrp1d-1f är nya stamspecifika alleler som tidigare var okända. Diversiteten mellan olika Nlrp1-alleler är högre än sekvensdiversiteten mellan mus- och råttalleler. C57BL/6J innehåller till exempel Nlrp1c, som inte finns i de andra två stammarna, medan Nlrp1b2 finns i både NOD/ShiLtJ och WSB/EiJ men inte i C57BL/6J. I PWK/PhJ (M. m. musculus) är Nlrp1-lokuset nästan dubbelt så stort i förhållande till GRCm38-referensgenomet och innehåller nya Nlrp1-homologer (fig. 2c), medan detta lokus i M. spretus (som också härstammar från vilda djur) är mycket kortare än i någon annan musstam. Ungefär 90 % av de intergeniska regionerna i PWK/PhJ-monteringen av Nlrp1-lokuset består av transposerbara element (fig. 2d).

De vilda härledda PWK/PhJ (M. m. musculus) och CAST/EiJ (M. m. castaneus) har mycket likartade haplotyper, men PWK/PhJ-makrofager är resistenta mot pyroptotisk celldöd inducerad av mjältbrands dödligt toxin medan CAST/EiJ-makrofager inte är det54. Det har föreslagits att Nlrp1c kan vara den orsakande familjemedlem som förmedlar resistens; Nlrp1c kan amplifieras från cDNA från PWK/PhJ-makrofager men inte CAST/EiJ54. I de novo-sammansättningarna delar båda musstammarna samma promotorregion för Nlrp1c, men när det transkriberades kunde cDNA från Nlrp1c_CAST inte amplifieras med tidigare utformade primers54 på grund av SNPs vid primerbindningsstället (5′…CACT-3′ → 5′…TACC-3′). Primerbindningsstället i PWK/PhJ är detsamma som i C57BL/6J, men Nlrp1c är en förutspådd pseudogen. Vi fann en 18 aminosyramatch i den nukleotidbindande domänen (NBD) mellan Nlrp1b_CAST och Nlrp1b_PWK. Dessa avvikande profiler tyder på att Nlrp1c inte är den enda förmedlaren av resistens mot mjältbrandstoxin hos musen, utan att flera andra medlemmar kan vara inblandade. De nyligen annoterade medlemmarna Nlrp1b2 och Nlrp1d verkar funktionellt intakta i CAST/EiJ men förutsades båda som pseudogener i PWK/PhJ på grund av förekomsten av stoppkodoner eller ramförskjutningsmutationer. I C57BL/6J har tre isoformer av Nlrp1b (SV1, SV2 och SV3) rapporterats54. En dot-plot mellan PWK/PhJ och C57BL/6J-referensen illustrerar störningen av samlinjäritet vid PWK/PhJ Nlrp1b2- och Nlrp1d-allelerna (fig. 2d). Alla vilda stammar som vi sekvenserade innehåller Nlrp1d i full längd och uppvisar en liknande störning av samlinjäritet vid dessa alleler jämfört med C57BL/6J (kompletterande data 6). SV1-isoformen i C57BL/6J härstammar från förkortade förfäders paraloger av Nlrp1b och Nlrp1d, vilket tyder på att Nlrp1d försvann i C57BL/6J-linjen. Genomstrukturen för Nlrp1-lokuset i PWK/PhJ, CAST/EiJ, WSB/EiJ och NOD/ShiLtJ bekräftades med hjälp av Fiber-FISH (kompletterande figur 9).

Sammansättningarna visade också en omfattande diversitet vid vart och ett av de andra undersökta loci: immunitetsrelaterade GTPaser (IRGs) och Schlafen-familjen (Slfn). IRG-proteiner tillhör en underfamilj av interferoninducerbara GTPaser som finns hos de flesta ryggradsdjur55. Hos musen bidrar medlemmarna i IRG-proteinfamiljen till det adaptiva immunsystemet genom att ge resistens mot intracellulära patogener som Chlamydia trachomatis, Trypanosoma cruzi och Toxoplasma gondii56. Vår de novo-sammansättning stämmer överens med tidigare publicerade data för CAST/EiJ48. För första gången visar den ordningen, orienteringen och strukturen hos tre mycket divergerande haplotyper som finns i WSB/EiJ, PWK/PhJ och SPRET/EiJ, inklusive ny annotering av omarrangerade promotorer, insatta bearbetade pseudogener och en hög frekvens av LINE-repetitioner (Supplementary Data 6).

Genfamiljen Schlafen (kromosom 11: 82,9-83,3 Mb) rapporteras vara involverad i immunsvar, celldifferentiering, proliferation och tillväxt, cancerinvasion och kemoterapiresistens. Hos människor har SLFN11 rapporterats hämma hiv-proteinsyntesen genom en kodonanvändningsbaserad mekanism57 och hos icke-mänskliga primater har positivt urval på genen Slfn11 rapporterats58. Hos mus kan embryodöd inträffa mellan stammar som bär på inkompatibla Slfn haplotyper59. Samlingen av Slfn för de tre CC-grundstammarna av vilt ursprung (CAST/EiJ, PWK/PhJ och WSB/EiJ) visade för första gången en omfattande variation på detta locus. Medlemmar av grupp 4 Slfn-gener50, Slfn8, Slfn9 och Slfn10, uppvisar en betydande sekvensdiversitet bland dessa stammar. Sfln8 är till exempel en förutspådd pseudogen i PWK/PhJ men är proteinkodande i de andra stammarna; CAST/EiJ-allelen innehåller 78 aminosyramatchningar jämfört med C57BL/6J-referensen (kompletterande figur 10). Både CAST/EiJ och PWK/PhJ innehåller funktionella kopior av Sfln10, som är en förutspådd pseudogen i C57BL/6J och WSB/EiJ. Ett nytt startkodon uppströms Slfn4, som orsakar en N-terminal förlängning med 25 aminosyror, identifierades i PWK/PhJ och WSB/EiJ. En annan medlem som finns i referensen, Slfn14, är konserverad i PWK/PhJ och CAST/EiJ men är en pseudogen i WSB/EiJ (kompletterande figur 10).

Referensgenomuppdateringar som informeras av stammesammansättningarna

Det finns för närvarande 11 gener i GRCm38-referenssammansättningen (C57BL/6J) som är ofullständiga på grund av en lucka i sekvensen. Först jämfördes dessa loci med respektive regioner i C57BL/6NJ-sammansättningen och användes för att identifiera contigs från offentliga sammansättningar av referensstammen som tidigare utelämnats på grund av otillräcklig överlappning. För det andra extraherades C57BL/6J-avläsningar som anpassades till de intressanta regionerna i C57BL/6NJ-sammansättningen för riktad sammansättning, vilket ledde till att kontigs som täcker sekvenser som för närvarande saknas i referensstammen genererades. Båda tillvägagångssätten resulterade i att tio nya genstrukturer färdigställdes (t.ex. kompletterande figur 11 och kompletterande data 7) och att den Sts-gen som tidigare saknades nästan helt inkluderades.

Förbättringar av referensgenomet, tillsammans med prediktioner av gener för alla stammar, användes för att tillhandahålla uppdateringar av den befintliga annotationen av referensgenomet, som upprätthålls av GENCODE-konsortiet60. Vi undersökte de stamspecifika RNA-Seq-genprediktionerna (Comparative Augustus) som innehåller 75 % nya introner jämfört med den befintliga referensannotationen (tabell 1) (GENCODE M8, kromosomer 1-12). Av de 785 undersökta förutsägelserna ledde 62 till annotering av nya loci, inklusive 19 proteinkodande gener och 6 pseudogener (kompletterande tabell 14 och kompletterande data 8). I de flesta fall där en ny locus förutspåddes på referensgenomet identifierade vi redan existerande, men ofta ofullständig, annotering. Till exempel förlängdes Nmur1-genen i 5′-änden och gjordes fullständig på grundval av bevis som stödde en förutsägelse som splicade till en exon uppströms som innehöll det tidigare saknade startkodonet. Mroh3-genen, som ursprungligen annoterades som en obearbetad pseudogen, uppdaterades till en proteinkodande gen på grund av identifieringen av ett nytt intron som gjorde det möjligt att förlänga CDS till full längd. Den tidigare annoterade pseudogenmodellen har behållits som en nonsense-medierad nedbrytning (NMD) av det proteinkodande lokusets transkript. Vid det nya bicistroniska locus, Chml_Opn3, var den ursprungliga annoteringen en gen med ett enda exon, Chml, som förlängdes och visade sig dela sitt första exon med Opn3-genen.

Tabell 1 Genome Reference Consortium (GRCm38) och GENCODE annoteringsuppdateringar som informeras av stamsamlingar

Vi upptäckte en ny gen med 188 exoner på kromosom 11 som avsevärt förlänger den befintliga genen Efcab3 som sträcker sig mellan Itgb3 och Mettl2 (fig. 3a). Denna Efcab3-liknande gen kurerades manuellt, validerades enligt HAVANA-riktlinjerna61 och identifierades i GENCODE-utgåvorna M11 och framåt som Gm11639. Efcab3/Efcab13 kodar för kalciumbindande proteiner och den nya genen består huvudsakligen av upprepade EF-hand-proteindomäner (kompletterande figur 12). Analys av syntes och genomstruktur visade att Efcab3-lokuset i stort sett är bevarat hos andra däggdjur, inklusive de flesta primater. Jämförande genprediktion identifierade den fullständiga versionen i orangutang, rhesusmakak, bushbaby och ekorreapa. Lokus innehåller dock en brytpunkt vid schimpansens, gorillans och människans (Homininae) gemensamma förfader på grund av en ~15 Mb intrakromosomal omläggning som också raderade många av de interna EF-hand-domänrepetitionerna (fig. 3b och kompletterande fig. 13). Analys av GTEx-data (Genotype-Tissue Expression)62 hos människor visade att EFCAB13-lokuset uttrycks i många vävnadstyper, med det högsta uttrycket uppmätt i testiklar och sköldkörtel. Däremot har lokus EFCAB3 endast ett mätbart uttryck på låg nivå i testiklarna. Detta stämmer överens med att promotorn för den fullständiga genen finns uppströms från EFCAB13-versionen, vilket stöds av H3K4me3-analysen (kompletterande figur 14). Hos möss uttrycks genen Efcab3 specifikt under utvecklingen i många vävnader med högt uttryck i de övre skikten av den kortikala plattan (se URL:er) och är belägen i omedelbar närhet av den genomiska 17q21.31-syntetiska regionen som är kopplad till strukturella förändringar i hjärnan hos både möss och människor63. Vi använde CRISPR (clustered regularly interspaced short palindromic repeats) för att skapa Efcab3-liknande muterade möss (Efcab3em1(IMPC)Wtsi, se Metoder) och registrerade 188 primära fenotypmått (Supplementary Data 9). Vi mätte också 40 hjärnparametrar i 22 olika hjärnstrukturer som en del av en neuroanatomisk screening med hög genomströmning (kompletterande tabeller 15 och 16, se metoder). Framför allt identifierades anomalier i hjärnans storlek hos Efcab3-liknande muterade möss jämfört med matchade vildtypkontroller (fig. 3c). Intressant nog var den laterala ventrikeln en av de mest allvarligt påverkade hjärnstrukturerna med en förstoring på 65 % (P = 0,007). Pontinkärnorna ökade också i storlek med 42 % (P = 0,001) och lillhjärnan med 27 % (P = 0,02); dessa två regioner är involverade i motorisk aktivitet (fig. 3d och kompletterande fig. 15). Thalamus var också större med 19 % (P = 0,007). Som ett resultat av detta förstorades den totala parametern för hjärnans area med 7 % (P = 0,006). Sammantaget tyder dessa resultat på en potentiell roll för den Efcab3-liknande genen när det gäller att reglera hjärnans utveckling och hjärnans storlek från framhjärnan till bakhjärnan.

Fig. 3: Efcab3-liknande lokus, utvecklingshistoria och knockout-fenotypering.

a, Comparative Augustus identifierade en oannoterad gen med 188 exon (Efcab3-like, röda spår). RNA-Seq-splicing från två vävnader (B = hjärna, L = lever, blå spår) och fem stammar visas. Manuell annotering utökade denna gen till 188 exoner (nedre röda spåret). b, Efcab3-liknande genens utvecklingshistoria hos ryggradsdjur inklusive genomstruktur och omgivande gener. Varje genens mRNA-struktur visas med vita linjer på de blå blocken. Ny kodningssekvens som upptäckts i den här studien visas med gult. Efcab13 och Efcab3 är fragment av den nya genen Efcab3-like. En rekombinationshändelse inträffade i den gemensamma förfadern till underfamiljen Homininae, vilket störde Efcab3-like i gorilla (G. gorilla) och människa (H. sapiens). c, Schematisk representation av 22 hjärnregioner plottat i sagittalplanet för Efcab3-like muterade hanmöss (16 veckors ålder, n = 3) i enlighet med P-värdena (tvåsidigt t-test med lika varians, till vänster). Motsvarande hjärnregioner är märkta med ett nummer som beskrivs under panelen (kompletterande tabell 15). Vit färg indikerar ett P-värde > 0,05 och grått indikerar att hjärnregionen inte kunde testas med säkerhet på grund av saknade data. Histogram som visar de neuroanatomiska egenskaperna som procentuell ökning eller minskning av de bedömda hjärnregionerna hos Efcab3-liknande muterade möss jämfört med matchade kontroller (höger). d, Representativa sagittala hjärnavbildningar av matchade kontroller (vänster) och Efcab3-liknande muterade möss (höger), som visar ett större lillhjärnskott, en förstorad lateral ventrikel och en ökad storlek på pontinkärnorna (n = 3, se kompletterande figur 15).

.

Lämna ett svar

Din e-postadress kommer inte publiceras.