Sequenzassemblierungen und Genomannotation
Chromosomale Assemblierungen wurden für 16 Labormausstämme unter Verwendung einer Mischung aus Illumina Paired-End (40-70×) erstellt, Mate-Pairs (3, 6, 10 Kilobasen (kb)), Fosmid- und BAC-Endsequenzen (ergänzende Tabelle 1) und Dovetail Genomics Chicago-Bibliotheken19. Pseudochromosomen wurden parallel hergestellt, wobei artenübergreifende Syntenie-Alignments verwendet wurden, die zu Genomassemblierungen zwischen 2,254 (WSB/EiJ) und 2,328 Gigabasen (Gb) (AKR/J) führten, unbekannte Lückenbasen nicht mitgerechnet. Ungefähr 0,5-2 % der Gesamtlänge des Genoms pro Stamm waren unplatziert und setzten sich aus unbekannten Lückenbasen (18-49 %) und Wiederholungssequenzen (61-79 %) zusammen (ergänzende Tabelle 2), mit zwischen 89 und 410 vorhergesagten Genen pro Stamm (ergänzende Tabelle 3). Die Zusammenstellungen des mitochondrialen Genoms (mtDNA) für 14 Stämme unterstützten zuvor veröffentlichte Sequenzen20, obwohl eine kleine Anzahl von qualitativ hochwertigen neuen Sequenzvarianten in AKR/J, BALB/cJ, C3H/HeJ und LP/J mit GenBank-Einträgen in Konflikt standen (ergänzende Tabelle 4). Neue mtDNA-Haplotypen wurden in PWK/PhJ und NZO/HlLtJ identifiziert. Insbesondere NZO/HlLtJ enthielt 55 SNPs (33 davon gemeinsam mit den Wildstämmen) und scheint sich von den anderen klassischen Inzuchtstämmen zu unterscheiden (ergänzende Abb. 1). Frühere Variationskataloge wiesen auf eine hohe Konkordanz (>97% gemeinsame SNPs) zwischen NZO/HlLtJ und einem anderen Inzucht-Laborstamm NZB/BlNJ21 hin.
Wir bewerteten die Basengenauigkeit der Stamm-Chromosomen im Vergleich zu zwei Versionen des C57BL/6J-Referenzgenoms (MGSCv311 und GRCm382), indem wir zunächst alle Paired-End-Sequenzierungs-Reads der einzelnen Stämme zurück zu ihren jeweiligen Genom-Zusammenstellungen ausrichteten und dann diese Ausrichtungen zur Identifizierung von SNPs und Indels verwendeten. Die kombinierte SNP- und Indel-Fehlerrate betrug 0,09-0,1 Fehler pro kb, verglichen mit 0,334 für MGSCv3 und 0,02 für GRCm38 (ergänzende Tabelle 5). Als Nächstes verwendeten wir einen Satz von 612 Primerpaaren für die Polymerase-Kettenreaktion (PCR), die zuvor zur Validierung von Strukturvarianten in acht Stämmen verwendet wurden22. Die Zusammenstellungen wiesen 4,7-6,7 % Primerpaare auf, die fehlerhafte Alignments zeigten, verglichen mit 10 % für MGSCv3 (ergänzende Tabelle 6). Schließlich zeigte das Alignment von PacBio long-read komplementären DNA-Sequenzen aus Leber und Milz von C57BL/6J, CAST/EiJ, PWK/PhJ und SPRET/EiJ, dass das GRCm38-Referenzgenom den höchsten Anteil an korrekt alignierten cDNA-Reads aufwies (99 % bzw. 98 %), während die Stämme und MGSCv3 um 1-2 % darunter lagen (ergänzende Tabelle 7). Die Darstellung der bekannten Maus-Repeat-Familien in den Assemblies zeigt, dass der Gehalt an kurzen Repeats (<200 Basenpaare (bp)) mit GRCm38 vergleichbar war (ergänzende Abb. 2a,b). Die Gesamtzahl der langen Wiederholungen (>200 bp) ist bei allen Stämmen gleich; die Gesamtsequenzlängen sind jedoch durchweg kürzer als bei GRCm38 (ergänzende Abb. 2c).
Stamm-spezifische Konsensgen-Sets wurden mit Hilfe der GENCODE C57BL/6J Annotation und stamm-spezifischer RNA-Sequenzierung (RNA-Seq) aus mehreren Geweben23 erstellt (ergänzende Tabelle 8 und ergänzende Abb. 3). Die Konsensus-Gensätze enthalten über 20.000 proteinkodierende Gene und über 18.000 nicht-kodierende Gene (Abb. 1a und ergänzende Tabelle 1). Für die klassischen Laborstämme wurden 90,2 % der kodierenden Transkripte (88,0 % bei Wildstämmen) und 91,2 % der nicht kodierenden Transkripte (91,4 % bei Wildstämmen) im GRCm38-Referenzgensatz vergleichend annotiert. Genvorhersagen aus stammspezifischer RNA-Seq (Comparative Augustus24) fügten im Durchschnitt 1.400 neue Isoformen zu den Wildstämmen und 1.207 neue Isoformen zu den klassischen Genannotationssätzen der Stämme hinzu. Durch Genvorhersage auf der Grundlage von PacBio cDNA-Sequenzierung wurden durchschnittlich 1 865 weitere neue Isoformen in CAST/EiJ, PWK/PhJ und SPRET/EiJ hinzugefügt. Mutmaßliche neue Loci sind definiert als gespleißte Gene, die aus stammspezifischer RNA-Seq vorhergesagt wurden und sich nicht mit den aus dem Referenzgenom projizierten Genen überschnitten. Im Durchschnitt waren 37 Gene in Wildstämmen und 22 in klassischen Stämmen mutmaßlich neuartige Loci (ergänzende Daten 1). In den meisten Fällen scheinen diese auf Genduplikationen zurückzuführen zu sein. Zusätzlich identifizierte ein automatisierter Pseudogen-Annotations-Workflow, Pseudopipe25, neben manuell kuratierten Pseudogenen, die aus dem GRCm38-Referenzgenom übernommen wurden, durchschnittlich 11.000 (3.317 zwischen allen Stämmen konservierte) Pseudogene pro Stamm (ergänzende Abb. 4), die entweder durch Retrotransposition (~80 %) oder Genduplikation (~20 %) entstanden zu sein scheinen.
Regionen des Mausgenoms mit extremer allelischer Variation
Ingezüchtete Labormausstämme sind durch mindestens 20 Generationen Inzucht gekennzeichnet und sind an fast allen Loci genetisch homozygot1. Trotzdem wurden in früheren SNP-Variationskatalogen hochwertige heterozygote SNPs (hSNPs) identifiziert, wenn Reads an das C57BL/6J-Referenzgenom angeglichen wurden12. Das Vorhandensein einer höheren Dichte von hSNPs kann auf Änderungen der Kopienzahl oder auf neue Gene hinweisen, die in der Referenzanordnung nicht vorhanden sind und gezwungen sind, teilweise auf einen einzelnen Locus in der Referenzanordnung zu kartieren12,21. Ihre Identifizierung ist daher ein leistungsfähiges Instrument zum Auffinden von Fehlern in Genomassemblierungen. Wir identifizierten zwischen 116.439 (C57BL/6NJ) und 1.895.741 (SPRET/EiJ) hochwertige hSNPs aus dem MGP-Variationskatalog v521 (ergänzende Tabelle 9). Die Fokussierung unserer Analyse auf die obersten 5% der hSNP-dichten Regionen (Fenster ≥ 71 hSNPs pro 10 kb gleitendes Fenster) identifizierte die Mehrheit der bekannten polymorphen Regionen unter den Stämmen (ergänzende Abb. 5) und machte ~49% aller hSNPs aus (ergänzende Tabelle 9 und ergänzende Abb. 6a). Nach Anwendung dieses Cut-Offs auf alle stammspezifischen hSNP-Regionen und der Zusammenführung überlappender oder benachbarter Fenster blieben pro Stamm zwischen 117 (C57BL/6NJ) und 2.567 (SPRET/EiJ) hSNP-Regionen übrig (ergänzende Tabelle 9), mit einer durchschnittlichen Größe von 18-20 kb (ergänzende Abb. 6b). Viele hSNP-Cluster überschneiden sich mit Immunitäts- (z. B. MHC, NOD-ähnliche Rezeptoren und AIM-ähnliche Rezeptoren), sensorischen (z. B. Geruchs- und Geschmacksrezeptoren), reproduktiven (z. B. trächtigkeitsspezifische Glykoproteine und spermienassoziierte E-rich-Proteine) sowie neuronalen und verhaltensbezogenen Genen (z. B. Juckrezeptoren26 und γ-Protocadherine27) (Abb. 1b und ergänzende Abb. 5). Alle hSNP-Regionen der Wildstämme enthielten Gene und kodierende Sequenzen (CDS) mit mehr Basenpaaren als alle klassischen Inzuchtstämme (≥503 bzw. ≥0,36 Megabasen (Mb); ergänzende Tabelle 9). Die in C57BL/6J und C57BL/6NJ identifizierten Regionen (117 bzw. 141; 145 zusammen) überschneiden bekannte GRCm38-Zusammensetzungsprobleme, einschließlich Lücken, unplatzierte Gerüste oder zentromerische Regionen (107/145, 73,8%). Zu den verbleibenden Kandidatenregionen gehören große Proteinfamilien (15/145, 10,3 %) und sich wiederholende Elemente (17/145, 11,7 %) (ergänzende Daten 2).
Wir untersuchten die in den hSNP-Regionen vorhandenen Proteinklassen, indem wir 1.109 PantherDB-Matches identifizierten, die 26 Proteinklassen aus einem kombinierten Satz aller Gene in dichten hSNP-Regionen zugeordnet wurden (ergänzende Daten 3). Verteidigung und Immunität war die am stärksten vertretene Proteinklasse (155 Gene, ergänzende Daten 4), die 13,98 % aller Proteinklassentreffer ausmachte (ergänzende Tabelle 10). Dies war eine fünffache Anreicherung im Vergleich zu einer geschätzten genomweiten Rate (Abb. 1d). Bemerkenswert ist, dass in den klassischen Stämmen 89 immunbezogene Gene identifiziert wurden, von denen 84 mit mindestens einem der Wildstämme übereinstimmten (Abb. 1d). SPRET/EiJ lieferte die meisten stammspezifischen Gentreffer (22 Gene).
Viele paraloge Genfamilien waren in den hSNP-Regionen vertreten (Supplementary Data 3), darunter Gene mit funktionellen menschlichen Orthologen. Einige prominente Beispiele sind Apolipoprotein L-Allele, deren Varianten Resistenz gegen Trypanosoma brucei, die Hauptursache der menschlichen Schlafkrankheit, verleihen können28,29; IFI16 (Interferon gamma induzierbares Protein 16, ein Mitglied der AIM2-ähnlichen Rezeptoren), ein DNA-Sensor, der für den Tod von lymphoiden CD4-T-Zellen erforderlich ist, die abortiv mit dem humanen Immunovirus (HIV) infiziert sind30; NAIP (Apoptoseinhibitorprotein der NLR-Familie), bei dem eine funktionelle Veränderung der Kopienzahl mit einem verstärkten Zelltod bei einer Infektion mit Legionella pneumophila in Verbindung gebracht wird31; und Sekretoglobine (Scgb-Mitglieder), die sowohl beim Menschen als auch bei der Maus an der Tumorbildung und -invasion beteiligt sein können32,33. Es wurden auch große Genfamilien identifiziert, über die nur wenige funktionelle Informationen bekannt sind. Eine Gruppe von etwa 50 Genen, zu der auch Hippocalcin-ähnliches 1 (Hpcal1) und seine Homologe gehören, wurde identifiziert (Chromosom 12: 18-25 Mb). Hpcal1 gehört zu den neuronalen Kalzium-Sensoren, die vor allem in retinalen Photorezeptoren, Neuronen und neuroendokrinen Zellen vorkommen34. Diese Region ist bei allen Stämmen außer C57BL/6J und C57BL/6NJ mit hSNPs angereichert. Interessanterweise befindet sich Cpsf3 (21,29 Mb) in dieser Region auf einer Insel mit hoher Erhaltung in allen Stämmen, und ein homozygoter C57BL/6NJ-Knockout erzeugt lebensunfähige Nachkommen35. Weitere Beispiele sind eine andere Region auf Chromosom 12 (87-88 Mb) mit etwa 20 Homologen des eukaryotischen Translationsinitiationsfaktors 1A (eIF1a) und auf Chromosom 14 (41-45 Mb) mit etwa 100 Dlg1-ähnlichen Genen. Gene innerhalb aller hSNP-Kandidatenregionen wurden identifiziert und annotiert (ergänzende Abb. 5).
Wir untersuchten den Retrotransposon-Gehalt in dichten hSNP-Regionen auf GRCm38 im Vergleich zu einer geschätzten Nullverteilung (eine Million Simulationen) und fanden eine signifikante Anreicherung sowohl von LTRs (empirischer P < 1 × 10-7) als auch von langen durchsetzten Kernelementen (LINEs) (empirischer P < 1 × 10-7) (ergänzende Tabellen 11 und 12). Die Retrotransposition von Genen wird seit langem mit der Entstehung von Genfamilienvielfalt36 und neuartigen Allelen in Verbindung gebracht, die zu positiv selektierten Anpassungen führen37. Einmal transponiert, akkumulieren transponierbare Elemente im Laufe der Zeit Mutationen, wenn die Sequenz divergiert38,39. Bei LTRs, LINEs und kurz gestreuten nuklearen Elementen (SINEs) war die mittlere prozentuale Sequenzdivergenz innerhalb der hSNP-Regionen im Vergleich zum Rest des Genoms deutlich geringer (P < 1 × 10-22) (Abb. 1e). Der größte Unterschied in der mittleren Sequenzdivergenz bestand zwischen LTRs innerhalb und außerhalb der dichten hSNP-Regionen. Wir untersuchten nur Wiederholungselemente mit weniger als 1 % Divergenz und stellten fest, dass diese Regionen signifikant mit LTRs (empirischer P < 1 × 10-7) und LINEs (empirischer P = 0,047) angereichert sind.
De-novo-Assemblierung komplexer Genfamilien
Unsere Daten klärten bisher unbekannte Kopienzahlvariationen in Mausstammgenomen auf und enthüllten Genexpansionen, Kontraktionen und neue Allele (<80 % Sequenzidentität). So wurden beispielsweise 23 verschiedene Cluster von Geruchsrezeptoren identifiziert, was auf eine erhebliche Variation zwischen den Inzuchtstämmen hinweist. Bei Mäusen wurden phänotypische Unterschiede, insbesondere in Bezug auf Ernährung und Verhalten, mit unterschiedlichen Geruchsrezeptorenrepertoires in Verbindung gebracht40,41. Zu diesem Zweck haben wir das Geruchsrezeptor-Repertoire von CAST/EiJ mit Hilfe unserer de novo-Zusammenstellung charakterisiert und 1.249 Kandidaten-Gene für Geruchsrezeptoren identifiziert (Ergänzende Daten 5). Im Vergleich zum Referenzstamm (C57BL/6J) hat CAST/EiJ 20 Geruchsrezeptoren verloren und 37 Genfamilienmitglieder hinzugewonnen: 12 neue und 25, die durch veröffentlichte Vorhersagen auf der Grundlage von Boten-RNA (mRNA) aus der gesamten Riechschleimhaut von CAST/EiJ unterstützt werden (Abb. 2a und ergänzende Tabelle 13)42.
Wir entdeckten neue Genmitglieder an mehreren wichtigen Immunloci, die angeborene und adaptive Reaktionen auf Infektionen regulieren. Zum Beispiel enthält Chromosom 10 (22,1-22,4 Mb) auf C57BL/6J Raet1-Allele und Mitglieder des H60-Minor-Histokompatibilitätsantigens. Raet1 und H60 sind wichtige Liganden für NKG2D, einen aktivierenden Rezeptor der natürlichen Killerzellen43. NKG2D-Liganden werden auf der Oberfläche von infizierten44 und metastasierenden Zellen45 exprimiert und können an Autoimmunreaktionen auf Allotransplantate beteiligt sein46. Bei der de novo-Assemblierung wurden unter den acht CC-Gründerstämmen sechs verschiedene Raet1/H60-Haplotypen identifiziert; Drei der identifizierten Haplotypen werden von den klassischen Inzucht-CC-Gründern geteilt (A/J, 129S1/SvImJ und NOD/ShiLtJ haben denselben Haplotyp), und drei verschiedene Raet1/H60-Haplotypen wurden in jedem der wildgezüchteten Inzuchtstämme (CAST/EiJ, PWK/PhJ und WSB/EiJ) identifiziert (Abb. 2b und ergänzende Abbildungen 7 und 8). Der CAST/EiJ-Haplotyp kodiert nur ein einziges Mitglied der Raet1-Familie (Raet1e) und keine H60-Allele, während der klassische NOD/ShiLtJ-Haplotyp vier H60- und drei Raet1-Allele aufweist. Der Aspergillus-resistente Locus 4 (Asprl4), einer von mehreren quantitativen Trait-Loci (QTLs), die die Resistenz gegen Aspergillus fumigatus-Infektionen vermitteln, überlappt diesen Locus und umfasst ein 1 Mb (~10 % des QTL) großes Intervall, das im Vergleich zu anderen klassischen Stämmen einen Haplotyp enthält, der nur bei NZO/HlLtJ vorkommt (ergänzende Abb. 7). Stamm-spezifische Haplotyp-Assoziationen mit Asprl4 und Überleben wurden für CAST/EiJ und NZO/HlLtJ berichtet, die beide eine Resistenz gegen A. fumigatus-Infektionen aufweisen47, und sie sind auch die einzigen Stämme, die H60-Allele an diesem Locus verloren haben.
Wir untersuchten drei immunitätsbezogene Loci auf Chromosom 11, IRG (GRCm38: 48,85-49,10 Mb), Nlrp1 (71,05-71,30 Mb) und Slfn (82,9-83,3 Mb) wegen ihrer polymorphen Komplexität und Bedeutung für das Überleben der Maus48,49,50. Der Nlrp1-Locus (NOD-like receptors, pyrin domain-containing) kodiert für Inflammasom-Komponenten, die endogene mikrobielle Produkte und metabolische Belastungen erkennen und dadurch angeborene Immunreaktionen stimulieren51. Bei der Hausmaus sind Nlrp1-Allele an der Erkennung des tödlichen Toxins von Bacillus anthracis beteiligt, was zur Aktivierung des Inflammasoms und zur Pyroptose von Makrophagen führt52,53. Durch den Vergleich von sechs Stämmen (CAST/EiJ, PWK/PhJ, WSB/EiJ, SPRET/EiJ, NOD/ShiLtJ und C57BL/6J) entdeckten wir sieben verschiedene Nlrp1-Familienmitglieder. Jeder Stamm weist einen einzigartigen Haplotyp von Nlrp1-Mitgliedern auf, was die große Sequenzvielfalt an diesem Locus zwischen den Inzuchtmausstämmen verdeutlicht (Abb. 2c). Jeder der drei M. m. domesticus-Stämme (C67BL/6J, NOD/ShiLtJ und WSB/EiJ) trägt eine andere Kombination von Mitgliedern der Nlrp1-Familie; Nlrp1d-1f sind neue stammspezifische Allele, die bisher unbekannt waren. Die Diversität zwischen den verschiedenen Nlrp1-Allelen ist größer als die Sequenzdivergenz zwischen Maus- und Rattenallelen. So enthält beispielsweise C57BL/6J Nlrp1c, das in den beiden anderen Stämmen nicht vorkommt, während Nlrp1b2 sowohl in NOD/ShiLtJ als auch in WSB/EiJ, nicht aber in C57BL/6J vorkommt. In PWK/PhJ (M. m. musculus) ist der Nlrp1-Locus im Vergleich zum GRCm38-Referenzgenom fast doppelt so groß und enthält neuartige Nlrp1-Homologe (Abb. 2c), während dieser Locus in M. spretus (ebenfalls ein Wildstamm) viel kürzer ist als in jedem anderen Mausstamm. Ungefähr 90 % der intergenen Regionen in der PWK/PhJ-Assembly des Nlrp1-Locus bestehen aus transponierbaren Elementen (Abb. 2d).
Die Wildstämme PWK/PhJ (M. m. musculus) und CAST/EiJ (M. m. castaneus)-Stämme haben sehr ähnliche Haplotypen; PWK/PhJ-Makrophagen sind jedoch resistent gegen den pyroptotischen Zelltod, der durch das tödliche Anthrax-Toxin ausgelöst wird, während CAST/EiJ-Makrophagen dies nicht sind54. Es wurde vermutet, dass Nlrp1c das ursächliche Familienmitglied sein könnte, das die Resistenz vermittelt; Nlrp1c kann aus cDNA von PWK/PhJ-Makrophagen amplifiziert werden, nicht aber von CAST/EiJ54. In den de novo-Zusammenstellungen teilen beide Mäusestämme dieselbe Promotorregion für Nlrp1c; allerdings konnte die cDNA von Nlrp1c_CAST bei der Transkription mit zuvor entworfenen Primern54 aufgrund von SNPs an der Primerbindungsstelle (5′…CACT-3′ → 5′…TACC-3′) nicht amplifiziert werden. Die Primerbindungsstelle in PWK/PhJ ist die gleiche wie in C57BL/6J, jedoch ist Nlrp1c ein vorhergesagtes Pseudogen. In der Nukleotidbindungsdomäne (NBD) zwischen Nlrp1b_CAST und Nlrp1b_PWK wurde eine Fehlpaarung von 18 Aminosäuren festgestellt. Diese abweichenden Profile deuten darauf hin, dass Nlrp1c nicht der einzige Vermittler der Resistenz gegen das tödliche Milzbrandtoxin in der Maus ist, sondern dass mehrere andere Mitglieder daran beteiligt sein könnten. Die neu annotierten Mitglieder Nlrp1b2 und Nlrp1d scheinen in CAST/EiJ funktionell intakt zu sein, wurden aber beide in PWK/PhJ aufgrund des Vorhandenseins von Stoppcodons oder Frameshift-Mutationen als Pseudogene vorhergesagt. In C57BL/6J wurden drei Spleißisoformen von Nlrp1b (SV1, SV2 und SV3) beschrieben54. Ein Punktdiagramm zwischen PWK/PhJ und der C57BL/6J-Referenz veranschaulicht die Störung der Ko-Linearität bei den PWK/PhJ-Allelen Nlrp1b2 und Nlrp1d (Abb. 2d). Alle Wildstämme, die wir sequenziert haben, enthalten Nlrp1d in voller Länge und weisen eine ähnliche Störung der Ko-Linearität an diesen Allelen im Vergleich zu C57BL/6J auf (Supplementary Data 6). Die SV1-Isoform in C57BL/6J stammt von verkürzten Paralogen von Nlrp1b und Nlrp1d ab, was darauf hindeutet, dass Nlrp1d in der C57BL/6J-Linie verloren gegangen ist. Die Genomstruktur des Nlrp1-Locus in PWK/PhJ, CAST/EiJ, WSB/EiJ und NOD/ShiLtJ wurde mittels Fiber-FISH bestätigt (ergänzende Abb. 9).
Die Assemblies zeigten auch eine große Diversität an jedem der anderen untersuchten Loci: immunitätsbezogene GTPasen (IRGs) und Schlafen-Familie (Slfn). IRG-Proteine gehören zu einer Unterfamilie von Interferon-induzierbaren GTPasen, die in den meisten Wirbeltieren vorkommen55. In der Maus tragen die Mitglieder der IRG-Proteinfamilie zum adaptiven Immunsystem bei, indem sie Resistenz gegen intrazelluläre Krankheitserreger wie Chlamydia trachomatis, Trypanosoma cruzi und Toxoplasma gondii verleihen56. Unsere de novo-Zusammensetzung stimmt mit bereits veröffentlichten Daten für CAST/EiJ48 überein. Sie zeigt zum ersten Mal die Reihenfolge, Ausrichtung und Struktur von drei stark divergierenden Haplotypen, die in WSB/EiJ, PWK/PhJ und SPRET/EiJ vorkommen, einschließlich neuartiger Annotationen von rearrangierten Promotoren, eingefügten prozessierten Pseudogenen und einer hohen Frequenz von LINE-Wiederholungen (Supplementary Data 6).
Die Schlafen-Gene (Chromosom 11: 82,9-83,3 Mb) sind Berichten zufolge an Immunreaktionen, Zelldifferenzierung, Proliferation und Wachstum, Krebsinvasion und Chemotherapieresistenz beteiligt. Beim Menschen hemmt SLFN11 Berichten zufolge die HIV-Proteinsynthese durch einen auf der Codon-Nutzung basierenden Mechanismus57 , und bei nichtmenschlichen Primaten wurde über eine positive Selektion auf das Gen Slfn11 berichtet58. Bei Mäusen kann der embryonale Tod zwischen Stämmen auftreten, die inkompatible Slfn-Haplotypen tragen59. Die Zusammenstellung des Slfn-Gens für die drei CC-Gründerstämme wilden Ursprungs (CAST/EiJ, PWK/PhJ und WSB/EiJ) zeigte zum ersten Mal eine umfangreiche Variation an diesem Locus. Die Mitglieder der Gruppe 4 der Slfn-Gene50, Slfn8, Slfn9 und Slfn10, weisen bei diesen Stämmen eine erhebliche Sequenzvielfalt auf. Beispielsweise ist Sfln8 in PWK/PhJ ein vorhergesagtes Pseudogen, während es in den anderen Stämmen proteinkodierend ist; das CAST/EiJ-Allel enthält 78 Aminosäurefehlpaarungen im Vergleich zur C57BL/6J-Referenz (ergänzende Abb. 10). Sowohl CAST/EiJ als auch PWK/PhJ enthalten funktionelle Kopien von Sfln10, das in C57BL/6J und WSB/EiJ ein Pseudogen ist. In PWK/PhJ und WSB/EiJ wurde ein neues Startcodon stromaufwärts von Slfn4 identifiziert, das eine N-terminale Verlängerung um 25 Aminosäuren bewirkt. Ein weiteres in der Referenz vorhandenes Mitglied, Slfn14, ist in PWK/PhJ und CAST/EiJ konserviert, ist aber ein Pseudogen in WSB/EiJ (ergänzende Abb. 10).
Referenzgenom-Updates auf der Grundlage der Stammassemblies
Es gibt derzeit 11 Gene in der GRCm38-Referenzassembly (C57BL/6J), die aufgrund einer Lücke in der Sequenz unvollständig sind. Zunächst wurden diese Loci mit den entsprechenden Regionen in der C57BL/6NJ-Assembly verglichen und zur Identifizierung von Contigs aus öffentlichen Assemblies des Referenzstamms verwendet, die zuvor aufgrund unzureichender Überlappung ausgelassen wurden. Zweitens wurden C57BL/6J-Reads, die auf die interessierenden Regionen in der C57BL/6NJ-Assemblierung ausgerichtet waren, für die gezielte Assemblierung extrahiert, was zur Erzeugung von Contigs führte, die Sequenzen abdeckten, die derzeit in der Referenz fehlen. Beide Ansätze führten zur Vervollständigung von zehn neuen Genstrukturen (z. B. ergänzende Abb. 11 und ergänzende Daten 7) und zur nahezu vollständigen Einbeziehung des Sts-Gens, das zuvor fehlte.
Verbesserungen des Referenzgenoms wurden in Verbindung mit stammübergreifenden Genvorhersagen genutzt, um die bestehende Referenzgenom-Annotation zu aktualisieren, die vom GENCODE-Konsortium60 gepflegt wird. Wir untersuchten die stammspezifischen RNA-Seq-Genvorhersagen (Comparative Augustus), die 75 % neue Introns enthielten, im Vergleich zur bestehenden Referenzannotation (Tabelle 1) (GENCODE M8, Chromosomen 1-12). Von den 785 untersuchten Vorhersagen führten 62 zur Annotation neuer Loci, darunter 19 proteinkodierende Gene und 6 Pseudogene (ergänzende Tabelle 14 und ergänzende Daten 8). In den meisten Fällen, in denen ein neuer Locus auf dem Referenzgenom vorhergesagt wurde, haben wir bereits vorhandene, aber oft unvollständige Annotationen identifiziert. So wurde beispielsweise das Nmur1-Gen an seinem 5′-Ende erweitert und auf der Grundlage von Belegen für eine Vorhersage vervollständigt, die das Spleißen an ein stromaufwärts gelegenes Exon mit dem zuvor fehlenden Startcodon vorsah. Das Mroh3-Gen, das ursprünglich als unbearbeitetes Pseudogen annotiert war, wurde aufgrund der Identifizierung eines neuen Introns, das die Erweiterung des CDS auf die volle Länge ermöglichte, zu einem proteinkodierenden Gen aktualisiert. Das zuvor annotierte Pseudogenmodell wurde als Nonsense-vermitteltes Zerfallstranskript (NMD) des proteinkodierenden Locus beibehalten. Bei dem neuen bicistronischen Locus Chml_Opn3 war die ursprüngliche Annotation ein Einzel-Exon-Gen, Chml, das erweitert wurde und dessen erstes Exon mit dem Opn3-Gen geteilt wird.
Wir entdeckten ein neuartiges 188-Exon-Gen auf Chromosom 11, das das bestehende Gen Efcab3 zwischen Itgb3 und Mettl2 erheblich erweitert (Abb. 3a). Dieses Efcab3-ähnliche Gen wurde manuell kuratiert, gemäß den HAVANA-Richtlinien61 validiert und in den GENCODE-Versionen ab M11 als Gm11639 identifiziert. Efcab3/Efcab13 kodieren für Kalzium-bindende Proteine, und das neue Gen besteht in erster Linie aus wiederholten EF-Hand-Proteindomänen (siehe ergänzende Abb. 12). Die Analyse der Syntenie und der Genomstruktur zeigte, dass der Efcab3-Locus bei anderen Säugetieren, einschließlich der meisten Primaten, weitgehend konserviert ist. Die vergleichende Genvorhersage identifizierte die Version in voller Länge bei Orang-Utan, Rhesusaffen, Buschbaby und Totenkopfäffchen. Der Locus enthält jedoch einen Bruchpunkt am gemeinsamen Vorfahren von Schimpanse, Gorilla und Mensch (Homininae), der auf eine ~15 Mb große intrachromosomale Umlagerung zurückzuführen ist, bei der auch viele der internen EF-Hand-Domänenwiederholungen entfernt wurden (Abb. 3b und ergänzende Abb. 13). Die Analyse von Genotyp-Gewebe-Expressionsdaten62 beim Menschen zeigte, dass der EFCAB13-Locus in vielen Gewebetypen exprimiert wird, wobei die höchste Expression in Hoden und Schilddrüse gemessen wurde. Im Gegensatz dazu ist die Expression des EFCAB3-Locus nur in den Hoden in geringem Umfang messbar. Dies steht im Einklang mit dem Promotor des Gens in voller Länge, der der EFCAB13-Version vorgeschaltet ist, was durch die H3K4me3-Analyse bestätigt wird (siehe ergänzende Abb. 14). Bei Mäusen wird das Gen Efcab3 während der Entwicklung in vielen Geweben spezifisch exprimiert, mit hoher Expression in den oberen Schichten der Kortikalisplatte (siehe URLs), und befindet sich in unmittelbarer Nähe der genomischen 17q21.31 syntenischen Region, die sowohl bei Mäusen als auch bei Menschen mit strukturellen Veränderungen des Gehirns in Verbindung steht63. Wir verwendeten CRISPR (clustered regularly interspaced short palindromic repeats), um Efcab3-ähnliche mutierte Mäuse (Efcab3em1(IMPC)Wtsi, siehe Methoden) zu erzeugen, und erfassten 188 primäre Phänotypisierungsmaße (ergänzende Daten 9). Im Rahmen eines neuroanatomischen High-Throughput-Screens haben wir außerdem 40 Gehirnparameter in 22 verschiedenen Gehirnstrukturen gemessen (ergänzende Tabellen 15 und 16, siehe Methoden). Insbesondere wurden bei den Efcab3-ähnlichen Mutanten Anomalien der Gehirngröße im Vergleich zu den entsprechenden Wildtyp-Kontrollen festgestellt (Abb. 3c). Interessanterweise war der Seitenventrikel mit einer Vergrößerung von 65 % (P = 0,007) eine der am stärksten betroffenen Gehirnstrukturen. Die pontinen Kerne waren ebenfalls um 42 % (P = 0,001) und das Kleinhirn um 27 % (P = 0,02) vergrößert; diese beiden Regionen sind an der motorischen Aktivität beteiligt (Abb. 3d und ergänzende Abb. 15). Der Thalamus war ebenfalls um 19 % größer (P = 0,007). Infolgedessen vergrößerte sich der Parameter für die Gesamthirnfläche um 7 % (P = 0,006). Zusammengenommen deuten diese Ergebnisse auf eine mögliche Rolle des Efcab3-ähnlichen Gens bei der Regulierung der Gehirnentwicklung und der Gehirngröße vom Vorder- bis zum Hinterhirn hin.