Sekwencje i anotacja genomu
Sekwencje na skalę chromosomową zostały wyprodukowane dla 16 szczepów myszy laboratoryjnych przy użyciu mieszaniny sparowanych par Illumina (40-70×), mat-pairs (3, 6, 10 kilobaz (kb)), fosmidów i sekwencji końcowych BAC (Tabela uzupełniająca 1) oraz bibliotek Dovetail Genomics Chicago19. Pseudochromosomy były produkowane równolegle z wykorzystaniem międzygatunkowych wyrównań syntenicznych, w wyniku czego uzyskano genomy o wielkości od 2,254 (WSB/EiJ) do 2,328 gigabajtów (Gb) (AKR/J), z wyłączeniem nieznanych luk bazowych. Około 0,5-2% całkowitej długości genomu każdego szczepu było nieumieszczone i składało się z nieznanych luk (18-49%) i sekwencji powtórzonych (61-79%) (Tabela uzupełniająca 2), z 89-410 przewidywanymi genami na szczep (Tabela uzupełniająca 3). Skład genomu mitochondrialnego (mtDNA) dla 14 szczepów potwierdził wcześniej opublikowane sekwencje20, chociaż niewielka liczba wysokiej jakości nowych wariantów sekwencji w AKR/J, BALB/cJ, C3H/HeJ i LP/J była sprzeczna z wpisami GenBank (Tabela uzupełniająca 4). Nowe haplotypy mtDNA zostały zidentyfikowane u PWK/PhJ i NZO/HlLtJ. W szczególności NZO/HlLtJ zawierał 55 SNP (33 wspólne ze szczepami dziko żyjącymi) i wydaje się różnić w porównaniu z innymi klasycznymi szczepami wsobnymi (Supplementary Fig. 1). Poprzednie katalogi zmienności wykazały wysoką zgodność (>97% wspólnych SNP) między NZO/HlLtJ i innym laboratoryjnym szczepem wsobnym NZB/BlNJ21.
Specyficzne dla szczepu zestawy genów konsensusowych zostały wyprodukowane przy użyciu anotacji GENCODE C57BL/6J i specyficznego dla szczepu sekwencjonowania RNA (RNA-Seq) z wielu tkanek23 (Tabela uzupełniająca 8 i Supplementary Fig. 3). Zestawy genów konsensusowych zawierają ponad 20 000 genów kodujących białka i ponad 18 000 genów niekodujących (ryc. 1a i tab. 1). Dla klasycznych szczepów laboratoryjnych, 90,2% transkryptów kodujących (88,0% u szczepów dziko żyjących) i 91,2% transkryptów niekodujących (91,4% u szczepów dziko żyjących) obecnych w referencyjnym zestawie genów GRCm38 zostało porównywalnie zanotowanych. Przewidywanie genów na podstawie RNA-Seq specyficznego dla danego szczepu (Comparative Augustus24) dodało średnio 1400 nowych izoform do zestawów genów dzikich i 1207 nowych izoform do zestawów genów klasycznych szczepów. Przewidywanie genów oparte na sekwencjonowaniu PacBio cDNA wprowadziło średnio 1,865 nowych izoform do CAST/EiJ, PWK/PhJ i SPRET/EiJ. Putatywne nowe loci są zdefiniowane jako spliced geny, które zostały przewidziane na podstawie RNA-Seq specyficznego dla szczepu i nie pokrywały się z żadnymi genami przewidywanymi z genomu referencyjnego. Średnio 37 genów stanowiło nowe loci (Supplementary Data 1) w szczepach dzikich i 22 w szczepach klasycznych. Wydaje się, że najczęściej są one wynikiem duplikacji genów. Dodatkowo, zautomatyzowany proces anotacji pseudogenów, Pseudopipe25, wraz z ręcznie opracowanymi pseudogenami przejętymi z genomu referencyjnego GRCm38, zidentyfikował średnio 11 000 (3 317 konserwowanych między wszystkimi szczepami) pseudogenów na szczep (Supplementary Fig. 4), które najwyraźniej powstały albo w wyniku retrotranspozycji (~80%) albo duplikacji genów (~20%).
Regiony genomu myszy z ekstremalną zmiennością alleliczną
Inbredowe szczepy myszy laboratoryjnych charakteryzują się co najmniej 20 pokoleniami chowu wsobnego i są genetycznie homozygotyczne w prawie wszystkich loci1. Pomimo tego, poprzednie katalogi zmienności SNP zidentyfikowały wysokiej jakości heterozygotyczne SNP (hSNPs), gdy odczyty zostały wyrównane do genomu referencyjnego C57BL/6J12. Obecność większej gęstości hSNPs może wskazywać na zmiany liczby kopii lub nowe geny, które nie są obecne w zespole referencyjnym, zmuszone do częściowego mapowania do pojedynczego locus w genomie referencyjnym12,21. Dlatego ich identyfikacja jest potężnym narzędziem do wyszukiwania błędów w złożeniach genomów. Zidentyfikowaliśmy od 116 439 (C57BL/6NJ) do 1 895 741 (SPRET/EiJ) wysokiej jakości hSNPs z katalogu zmian MGP v521 (Tabela uzupełniająca 9). Skupiając naszą analizę na 5% regionów o największej gęstości hSNP (okna ≥ 71 hSNPs na 10 kb okna przesuwnego) zidentyfikowaliśmy większość znanych regionów polimorficznych wśród szczepów (Supplementary Fig. 5) i odpowiadały one za ~49% wszystkich hSNPs (Supplementary Table 9 i Supplementary Fig. 6a). Po zastosowaniu tego odcięcia do wszystkich specyficznych dla szczepu regionów hSNP i połączeniu nakładających się lub sąsiadujących okien, pozostało od 117 (C57BL/6NJ) do 2567 (SPRET/EiJ) regionów hSNP na szczep (Tabela uzupełniająca 9), o średnim rozmiarze 18-20 kb (Rys. uzupełniający 6b). Wiele klastrów hSNP pokrywa się z genami związanymi z odpornością (na przykład MHC, receptory NOD-podobne i receptory AIM-podobne), sensorami (na przykład receptory węchu i smaku), reprodukcją (na przykład glikoproteiny specyficzne dla ciąży i bogate w białko E białka związane ze spermą) oraz genami związanymi z neuronami i zachowaniem (na przykład receptory świądu26 i γ-protokadheryny27) (ryc. 1b i ryc. 5). Wszystkie regiony hSNP szczepów dzikich zawierały większą liczbę par zasad genów i sekwencji kodujących (CDS) niż jakikolwiek klasyczny szczep wsobny (odpowiednio ≥503 i ≥0,36 megabajtów (Mb); Tabela uzupełniająca 9). Regiony zidentyfikowane w C57BL/6J i C57BL/6NJ (odpowiednio 117 i 141; 145 łącznie) przecinają znane problemy z tworzeniem GRCm38, w tym luki, nieumieszczone rusztowania lub regiony centromerowe (107/145, 73,8%). Pozostałe regiony kandydujące obejmują duże rodziny białek (15/145, 10,3%) i elementy powtarzające się (17/145, 11,7%) (Supplementary Data 2).
Zbadaliśmy klasy białek obecne w regionach hSNP poprzez identyfikację 1 109 dopasowań PantherDB, przypisanych do 26 klas białek z połączonego zestawu wszystkich genów w gęstych regionach hSNP (Supplementary Data 3). Obrona i odporność były najliczniej reprezentowaną klasą białek (155 genów, Dane uzupełniające 4), stanowiąc 13,98% wszystkich trafień klasy białek (Tabela uzupełniająca 10). Było to pięciokrotne wzbogacenie w porównaniu do szacowanego wskaźnika dla całego genomu (Rys. 1d). Warto zauważyć, że w klasycznych szczepach zidentyfikowano 89 genów związanych z układem odpornościowym, z których 84 były wspólne z co najmniej jednym ze szczepów dzikich (Rys. 1d). SPRET/EiJ dostarczyły największą liczbę trafień genów specyficznych dla szczepu (22 geny).
Wiele paralogicznych rodzin genów było reprezentowanych w regionach hSNP (Dane uzupełniające 3), w tym geny z funkcjonalnymi ludzkimi ortologiami. Kilka znaczących przykładów obejmuje allele apolipoproteiny L, której warianty mogą nadawać odporność na Trypanosoma brucei, główną przyczynę śpiączki u ludzi28,29; IFI16 (interferon gamma inducible protein 16, członek receptorów AIM2-like), czujnik DNA wymagany do śmierci limfoidalnych komórek CD4 T, które zostały zakażone ludzkim wirusem immunologicznym (HIV)30; NAIP (białko hamujące apoptozę z rodziny NLR), w którym funkcjonalne zmiany liczby kopii są związane ze zwiększoną śmiercią komórek po zakażeniu Legionella pneumophila31; oraz sekretoglobiny (członkowie Scgb), które mogą być zaangażowane w tworzenie i inwazję nowotworów zarówno u ludzi, jak i u myszy32,33. Zidentyfikowano również duże rodziny genów, w których niewiele jest znanych informacji funkcjonalnych. Zidentyfikowano klaster około 50 genów, w skład którego wchodzi hipokalcyna 1 (Hpcal1) i jej homologi (chromosom 12: 18-25 Mb). Hpcal1 należy do neuronalnych czujników wapnia, ulegających ekspresji głównie w fotoreceptorach siatkówki, neuronach i komórkach neuroendokrynnych34. Region ten jest wzbogacony o hSNPs we wszystkich szczepach z wyjątkiem C57BL/6J i C57BL/6NJ. Co ciekawe, w tym regionie, Cpsf3 (21,29 Mb) znajduje się na wyspie o wysokim stopniu zachowania we wszystkich szczepach, a homozygotyczny nokaut w C57BL/6NJ produkuje podatne na uszkodzenia potomstwo35. Dodatkowe przykłady obejmują inny region na chromosomie 12 (87-88 Mb) zawierający około 20 homologów eukariotycznego czynnika inicjacji translacji 1A (eIF1a) oraz na chromosomie 14 (41-45 Mb) zawierający około 100 genów podobnych do Dlg1. Geny w obrębie wszystkich regionów kandydujących do hSNP zostały zidentyfikowane i opatrzone adnotacjami (Supplementary Fig. 5).
Zbadaliśmy zawartość retrotranspozonów w gęstych regionach hSNP na GRCm38 w porównaniu z szacowaną dystrybucją zerową (milion symulacji) i znaleźliśmy znaczące wzbogacenie zarówno LTR (empiryczne P < 1 × 10-7), jak i długich, krzyżujących się elementów jądrowych (LINEs) (empiryczne P < 1 × 10-7) (Tabele uzupełniające 11 i 12). Retrotranspozycja genów jest od dawna wiązana z tworzeniem różnorodności rodzin genów36, nowych alleli nadających pozytywnie wyselekcjonowane adaptacje37. Po transpozycji elementy transpozycyjne gromadzą mutacje w miarę upływu czasu, w miarę jak sekwencja ulega dywersyfikacji38,39. W przypadku LTR-ów, LINE-ów i krótkich interspersyjnych elementów jądrowych (SINE-ów) średnia procentowa rozbieżność sekwencji była znacząco niższa (P < 1 × 10-22) w regionach hSNP w porównaniu z resztą genomu (ryc. 1e). Największa różnica w średniej dywergencji sekwencji występowała między LTR w obrębie i poza regionami gęstych hSNP. Badając tylko elementy powtórzone z mniej niż 1% dywergencją, stwierdziliśmy, że te regiony są znacząco wzbogacone o LTR (empiryczne P < 1 × 10-7) i LINE (empiryczne P = 0,047).
De novo assembly of complex gene families
Nasze dane ujawniły zmienność liczby kopii wcześniej nieznaną w genomach szczepów myszy i odkryły ekspansje genów, kurczenie się i nowe allele (<80% identyczności sekwencji). Na przykład, zidentyfikowano 23 odrębne klastry receptorów węchowych, co wskazuje na znaczne zróżnicowanie wśród szczepów wsobnych. U myszy różnice fenotypowe, szczególnie w diecie i zachowaniu, zostały powiązane z odmiennym repertuarem receptorów węchowych40,41. W tym celu scharakteryzowaliśmy repertuar receptorów węchowych CAST/EiJ przy użyciu naszego montażu de novo i zidentyfikowaliśmy 1249 kandydujących genów receptorów węchowych (Dane uzupełniające 5). W porównaniu do szczepu referencyjnego (C57BL/6J), CAST/EiJ stracił 20 receptorów węchowych i zyskał 37 członków rodziny genów: 12 nowych i 25 popartych opublikowanymi przewidywaniami opartymi na messenger RNA (mRNA) uzyskanym z całej błony śluzowej węchu CAST/EiJ (Ryc. 2a i Tabela uzupełniająca 13)42.
Odkryliśmy nowych członków genów w kilku ważnych loci immunologicznych regulujących wrodzone i adaptacyjne odpowiedzi na infekcje. Na przykład, chromosom 10 (22,1-22,4 Mb) na C57BL/6J zawiera allele Raet1 i członków mniejszego antygenu zgodności histokompatybilności H60. Raet1 i H60 są ważnymi ligandami dla NKG2D, aktywującego receptora komórek naturalnych zabójców43. Ligandy NKG2D ulegają ekspresji na powierzchni zakażonych44 i przerzutowych komórek45 i mogą uczestniczyć w autoimmunologicznych odpowiedziach alloprzeszczepów46. Na podstawie montażu de novo zidentyfikowano sześć różnych haplotypów Raet1/H60 wśród ośmiu szczepów założycielskich CC; Trzy ze zidentyfikowanych haplotypów są wspólne dla klasycznych założycieli CC (A/J, 129S1/SvImJ i NOD/ShiLtJ mają ten sam haplotyp), a trzy różne haplotypy Raet1/H60 zidentyfikowano w każdym z dzikich szczepów wsobnych (CAST/EiJ, PWK/PhJ i WSB/EiJ) (ryc. 2b i dodatkowe ryc. 7 i 8). Haplotyp CAST/EiJ koduje tylko jednego członka rodziny Raet1 (Raet1e) i żadnych alleli H60, podczas gdy klasyczny haplotyp NOD/ShiLtJ ma cztery allele H60 i trzy Raet1. Aspergillus-resistant locus 4 (Asprl4), jeden z kilku loci cech ilościowych (QTL), które pośredniczą w odporności na zakażenie Aspergillus fumigatus, pokrywa się z tym locus i obejmuje interwał 1 Mb (~10% QTL), który, w porównaniu z innymi klasycznymi szczepami, zawiera haplotyp unikalny dla NZO/HlLtJ (Dodatkowa ryc. 7). Specyficzne dla szczepu związki haplotypowe z Asprl4 i przeżyciem zostały zgłoszone dla CAST/EiJ i NZO/HlLtJ, z których oba wykazują odporność na zakażenie A. fumigatus47 i są to również jedyne szczepy, które utraciły allele H60 w tym locus.
Zbadaliśmy trzy związane z odpornością loci na chromosomie 11, IRG (GRCm38: 48.85-49.10 Mb), Nlrp1 (71.05-71.30 Mb) i Slfn (82.9-83.3 Mb) ze względu na ich złożoność polimorficzną i znaczenie dla przeżycia myszy48,49,50. Locus Nlrp1 (NOD-like receptors, pyrin domain-containing) koduje komponenty inflammasomu, które wyczuwają endogenne produkty mikrobiologiczne i stresy metaboliczne, stymulując w ten sposób wrodzone odpowiedzi immunologiczne51. U myszy domowej allele Nlrp1 są zaangażowane w wyczuwanie śmiertelnej toksyny Bacillus anthracis, co prowadzi do aktywacji inflammasomu i piroptozy makrofagów52,53. Odkryliśmy siedmiu różnych członków rodziny Nlrp1 poprzez porównanie sześciu szczepów (CAST/EiJ, PWK/PhJ, WSB/EiJ, SPRET/EiJ, NOD/ShiLtJ i C57BL/6J). Każdy szczep ma unikalny haplotyp członków Nlrp1, co podkreśla duże zróżnicowanie sekwencji w tym locus pomiędzy szczepami myszy (Rys. 2c). Każdy z trzech szczepów M. m. domesticus (C67BL/6J, NOD/ShiLtJ i WSB/EiJ) jest nosicielem innej kombinacji członków rodziny Nlrp1; Nlrp1d-1f są nowymi allelami specyficznymi dla szczepu, które nie były wcześniej znane. Różnorodność między różnymi allelami Nlrp1 jest większa niż rozbieżność sekwencji między allelami myszy i szczurów. Na przykład, C57BL/6J zawiera Nlrp1c, który nie występuje w pozostałych dwóch szczepach, podczas gdy Nlrp1b2 jest obecny zarówno w NOD/ShiLtJ i WSB/EiJ, ale nie w C57BL/6J. U PWK/PhJ (M. m. musculus) locus Nlrp1 jest prawie dwukrotnie większy w stosunku do genomu referencyjnego GRCm38 i zawiera nowe homologi Nlrp1 (ryc. 2c), podczas gdy u M. spretus (również dzikiego pochodzenia) locus to jest znacznie krótsze niż w jakimkolwiek innym szczepie myszy. Około 90% regionów intergenicznych w zespole PWK/PhJ locus Nlrp1 składa się z elementów transpozycyjnych (Ryc. 2d).
Pochodzące od dzikich myszy szczepy PWK/PhJ (M. m. musculus) i CAST/EiJ (M. m. castaneus) mają bardzo podobne haplotypy; jednak makrofagi PWK/PhJ są odporne na piroptotyczną śmierć komórek indukowaną śmiertelną toksyną wąglika, podczas gdy makrofagi CAST/EiJ nie54. Zasugerowano, że Nlrp1c może być przyczynowym członkiem rodziny pośredniczącym w oporności; Nlrp1c można amplifikować z cDNA z makrofagów PWK/PhJ, ale nie CAST/EiJ54. W asemblacji de novo, oba szczepy myszy mają ten sam region promotora dla Nlrp1c; jednak po transkrypcji, cDNA Nlrp1c_CAST nie mogło być amplifikowane z poprzednio zaprojektowanymi starterami54 z powodu SNP w miejscu wiązania startera (5′…CACT-3′ → 5′…TACC-3′). Miejsce wiązania primera w PWK/PhJ jest takie samo jak w C57BL/6J, jednak Nlrp1c jest przewidywanym pseudogenem. Znaleźliśmy 18 aminokwasowe niedopasowanie w domenie wiążącej nukleotydy (NBD) pomiędzy Nlrp1b_CAST i Nlrp1b_PWK. Te rozbieżne profile sugerują, że Nlrp1c nie jest jedynym mediatorem odporności na śmiertelną toksynę wąglika u myszy, ale kilka innych członków może być zaangażowanych. Nowo zaanotowani członkowie Nlrp1b2 i Nlrp1d wydają się funkcjonalnie nienaruszeni w CAST/EiJ, ale obaj byli przewidywani jako pseudogeny w PWK/PhJ z powodu obecności kodonów stop lub mutacji framehift. W C57BL/6J odnotowano trzy izoformy splicingowe Nlrp1b (SV1, SV2 i SV3)54. Wykres punktowy pomiędzy PWK/PhJ i referencyjnym C57BL/6J ilustruje zaburzenie współliniowości przy allelach PWK/PhJ Nlrp1b2 i Nlrp1d (ryc. 2d). Wszystkie dzikie szczepy pochodne, które sekwencjonowaliśmy, zawierają pełną długość Nlrp1d i wykazują podobne zaburzenie współliniowości w tych allelach w stosunku do C57BL/6J (Dane uzupełniające 6). Izoforma SV1 w C57BL/6J pochodzi od skróconych paralogów przodków Nlrp1b i Nlrp1d, wskazując, że Nlrp1d został utracony w linii C57BL/6J. Struktura genomu locus Nlrp1 w PWK/PhJ, CAST/EiJ, WSB/EiJ i NOD/ShiLtJ została potwierdzona przy użyciu Fiber-FISH (Supplementary Fig. 9).
Złożenia wykazały również duże zróżnicowanie w każdym z pozostałych badanych loci: GTPaz związanych z odpornością (IRGs) i rodziny Schlafen (Slfn). Białka IRG należą do podrodziny GTPaz indukowanych interferonem, występujących u większości kręgowców55. U myszy, członkowie rodziny białek IRG przyczyniają się do adaptacyjnego układu odpornościowego poprzez nadawanie odporności na patogeny wewnątrzkomórkowe, takie jak Chlamydia trachomatis, Trypanosoma cruzi i Toxoplasma gondii56. Nasza asocjacja de novo jest zgodna z wcześniej opublikowanymi danymi dla CAST/EiJ48. Po raz pierwszy pokazuje kolejność, orientację i strukturę trzech wysoce rozbieżnych haplotypów obecnych w WSB/EiJ, PWK/PhJ i SPRET/EiJ, w tym nowe adnotacje o rearanżacji promotorów, wstawionych przetworzonych pseudogenach i wysokiej częstości powtórzeń LINE (Dane uzupełniające 6).
Geny rodziny Schlafen (chromosom 11: 82,9-83,3 Mb) są podobno zaangażowane w odpowiedzi immunologiczne, różnicowanie komórek, proliferację i wzrost, inwazję nowotworów i oporność na chemioterapię. U ludzi stwierdzono, że SLFN11 hamuje syntezę białka HIV w mechanizmie opartym na wykorzystaniu kodonów57 , a u ssaków naczelnych odnotowano pozytywną selekcję na gen Slfn1158. U myszy śmierć embrionalna może wystąpić między szczepami niosącymi niezgodne haplotypy Slfn59. Złożenie Slfn dla trzech szczepów założycielskich CC o dzikim pochodzeniu (CAST/EiJ, PWK/PhJ i WSB/EiJ) po raz pierwszy wykazało dużą zmienność w tym locus. Członkowie grupy 4 genów Slfn50, Slfn8, Slfn9 i Slfn10, wykazują znaczące zróżnicowanie sekwencji wśród tych szczepów. Na przykład, Sfln8 jest przewidywanym pseudogenem w PWK/PhJ, ale koduje białko w innych szczepach; allel CAST/EiJ zawiera 78 niedopasowań aminokwasowych w porównaniu z referencją C57BL/6J (Dodatkowa ryc. 10). Zarówno CAST/EiJ, jak i PWK/PhJ zawierają funkcjonalne kopie Sfln10, który jest przewidywanym pseudogenem w C57BL/6J i WSB/EiJ. W PWK/PhJ i WSB/EiJ zidentyfikowano nowy kodon startowy przed Slfn4, który powoduje wydłużenie N-końca o 25 aminokwasów. Inny członek obecny w referencji, Slfn14, jest konserwowany w PWK/PhJ i CAST/EiJ, ale jest pseudogenem w WSB/EiJ (Supplementary Fig. 10).
Aktualizacja genomu referencyjnego w oparciu o zespoły szczepów
W referencyjnym zespole GRCm38 (C57BL/6J) znajduje się obecnie 11 genów, które są niekompletne z powodu luki w sekwencji. Po pierwsze, loci te zostały porównane z odpowiednimi regionami w zespole C57BL/6NJ i użyte do identyfikacji kontigów z publicznych zespołów szczepu referencyjnego, wcześniej pominiętych z powodu niewystarczającego pokrywania się. Po drugie, odczyty ze szczepu C57BL/6J dopasowane do regionów zainteresowania w asocjacji C57BL/6NJ zostały wyekstrahowane w celu ukierunkowanej asocjacji, co doprowadziło do wygenerowania kontigów obejmujących sekwencje, których obecnie brakuje w referencji. Oba podejścia doprowadziły do ukończenia dziesięciu nowych struktur genowych (na przykład, Supplementary Fig. 11 i Supplementary Data 7) i prawie całkowitego włączenia genu Sts, którego wcześniej brakowało.
Ulepszenia genomu referencyjnego, w połączeniu z przewidywaniami genów pan- szczepów, zostały wykorzystane do zapewnienia aktualizacji istniejącej anotacji genomu referencyjnego, utrzymywanej przez konsorcjum GENCODE60. Zbadaliśmy specyficzne dla szczepu RNA-Seq (Comparative Augustus) przewidywania genów zawierające 75% nowych intronów w porównaniu do istniejącej adnotacji referencyjnej (Tabela 1) (GENCODE M8, chromosomy 1-12). Spośród 785 badanych predykcji, 62 doprowadziły do anotacji nowych loci, w tym 19 genów kodujących białka i 6 pseudogenów (Tabela Uzupełniająca 14 i Dane Uzupełniające 8). W większości przypadków, w których przewidywano nowe locus na genomie referencyjnym, zidentyfikowaliśmy istniejące wcześniej, ale często niekompletne, anotacje. Na przykład, gen Nmur1 został przedłużony na jego 5′ końcu i uzupełniony na podstawie dowodów wspierających przewidywanie, że splicing do eksonu upstream zawierającego poprzednio brakujący kodon startowy. Gen Mroh3, który pierwotnie został oznaczony jako nieprzetworzony pseudogen, został zaktualizowany do genu kodującego białko dzięki identyfikacji nowego intronu, który pozwolił na wydłużenie CDS do pełnej długości. Poprzednio opisany model pseudogenu został zachowany jako transkrypt NMD (nonsense-mediated decay) locus kodującego białko. W nowym dwuniciowym locus, Chml_Opn3, pierwotna adnotacja dotyczyła pojedynczego eksonu genu Chml, który został rozszerzony i okazało się, że dzieli swój pierwszy ekson z genem Opn3.
Odkryliśmy nowy 188-eksonowy gen na chromosomie 11, który znacząco rozszerza istniejący gen Efcab3 rozciągający się pomiędzy Itgb3 i Mettl2 (Fig. 3a). Ten gen podobny do Efcab3 został ręcznie zakwalifikowany, zwalidowany zgodnie z wytycznymi HAVANA61 i zidentyfikowany w GENCODE od wersji M11 jako Gm11639. Efcab3/Efcab13 kodują białka wiążące wapń, a nowy gen składa się głównie z powtarzających się domen białkowych EF-hand (Supplementary Fig. 12). Analiza syntenii i struktury genomu wykazała, że locus Efcab3 jest w dużym stopniu konserwowany u innych ssaków, w tym u większości naczelnych. Porównawcza predykcja genów zidentyfikowała jego pełnowymiarową wersję u orangutana, makaka rhesus, buszbaby i małpy wiewiórkowatej. Jednakże locus to zawiera punkt przerwania u wspólnego przodka szympansa, goryla i człowieka (Homininae) z powodu wewnątrzchromosomalnej rearanżacji o długości ~15 Mb, która usunęła również wiele wewnętrznych powtórzeń domeny EF-hand (Fig. 3b i Supplementary Fig. 13). Analiza danych Genotype-Tissue Expression (GTEx)62 u ludzi wykazała, że locus EFCAB13 ulega ekspresji w wielu typach tkanek, z najwyższą ekspresją mierzoną w jądrze i tarczycy. W przeciwieństwie do tego, locus EFCAB3 wykazuje niski poziom mierzalnej ekspresji tylko w jądrze. Jest to zgodne z tym, że promotor pełnometrażowego genu jest obecny upstream od wersji EFCAB13, co potwierdza analiza H3K4me3 (Supplementary Fig. 14). U myszy gen Efcab3 ulega specyficznej ekspresji podczas rozwoju w wielu tkankach, z wysoką ekspresją w górnych warstwach płytki korowej (patrz URL) i znajduje się w bezpośrednim sąsiedztwie genomowego regionu syntenicznego 17q21.31 związanego ze zmianami strukturalnymi mózgu zarówno u myszy, jak i u ludzi63. Użyliśmy CRISPR (clustered regularly interspaced short palindromic repeats) do stworzenia myszy mutantów podobnych do Efcab3 (Efcab3em1(IMPC)Wtsi, patrz Metody) i zarejestrowaliśmy 188 podstawowych pomiarów fenotypowych (Dane uzupełniające 9). Zmierzyliśmy również 40 parametrów mózgu w 22 różnych strukturach mózgowych jako część wysokowydajnego ekranu neuro-anatomicznego (Tabele uzupełniające 15 i 16, patrz Metody). W szczególności zidentyfikowano anomalie wielkości mózgu u myszy mutantów Efcab3-podobnych w porównaniu do dopasowanych kontroli typu dzikiego (Fig. 3c). Co ciekawe, komora boczna była jedną z najbardziej dotkniętych struktur mózgu, wykazując powiększenie o 65% (P = 0,007). Jądra ponadzwojowe również powiększyły się o 42% (P = 0,001), a móżdżek o 27% (P = 0,02); te dwa regiony są zaangażowane w aktywność ruchową (ryc. 3d i ryc. 15). Wzgórze było również większe o 19% (P = 0,007). W rezultacie parametr całkowitej powierzchni mózgu został powiększony o 7% (P = 0,006). Łącznie, wyniki te sugerują potencjalną rolę genu Efcab3-like w regulacji rozwoju mózgu i wielkości mózgu od przodomózgowia do tyłomózgowia.
.