Sorozat-összeállítások és genom annotáció
Kromoszóma léptékű összeállítást készítettünk 16 laboratóriumi egértörzsre Illumina párosított végű (40-70×) keverékkel, (3, 6, 10 kilobázis (kb)), fosmid és BAC végszekvenciák (1. kiegészítő táblázat), valamint Dovetail Genomics Chicago könyvtárak19. A pszeudokromoszómákat párhuzamosan állítottuk elő, felhasználva a fajok közötti szintenia-illesztéseket, amelyek 2,254 (WSB/EiJ) és 2,328 gigabázis (Gb) (AKR/J) közötti genom-összeállításokat eredményeztek, az ismeretlen hézagbázisok nélkül. Törzsenként a teljes genom hosszának körülbelül 0,5-2%-a nem volt elhelyezve, és ismeretlen hézagbázisokból (18-49%) és ismétlődő szekvenciákból (61-79%) áll (2. kiegészítő táblázat), törzsenként 89 és 410 közötti előre jelzett génnel (3. kiegészítő táblázat). A mitokondriális genom (mtDNS) összeállításai 14 törzs esetében alátámasztották a korábban közzétett szekvenciákat20 , bár az AKR/J, BALB/cJ, C3H/HeJ és LP/J törzsek kis számú, kiváló minőségű új szekvencia-változata ellentmondott a GenBank-bejegyzéseknek (4. kiegészítő táblázat). Új mtDNS-haplotípusokat azonosítottak a PWK/PhJ és az NZO/HlLtJ esetében. Az NZO/HlLtJ 55 SNP-t tartalmazott (33 közös a vadon élő törzsekkel), és különbözik a többi klasszikus beltenyésztett törzstől (1. kiegészítő ábra). Korábbi variációs katalógusok nagyfokú egyezést (>97% közös SNP-k) jeleztek az NZO/HlLtJ és egy másik beltenyésztett laboratóriumi törzs, az NZB/BlNJ21 között.
A törzsek kromoszómáinak bázispontosságát a C57BL/6J referencia genom két változatához (MGSCv311 és GRCm382) viszonyítva úgy értékeltük, hogy először az egyes törzsek összes párosított végű szekvenálási leolvasását visszaigazítottuk a megfelelő genom-összeállításokhoz, majd ezeket az összehangolásokat használtuk az SNP-k és indelek azonosítására. A kombinált SNP és indel hibaarány 0,09-0,1 hiba volt kb-onként, míg az MGSCv3 esetében 0,334, a GRCm38 esetében pedig 0,02 (5. kiegészítő táblázat). Ezután egy 612 polimeráz láncreakció (PCR) primerpárból álló készletet használtunk, amelyet korábban nyolc törzsben22 használtunk strukturális variánshívások validálására. Az összeállítások 4,7-6,7%-a mutatott hibás igazodást, míg az MGSCv3 esetében ez az arány 10% volt (6. kiegészítő táblázat). Végül a C57BL/6J, CAST/EiJ, PWK/PhJ és SPRET/EiJ májából és lépéből származó PacBio hosszú leolvasású komplementer DNS-szekvenciák összehangolása azt mutatta, hogy a GRCm38 referencia genomban volt a legmagasabb a helyesen igazított cDNS-leolvasások aránya (99%, illetve 98%), a törzsekben és az MGSCv3-ban pedig 1-2%-kal alacsonyabb (7. kiegészítő táblázat). Az ismert egér ismétlődési családok reprezentációja az összeállításokban azt mutatja, hogy a rövid ismétlődések (<200 bázispár (bp)) tartalma hasonló volt a GRCm38-hoz (2a,b kiegészítő ábra). A hosszú ismétlődések (>200 bp) teljes száma minden törzsben megegyezik; a teljes szekvenciahossz azonban következetesen rövidebb, mint a GRCm38 (2c. kiegészítő ábra).
A GENCODE C57BL/6J annotáció és a több szövetből23 származó törzs-specifikus RNS-szekvenálás (RNS-Seq) segítségével törzs-specifikus konszenzus génkészleteket állítottunk elő (8. kiegészítő táblázat és 3. kiegészítő ábra). A konszenzus génkészletek több mint 20 000 fehérjekódoló gént és több mint 18 000 nem kódoló gént tartalmaznak (1a. ábra és 1. kiegészítő táblázat). A klasszikus laboratóriumi törzsek esetében a GRCm38 referencia-génkészletben található kódoló transzkriptek 90,2%-át (88,0% a vadon élő törzsekben) és a nem kódoló transzkriptek 91,2%-át (91,4% a vadon élő törzsekben) sikerült összehasonlítóan annotálni. A törzs-specifikus RNS-Seq (Comparative Augustus24) génpredikciók átlagosan 1400 új izoformával egészítették ki a vadon élő törzsek és 1207 új izoformával a klasszikus törzsek génannotációs készleteit. A PacBio cDNS-szekvenáláson alapuló génjóslás átlagosan további 1 865 új izoformával egészítette ki a CAST/EiJ, PWK/PhJ és SPRET/EiJ törzseket. A feltételezett új lókuszok olyan splicelt gének, amelyeket törzs-specifikus RNS-Seq alapján jósoltak, és amelyek nem fedtek át egyetlen, a referencia genomból előrevetített gént sem. Átlagosan 37 gén volt feltételezett új lókusz (1. kiegészítő adat) a vadon élő törzsekben és 22 a klasszikus törzsekben. Úgy tűnik, hogy ezek leggyakrabban génduplikációs eseményekből származnak. Ezenkívül egy automatizált pszeudogén-annotációs munkafolyamat, a Pseudopipe25, valamint a GRCm38 referencia genomból átemelt, kézzel kurált pszeudogének mellett törzsenként átlagosan 11 000 (az összes törzs között 3317 konzervált) pszeudogént azonosított (4. kiegészítő ábra), amelyek a jelek szerint vagy retrotranszpozíció (~80%) vagy génduplikációs események (~20%) révén keletkeztek.
Az egérgenom extrém allélvariációval rendelkező területei
A laboratóriumi egértörzseket legalább 20 generációs beltenyésztés jellemzi, és genetikailag szinte minden lokuszon homozigóta1. Ennek ellenére a korábbi SNP-variációs katalógusok jó minőségű heterozigóta SNP-ket (hSNP-ket) azonosítottak, amikor a leolvasásokat a C57BL/6J referencia genomhoz igazították12. A nagyobb sűrűségű hSNP-k jelenléte jelezheti a kópiaszám-változásokat, vagy olyan új géneket, amelyek nincsenek jelen a referencia-összeállításban, és amelyek részben a referencia egyetlen lókuszához kényszerülnek leképeződni12,21. Így azonosításuk hatékony eszköz a genom-összeállítások hibáinak felderítésére. Az MGP variációs katalógus v521 alapján 116 439 (C57BL/6NJ) és 1 895 741 (SPRET/EiJ) között azonosítottunk jó minőségű hSNP-ket (9. kiegészítő táblázat). Elemzésünket a legnagyobb hSNP-sűrűségű régiók (ablakok ≥ 71 hSNP 10 kb-os csúszóablakonként) 5%-ára összpontosítva azonosítottuk a törzsek között az ismert polimorf régiók többségét (Kiegészítő 5. ábra), és az összes hSNP ~49%-át tették ki (Kiegészítő 9. táblázat és Kiegészítő 6a. ábra). Miután ezt a határértéket alkalmaztuk az összes törzs-specifikus hSNP-régióra, és az átfedő vagy szomszédos ablakokat összevontuk, törzsenként 117 (C57BL/6NJ) és 2567 (SPRET/EiJ) hSNP-régió maradt (9. kiegészítő táblázat), amelyek átlagos mérete 18-20 kb volt (6b. kiegészítő ábra). Számos hSNP-klaszter átfedésben van az immunitással (például MHC, NOD-szerű receptorok és AIM-szerű receptorok), az érzékszervekkel (például szaglással és ízleléssel kapcsolatos receptorok), a szaporodással (például terhesség-specifikus glikoproteinek és spermiumhoz kapcsolódó E-gazdag fehérjék), valamint a neuronokkal és viselkedéssel kapcsolatos génekkel (például viszketési receptorok26 és γ-protocadherinek27) (1b. ábra és 5. kiegészítő ábra). A vadon élő törzsek összes hSNP-régiója nagyobb gén- és kódoló szekvencia (CDS) bázispárszámot tartalmazott, mint bármelyik klasszikus beltenyésztett törzs (≥503 és ≥0,36 megabázist (Mb); 9. kiegészítő táblázat). A C57BL/6J-ben és a C57BL/6NJ-ben azonosított régiók (117 és 141, illetve 145 együttesen) metszik a GRCm38 ismert összeszerelési problémáit, beleértve a hézagokat, a nem elhelyezett állványzatokat vagy a centromerikus régiókat (107/145, 73,8%). A fennmaradó jelölt régiók nagy fehérjecsaládokat (15/145, 10,3%) és ismétlődő elemeket (17/145, 11,7%) tartalmaznak (Kiegészítő adatok 2).
A hSNP régiókban jelen lévő fehérjeosztályokat úgy vizsgáltuk, hogy a hSNP sűrű régiókban lévő összes gén kombinált készletéből azonosítottunk 1109 PantherDB egyezést, amelyeket 26 fehérjeosztályhoz rendeltünk (Kiegészítő adatok 3). A védekezés és immunitás volt a legnagyobb mértékben reprezentált fehérjeosztály (155 gén, Kiegészítő adatok 4), amely az összes fehérjeosztály-találat 13,98%-át tette ki (10. kiegészítő táblázat). Ez ötszörös feldúsulást jelentett a genom-szerte becsült arányhoz képest (1d. ábra). Figyelemre méltó, hogy a klasszikus törzsekben 89 immunitással kapcsolatos gént azonosítottak, amelyek közül 84 közös volt legalább egy vadon élő törzzsel (1d. ábra). Az SPRET/EiJ járult hozzá a legtöbb törzs-specifikus géntalálathoz (22 gén).
A hSNP-régiók között számos paralóg géncsalád volt képviselve (3. kiegészítő adat), beleértve a funkcionális humán ortológ génekkel rendelkező géneket is. Számos kiemelkedő példa erre az apolipoprotein L allél, amelynek változatai rezisztenciát biztosíthatnak a Trypanosoma brucei-vel, az emberi álomkór elsődleges okozójával szemben28,29; IFI16 (interferon gamma indukálható fehérje 16, az AIM2-szerű receptorok egyik tagja), egy DNS-szenzor, amely a humán immunvírussal (HIV) abortálisan fertőzött limfoid CD4 T-sejtek halálához szükséges30; NAIP (NLR család apoptózist gátló fehérje), amelyben a funkcionális kópiaszám-variáció a Legionella pneumophila fertőzés hatására bekövetkező fokozott sejthalálhoz kapcsolódik31; és szekretoglobinok (Scgb-tagok), amelyek részt vehetnek a tumorképződésben és invázióban mind az emberben, mind az egérben32,33 . Olyan nagy géncsaládokat is azonosítottak, amelyekről kevés funkcionális információ ismert. Egy körülbelül 50 génből álló klasztert azonosítottak, amely magában foglalja a hippocalcin-like 1 (Hpcal1) és homológjait (12. kromoszóma: 18-25 Mb). A Hpcal1 a neuronális kalciumszenzorok közé tartozik, amelyek elsősorban a retinális fotoreceptorokban, neuronokban és neuroendokrin sejtekben fejeződnek ki34. Ez a régió a C57BL/6J és a C57BL/6NJ kivételével minden törzsben hSNP-kkel gazdagodott. Érdekes módon ebben a régióban a Cpsf3 (21,29 Mb) minden törzsben egy magas konzerváltságú szigeten található, és a homozigóta C57BL/6NJ knockout életképtelen utódokat eredményez35. További példák közé tartozik egy másik régió a 12. kromoszómán (87-88 Mb), amely körülbelül 20 eukarióta transzlációs iniciációs faktor 1A (eIF1a) homológot tartalmaz, valamint a 14. kromoszómán (41-45 Mb), amely körülbelül 100 Dlg1-szerű gént tartalmaz. Az összes hSNP-jelölt régióban lévő géneket azonosítottuk és annotáltuk (5. kiegészítő ábra).
Megvizsgáltuk a GRCm38 hSNP-sűrű régióinak retrotranszpozon-tartalmát a becsült nulleloszláshoz képest (egymillió szimuláció), és mind az LTR-ek (empirikus P < 1 × 10-7), mind a hosszú interspersed nukleáris elemek (LINE) (empirikus P < 1 × 10-7) jelentős feldúsulását találtuk (11. és 12. kiegészítő táblázat). A génretrotranszpozíciót már régóta szerepet játszanak a géncsaládok diverzitásának kialakításában36 , a pozitívan szelektált adaptációkat biztosító új allélok létrehozásában37. Miután transzponálódtak, a transzponálható elemek idővel mutációkat halmoznak fel, ahogy a szekvencia divergál38,39 . Az LTR-ek, LINE-ek és rövid interspersed nukleáris elemek (SINE-ek) esetében az átlagos százalékos szekvencia-divergencia szignifikánsan alacsonyabb (P < 1 × 10-22) volt a hSNP-régiókon belül, mint a genom többi részén (1e. ábra). A legnagyobb különbség az átlagos szekvencia-divergencia tekintetében a hSNP-sűrű régiókon belüli és kívüli LTR-ek között volt. Csak az 1%-nál kisebb divergenciájú ismétlődő elemeket vizsgálva azt találtuk, hogy ezek a régiók jelentősen gazdagodtak LTR-ek (empirikus P < 1 × 10-7) és LINE-ok (empirikus P = 0,047) tekintetében.
De novo assembly of complex gene families
Adataink feltárták az egértörzs genomjában korábban ismeretlen kópiaszám-variációt, és génbővüléseket, összehúzódásokat és új allélokat (<80% szekvenciaazonosság) tártak fel. Például a szaglóreceptorok 23 különböző klaszterét azonosítottuk, ami jelentős variációt jelez a beltenyésztett törzsek között. Az egereknél a fenotípusos különbségeket, különösen a táplálkozásban és a viselkedésben, különböző szaglóreceptor-repertoárokhoz kapcsolták40,41. E célból a de novo assembly segítségével jellemeztük a CAST/EiJ szaglóreceptor-repertoárt, és 1249 jelölt szaglóreceptor-gént azonosítottunk (Kiegészítő adatok 5). A referencia törzshöz (C57BL/6J) képest a CAST/EiJ 20 szaglóreceptort veszített, és 37 géncsaládtagot szerzett: 12 új és 25, amelyeket a CAST/EiJ teljes szaglónyálkahártyájából származó hírvivő RNS (mRNS) alapján közzétett előrejelzések támogatnak (2a. ábra és 13. kiegészítő táblázat)42.
Új géntagokat fedeztünk fel több fontos, a fertőzésre adott veleszületett és adaptív válaszokat szabályozó immunlokuszon. Például a C57BL/6J 10-es kromoszómája (22,1-22,4 Mb) Raet1 allélokat és a H60 kisebb hisztokompatibilitási antigén tagjait tartalmazza. A Raet1 és a H60 fontos ligandumai az NKG2D-nek, a természetes ölősejtek aktiváló receptorának43. Az NKG2D ligandumok a fertőzött44 és metasztatikus sejtek45 felszínén expresszálódnak, és részt vehetnek az allograft autoimmun válaszokban46. A de novo assembly alapján a nyolc CC alapító törzs között hat különböző Raet1/H60 haplotípust azonosítottak; az azonosított haplotípusok közül három közös a klasszikus beltenyésztett CC alapítók között (A/J, 129S1/SvImJ és NOD/ShiLtJ azonos haplotípussal rendelkezik), és három különböző Raet1/H60 haplotípust azonosítottak az egyes vadon élő beltenyésztett törzsekben (CAST/EiJ, PWK/PhJ és WSB/EiJ) (2b. ábra és 7. és 8. kiegészítő ábra). A CAST/EiJ haplotípus csak egyetlen Raet1 családtagot (Raet1e) és egyetlen H60 allélt sem kódol, míg a klasszikus NOD/ShiLtJ haplotípus négy H60 és három Raet1 allélt tartalmaz. Az Aspergillus-rezisztens 4-es lókusz (Asprl4), az Aspergillus fumigatus fertőzéssel szembeni rezisztenciát közvetítő számos mennyiségi tulajdonsági lókusz (QTL) egyike, átfedi ezt a lókuszt, és egy 1 Mb (a QTL ~10%-a) intervallumból áll, amely a többi klasszikus törzzsel összehasonlítva az NZO/HlLtJ-re jellemző haplotípust tartalmaz (7. kiegészítő ábra). A CAST/EiJ és az NZO/HlLtJ esetében törzs-specifikus haplotípus-asszociációkat jelentettek az Asprl4-gyel és a túléléssel kapcsolatban, mindkettő rezisztenciát mutat az A. fumigatus fertőzéssel szemben47 , és ők az egyetlen törzsek, amelyek H60 allélokat vesztettek ezen a lókuszon.
A 11. kromoszómán három immunitással kapcsolatos lókuszt vizsgáltunk, az IRG-t (GRCm38: 48,85-49,10 Mb), az Nlrp1-et (71,05-71,30 Mb) és az Slfn-t (82,9-83,3 Mb), mivel ezek polimorfikus összetettsége és az egerek túlélése szempontjából fontosak48,49,50 . Az Nlrp1 lókusz (NOD-like receptors, pyrin domain-containing) olyan inflammaszóma komponenseket kódol, amelyek érzékelik az endogén mikrobiális termékeket és a metabolikus stresszt, ezáltal serkentve a veleszületett immunválaszt51. A házi egérben az Nlrp1 allélok részt vesznek a Bacillus anthracis letális toxinjának érzékelésében, ami inflammaszóma-aktivációhoz és a makrofágok piroptózisához vezet52,53 . Hat törzs (CAST/EiJ, PWK/PhJ, WSB/EiJ, SPRET/EiJ, NOD/ShiLtJ és C57BL/6J) összehasonlításával hét különböző Nlrp1 családtagot fedeztünk fel. Mindegyik törzsnek egyedi haplotípusa van az Nlrp1 tagokból, ami rávilágít a beltenyésztett egértörzsek közötti kiterjedt szekvencia-diverzitásra ezen a lokuszon (2c. ábra). A három M. m. domesticus törzs (C67BL/6J, NOD/ShiLtJ és WSB/EiJ) mindegyike az Nlrp1 család tagjainak különböző kombinációját hordozza; az Nlrp1d-1f új, korábban ismeretlen törzs-specifikus allélok. A különböző Nlrp1 allélok közötti diverzitás nagyobb, mint az egér- és patkányallélek közötti szekvencia-divergencia. Például a C57BL/6J tartalmazza az Nlrp1c-t, amely a másik két törzsben nincs jelen, míg az Nlrp1b2 a NOD/ShiLtJ-ben és a WSB/EiJ-ben egyaránt jelen van, de a C57BL/6J-ben nem. A PWK/PhJ-ban (M. m. musculus) az Nlrp1 lókusz csaknem kétszer akkora, mint a GRCm38 referencia genomban, és új Nlrp1 homológokat tartalmaz (2c. ábra), míg a szintén vadon élő M. spretusban ez a lókusz sokkal rövidebb, mint bármely más egértörzsben. Az Nlrp1-lokusz PWK/PhJ összeállításában az intergenikus régiók mintegy 90%-a transzponálható elemekből áll (2d. ábra).
A vadon élő PWK/PhJ (M. m. musculus) és a CAST/EiJ (M. m. castaneus) törzsek nagyon hasonló haplotípusokkal rendelkeznek; azonban a PWK/PhJ makrofágok rezisztensek az anthrax letális toxin által kiváltott piroptotikus sejthalállal szemben, míg a CAST/EiJ makrofágok nem54. Azt feltételezték, hogy az Nlrp1c lehet a rezisztenciát közvetítő ok-okozati családtag; az Nlrp1c a PWK/PhJ makrofágokból származó cDNS-ből amplifikálható, de a CAST/EiJ-ből nem54. A de novo összeállításokban mindkét egértörzsnek ugyanaz a promóter régiója az Nlrp1c számára; azonban átíráskor az Nlrp1c_CAST cDNS-e nem volt amplifikálható a korábban tervezett primerekkel54 a primer kötőhelyén található SNP-k miatt (5′…CACT-3′ → 5′…TACC-3′). A primer kötőhelye a PWK/PhJ-ban ugyanaz, mint a C57BL/6J-ben, azonban az Nlrp1c egy előre jelzett pszeudogén. Az Nlrp1b_CAST és az Nlrp1b_PWK között 18 aminosav eltérést találtunk a nukleotidkötő doménben (NBD). Ezek az eltérő profilok arra utalnak, hogy az Nlrp1c nem az egyedüli közvetítője az egérben a lépfene halálos toxin rezisztenciájának, hanem több más tag is részt vehet benne. Az újonnan annotált Nlrp1b2 és Nlrp1d tagok funkcionálisan intaktnak tűnnek a CAST/EiJ-ben, de mindkettőt pszeudogénnek jelezték előre a PWK/PhJ-ban stop kodonok vagy frameshift mutációk jelenléte miatt. C57BL/6J-ben az Nlrp1b három splicing izoformáját (SV1, SV2 és SV3) jelentették54. A PWK/PhJ és a C57BL/6J referencia közötti dot-plot szemlélteti a ko-linearitás zavarát a PWK/PhJ Nlrp1b2 és Nlrp1d alléloknál (2d. ábra). Az általunk szekvenált vadon élő törzsek mindegyike teljes hosszúságú Nlrp1d-t tartalmaz, és a C57BL/6J-hez képest hasonló ko-linearitási zavart mutatnak ezeknél az alléloknál (6. kiegészítő adat). A C57BL/6J SV1 izoformája az Nlrp1b és Nlrp1d csonka ősi paralógjaiból származik, ami azt jelzi, hogy az Nlrp1d elveszett a C57BL/6J vonalban. Az Nlrp1 lókusz genomszerkezetét a PWK/PhJ, CAST/EiJ, WSB/EiJ és NOD/ShiLtJ esetében Fiber-FISH segítségével megerősítettük (9. kiegészítő ábra).
Az összeállítások a többi vizsgált lókusz mindegyikében is kiterjedt diverzitást mutattak: az immunitással kapcsolatos GTPázok (IRGs) és a Schlafen család (Slfn) esetében. Az IRG fehérjék az interferon-indukálható GTPázok egyik alcsaládjába tartoznak, amelyek a legtöbb gerincesben jelen vannak55. Egérben az IRG fehérjecsalád tagjai hozzájárulnak az adaptív immunrendszerhez azáltal, hogy rezisztenciát biztosítanak az olyan intracelluláris patogénekkel szemben, mint a Chlamydia trachomatis, Trypanosoma cruzi és Toxoplasma gondii56. De novo összeállításunk összhangban van a CAST/EiJ48 korábban közzétett adataival. Először mutatja be a WSB/EiJ-ben, a PWK/PhJ-ben és a SPRET/EiJ-ben jelen lévő három erősen eltérő haplotípus sorrendjét, orientációját és szerkezetét, beleértve az átrendeződött promóterek, a beillesztett feldolgozott pszeudogének és a LINE ismétlődések magas gyakoriságának újszerű annotációját (Kiegészítő adatok 6).
A Schlafen (11. kromoszóma: 82,9-83,3 Mb) géncsalád a jelentések szerint részt vesz az immunválaszokban, a sejtdifferenciálódásban, a proliferációban és a növekedésben, a rákos invázióban és a kemoterápiás rezisztenciában. Emberekben az SLFN11 gátolja a HIV-fehérje szintézisét egy kodon-használaton alapuló mechanizmus révén57 , és főemlősökben az Slfn11 gén pozitív szelekciójáról számoltak be58. Egerekben inkompatibilis Slfn-haplotípusokat hordozó törzsek között embrionális halálozás következhet be59. A három vad eredetű CC alapító törzs (CAST/EiJ, PWK/PhJ és WSB/EiJ) Slfn-összeszerelése először mutatott ki széleskörű variációt ezen a lókuszon. A 4. csoportba tartozó Slfn gének50 , az Slfn8, Slfn9 és Slfn10 tagjai jelentős szekvencia-diverzitást mutatnak e törzsek között. Például az Sfln8 a PWK/PhJ-ban egy prediktált pszeudogén, de a többi törzsben fehérjét kódoló; a CAST/EiJ allél 78 aminosav-eltérést tartalmaz a C57BL/6J referenciához képest (10. kiegészítő ábra). Mind a CAST/EiJ, mind a PWK/PhJ tartalmazza az Sfln10 funkcionális példányait, amely a C57BL/6J-ben és a WSB/EiJ-ben prediktált pszeudogén. A PWK/PhJ-ban és a WSB/EiJ-ben egy új startkódont azonosítottak az Slfn4 előtt, amely egy 25 aminosavas N-terminális kiterjesztést okoz. Egy másik, a referenciában is jelen lévő tag, az Slfn14 konzerválódott a PWK/PhJ-ban és a CAST/EiJ-ben, de pszeudogén a WSB/EiJ-ben (10. kiegészítő ábra).
A törzs-összeállítások által informált referencia-genom frissítések
A GRCm38 referencia-összeállításban (C57BL/6J) jelenleg 11 olyan gén van, amely hiányos a szekvenciában lévő rés miatt. Először ezeket a lókuszokat összehasonlítottuk a C57BL/6NJ összeállítás megfelelő régióival, és felhasználtuk a referencia törzs nyilvános összeállításaiból származó, korábban a nem megfelelő átfedés miatt kihagyott kontigok azonosítására. Másodszor, a C57BL/6NJ törzsben a C57BL/6NJ törzsben lévő érdekes régiókhoz igazított C57BL/6J leolvasásokat célzott összeállítás céljából kivonták, ami a referencia törzsből jelenleg hiányzó szekvenciákat lefedő kontigok létrehozásához vezetett. Mindkét megközelítés tíz új génszerkezet kiegészítését eredményezte (például a 11. kiegészítő ábra és a 7. kiegészítő adat), valamint a korábban hiányzó Sts gén közel teljes felvételét.
A referencia genom javításait a pán-törzs génjóslásokkal együtt felhasználták a GENCODE konzorcium60 által fenntartott, meglévő referencia genom annotációjának frissítéséhez. Megvizsgáltuk a törzs-specifikus RNS-Seq (Comparative Augustus) génpredikciókat, amelyek 75% új intront tartalmaznak a meglévő referencia annotációhoz képest (1. táblázat) (GENCODE M8, 1-12. kromoszómák). A 785 vizsgált predikcióból 62 vezetett új lókuszok annotálásához, köztük 19 fehérjekódoló gén és 6 pszeudogén (14. kiegészítő táblázat és 8. kiegészítő adat). A legtöbb esetben, amikor új lókuszt jósoltunk a referenciagenomra, már létező, de gyakran hiányos annotációt azonosítottunk. Például az Nmur1 gént az 5′ végén meghosszabbítottuk és teljessé tettük egy olyan előrejelzést alátámasztó bizonyíték alapján, amely a korábban hiányzó startkódont tartalmazó upstream exonhoz splicelt. A Mroh3 gént, amelyet eredetileg feldolgozatlan pszeudogénként annotáltak, egy új intron azonosítása miatt, amely lehetővé tette a CDS teljes hosszúságúra történő kiterjesztését, fehérjekódoló génné frissítették. A korábban annotált pszeudogén modellt megtartottuk, mint a fehérjekódoló lókusz nonsense-mediált bomlás (NMD) transzkriptumát. Az új bicisztronikus lókuszban, a Chml_Opn3-ban az eredeti annotáció egy egy exonos gén, a Chml volt, amelyet kiterjesztettünk, és megállapítottuk, hogy az első exonja közös az Opn3 génnel.
A 11. kromoszómán egy új, 188 exonos gént fedeztünk fel, amely jelentősen meghosszabbítja az Itgb3 és a Mettl2 között húzódó Efcab3 meglévő gént (3a. ábra). Ezt az Efcab3-szerű gént kézzel kuratáltuk, a HAVANA-irányelvek61 szerint validáltuk, és a GENCODE M11-es kiadványaiban Gm11639 néven azonosítottuk. Az Efcab3/Efcab13 kalciumkötő fehérjéket kódol, és az új gén elsősorban ismétlődő EF-kéz fehérje doménekből áll (12. kiegészítő ábra). A szintenia és a genomszerkezet elemzése azt mutatta, hogy az Efcab3 lókusz nagymértékben konzerválódott más emlősöknél, beleértve a legtöbb főemlősöt is. Az összehasonlító génpredikció azonosította a teljes hosszúságú változatot az orángutánban, a rhesus makákóban, a bokormajomban és a mókusmajomban. A lókusz azonban töréspontot tartalmaz a csimpánz, a gorilla és az ember (Homininae) közös ősénél egy ~15 Mb-os intrakromoszómális átrendeződés miatt, amely számos belső EF-kéz domén ismétlődést is törölt (3b. ábra és 13. kiegészítő ábra). A genotípus-szöveti expressziós (GTEx) adatok62 elemzése emberben azt mutatta, hogy az EFCAB13 lókusz számos szövettípusban kifejeződik, a legmagasabb expressziót a herében és a pajzsmirigyben mértük. Ezzel szemben az EFCAB3 lókusznak csak a herében van alacsony szinten mérhető expressziója. Ez összhangban van azzal, hogy a teljes hosszúságú gén promótere az EFCAB13 változattól feljebb található, amit a H3K4me3 analízis is alátámaszt (14. kiegészítő ábra). Egerekben az Efcab3 gén specifikusan expresszálódik a fejlődés során számos szövetben, magas expresszióval az agykérgi lemez felső rétegeiben (lásd az URL-eket), és a genomi 17q21.31 szintenikus régió közvetlen közelében található, amely mind egerekben, mind emberekben az agy szerkezeti változásaihoz kapcsolódik63. CRISPR (clustered regularly interspaced short palindromic repeats) segítségével Efcab3-szerű mutáns egereket hoztunk létre (Efcab3em1(IMPC)Wtsi, lásd Módszerek), és 188 elsődleges fenotípusos mérést rögzítettünk (Kiegészítő adatok 9). Egy nagy áteresztőképességű neuroanatómiai szűrés részeként 40 agyi paramétert is megmértünk 22 különböző agyi struktúrában (15. és 16. kiegészítő táblázat, lásd Módszerek). Figyelemre méltó, hogy az Efcab3-szerű mutáns egereknél agyméret-anomáliákat azonosítottunk a megfelelő vad típusú kontrollokhoz képest (3c. ábra). Érdekes módon az oldalsó kamra volt az egyik legsúlyosabban érintett agyi struktúra, amely 65%-os megnagyobbodást mutatott (P = 0,007). A pontinus magok szintén 42%-kal (P = 0,001) és a kisagy 27%-kal (P = 0,02) nőttek; ez a két régió részt vesz a motoros aktivitásban (3d. ábra és 15. kiegészítő ábra). A talamusz szintén 19%-kal nagyobb volt (P = 0,007). Ennek eredményeképpen a teljes agyterület paraméter 7%-kal nőtt (P = 0,006). Összességében ezek az eredmények az Efcab3-like gén potenciális szerepére utalnak az agy fejlődésének és az agy méretének szabályozásában az előagytól a hátsó agyig.
.