Kuusitoista erilaista laboratoriohiiren referenssigenomia määrittelevät kantaspesifisiä haplotyyppejä ja uusia funktionaalisia lokuksia

Sekvenssikokoonpanot ja genomin annotaatio

Kromosomimittakaavaiset kokoonpanot tuotettiin 16:sta laboratoriohiiren kannasta Illuminan pareittaisella sekoitussekoituksella (40-70×), mate-pairs (3, 6, 10 kilobaasia (kb)), fosmidi- ja BAC-pääsekvenssejä (lisätaulukko 1) sekä Dovetail Genomics Chicago -kirjastoja19. Pseudokromosomit tuotettiin rinnakkain käyttämällä lajien välisiä synteniakohdistuksia, joiden tuloksena saatiin 2,254 (WSB/EiJ) ja 2,328 gigatavun (Gb) (AKR/J) genomikokoonpanot ilman tuntemattomia aukkoemäksiä. Noin 0,5-2 prosenttia genomin kokonaispituudesta kantakohtaisesti oli sijoittamatta ja koostui tuntemattomista aukkoemäksistä (18-49 prosenttia) ja toistosekvensseistä (61-79 prosenttia) (lisätaulukko 2), ja ennustettuja geenejä oli 89-410 per kanta (lisätaulukko 3). Mitokondriogenomin (mtDNA) kokoonpanot 14 kannassa tukivat aiemmin julkaistuja sekvenssejä20 , vaikka pieni määrä laadukkaita uusia sekvenssivariantteja AKR/J:ssä, BALB/cJ:ssä, C3H/HeJ:ssä ja LP/J:ssä oli ristiriidassa GenBankin merkintöjen kanssa (lisätaulukko 4). Uusia mtDNA-haplotyyppejä tunnistettiin PWK/PhJ:ssä ja NZO/HlLtJ:ssä. Erityisesti NZO/HlLtJ sisälsi 55 SNP:tä (33 yhteistä luonnonvaraisten kantojen kanssa), ja se vaikuttaa erilaiselta verrattuna muihin klassisiin sisäsiitoskantoihin (täydentävä kuva 1). Aiemmat variaatioluettelot ovat osoittaneet, että NZO/HlLtJ:n ja toisen sisäsiittoisen laboratoriokannan NZB/BlNJ21 välillä on suuri yhtenevyys (>97 % jaettuja SNP:itä).

Arvioimme kantojen kromosomien emästarkkuutta suhteessa kahteen versioon C57BL/6J-referenssigenomista (MGSCv311 ja GRCm382) kohdistamalla ensin kaikki parittaiset sekvensointilukemat kustakin kannasta takaisin vastaaviin genomikokoonpanoihin ja käyttämällä sitten näitä kohdistuksia SNP:iden ja indeleiden tunnistamiseen. Yhdistetty SNP- ja indel-virheiden määrä oli 0,09-0,1 virhettä per kb, kun se MGSCv3:ssa oli 0,334 ja GRCm38:ssa 0,02 (lisätaulukko 5). Seuraavaksi käytimme 612 polymeraasiketjureaktion (PCR) alukeparia, joita oli aiemmin käytetty rakenteellisten varianttihuutojen validointiin kahdeksassa kannassa22. Kokoonpanoissa 4,7-6,7 %:lla alukepareista oli virheellisiä linjauksia, kun taas MGSCv3:ssa niitä oli 10 % (lisätaulukko 6). Lopuksi C57BL/6J:n, CAST/EiJ:n, PWK/PhJ:n ja SPRET/EiJ:n maksasta ja pernasta saatujen PacBio-pitkien lukukertojen komplementaaristen DNA-sekvenssien kohdistaminen osoitti, että GRCm38-vertailugenomissa oli korkein oikein kohdistettujen cDNA-lukujen osuus (99 % ja 98 %), ja kantojen ja MGSCv3:n kohdalla se oli 1-2 % alhaisemman osuuden suuruisia (täydentävä taulukko 7). Tunnettujen hiirten toistoperheiden edustus assemblioissa osoittaa, että lyhyiden toistojen (<200 emäsparia (bp)) osuus oli verrattavissa GRCm38:n vastaavaan (Täydentävät kuvat 2a,b). Pitkien toistojen (>200 bp) kokonaismäärä on yhdenmukainen kaikissa kannoissa; sekvenssien kokonaispituudet ovat kuitenkin johdonmukaisesti lyhyempiä kuin GRCm38:ssa (Täydentävä kuva 2c).

Kantakohtaiset konsensusgeenisarjat tuotettiin käyttäen GENCODE C57BL/6J -annotaatiota ja kantakohtaista RNA-sekvensointia (RNA-Seq) useista kudoksista23 (Täydentävä taulukko 8 ja Täydentävä kuva 3). Konsensusgeenisarjat sisältävät yli 20 000 proteiineja koodaavaa geeniä ja yli 18 000 ei-koodaavaa geeniä (kuva 1a ja lisätaulukko 1). Klassisten laboratoriokantojen osalta 90,2 prosenttia koodaavista transkripteistä (88,0 prosenttia luonnonvaraisista kannoista peräisin olevissa kannoissa) ja 91,2 prosenttia ei-koodaavista transkripteistä (91,4 prosenttia luonnonvaraisista kannoista peräisin olevissa kannoissa), jotka esiintyivät GRCm38-referenssigeenisarjassa, oli vertailukelpoisesti annotoitu. Kantakohtaisesta RNA-Seq:sta (Comparative Augustus24) saadut geeniennusteet lisäsivät keskimäärin 1 400 uutta isoformia luonnonvaraisiin kantoihin ja 1 207 uutta isoformia klassisiin kantojen geenien annotointisarjoihin. PacBio cDNA-sekvensointiin perustuva geeniennuste lisäsi CAST/EiJ:hen, PWK/PhJ:hen ja SPRET/EiJ:hen keskimäärin 1 865 uutta isoformia. Putatiiviset uudet lokukset on määritelty splikoiduiksi geeneiksi, jotka ennustettiin kantakohtaisen RNA-Seqin perusteella ja jotka eivät olleet päällekkäisiä minkään referenssigenomista ennustetun geenin kanssa. Keskimäärin 37 geeniä oli oletettuja uusia lokuksia (täydentävät tiedot 1) luonnonvaraisista kannoista peräisin olevissa kannoissa ja 22 klassisissa kannoissa. Useimmiten nämä näyttäisivät olevan seurausta geenien monistumisesta. Lisäksi automatisoitu pseudogeenien annotointityönkulku, Pseudopipe25, sekä GRCm38-referenssigenomista nostetut manuaalisesti kuratoidut pseudogeenit tunnistivat keskimäärin 11 000 (3317 konservoitunutta kaikkien kantojen välillä) pseudogeeniä kantaa kohden (Supplementary Fig. 4), jotka näyttävät syntyneen joko retrotranspositio- (~80 %) tai geeniduplikaatiotapahtumien (~20 %) tuloksena.

Kuvio 3.3.1. Pseudogeenien annotointi (Pseudopipe25). 1: Genomin annotaatio ja kantakohtaisten haplotyyppien sisältö.

a, Yhteenveto kantakohtaisista geenijoukoista, josta käy ilmi geenien määrä GENCODE-biotyypin mukaan jaoteltuna. b, Heterotsygoottisten SNP:iden (hSNP) tiheys 50 Mb:n alueella kromosomissa 11 200 kb:n ikkunoissa 17 sisäsiittoisen hiirikannan osalta, jotka perustuvat sekvensointilukujen kohdistuksiin C57BL/6J (GRCm38) -referenssigenomiin (ylhäällä). Merkinnät osoittavat geenit, jotka ovat päällekkäin tiheimpien alueiden kanssa. CAST/EiJ:ssä ja WSB/EiJ:ssä visualisoidut SNP:t 71,006-71,170 Mb:n alueella GRCm38:ssa (alhaalla), mukaan lukien Derl2 ja Mis12 (ylempi paneeli) ja Nlrp1b (alempi paneeli). Harmaa osoittaa, että kannan pohja vastaa referenssiä, muut värit osoittavat SNP-eroja ja korkeus vastaa sekvensointisyvyyttä. c, Sekvenssien ja proteiineja koodaavien geenien kokonaismäärä hSNP:ille rikastuneilla alueilla (suhteessa GRCm38:n referenssigenomiin) kantakohtaisesti. d, hSNP:ille rikastuneilla alueilla sijaitsevien koodaavien geenien ylimmät PantherDB-kategoriat proteiiniluokan (vasen puoli) perusteella. Puolustus ja immuniteetti -luokkaan kuuluvien geenien risteys luonnonvaraisten ja klassisten sisäsiitoskantojen osalta (oikealla). e, LTR-, LINE- ja SINE-sekvenssien sekvenssieroavuuden laatikkokuvio (%) hSNP-alueiden sisällä ja ulkopuolella. Sekvenssidiversenssi on suhteutettu transposable elementtityypin konsensussekvenssiin (n = toistojen lukumäärä GRCm38:ssa, *** osoitti P < 0.001 käyttäen Welchin kahden otoksen t-testiä. Laatikkokaaviot osoittavat 25. ja 75. persentiilit sekä mediaaniarvon.

Hiiren genomin alueet, joilla on äärimmäistä alleelivaihtelua

Laboratoriohiirikannoille on ominaista vähintään 20 sukupolven sisäsiittoisuus, ja ne ovat geneettisesti homotsygootteja lähes kaikilla lokuksilla1. Tästä huolimatta aiemmat SNP-variaatioluettelot ovat tunnistaneet korkealaatuisia heterotsygoottisia SNP:tä (hSNP:tä), kun lukemat on kohdistettu C57BL/6J-vertailugenomiin12. Suurempien hSNP-tiheyksien esiintyminen voi viitata kopiolukumuutoksiin tai uusiin geeneihin, joita ei ole referenssikokoonpanossa ja jotka on pakotettu osittain kartoittumaan referenssissä olevaan yhteen lokukseen12,21. Näin ollen niiden tunnistaminen on tehokas väline virheiden löytämiseksi genomikokoonpanoissa. Tunnistimme 116 439 (C57BL/6NJ) ja 1 895 741 (SPRET/EiJ) korkealaatuista hSNP:tä MGP:n variaatioluettelosta v521 (lisätaulukko 9). Keskittämällä analyysimme 5 %:n suurimpiin hSNP-tiheimpiin alueisiin (ikkunat ≥ 71 hSNP:tä 10 kb:n liukuikkunaa kohti) tunnistimme suurimman osan tunnetuista polymorfisista alueista kantojen välillä (Täydentävä kuva 5), ja niiden osuus kaikista hSNP:istä oli ~49 % (Täydentävä taulukko 9 ja Täydentävä kuva 6a). Kun tätä rajausta oli sovellettu kaikkiin kantakohtaisiin hSNP-alueisiin ja kun päällekkäiset tai vierekkäiset ikkunat oli yhdistetty, jäljelle jäi 117 (C57BL/6NJ) – 2567 (SPRET/EiJ) hSNP-aluetta kantaa kohti (lisätaulukko 9), joiden keskikoko oli 18-20 kb (täydentävä kuva 6b). Monet hSNP-klusterit ovat päällekkäisiä immuniteetin (esimerkiksi MHC, NOD:n kaltaiset reseptorit ja AIM:n kaltaiset reseptorit), aistien (esimerkiksi haju- ja makureseptorit), lisääntymisterveyden (esimerkiksi tiineysspesifiset glykoproteiinit ja siittiöihin liittyvät E-rikkaat proteiinit) sekä hermostoon ja käyttäytymiseen liittyvien geenien (esimerkiksi kutinareseptorit26 ja γ-protokadheriinit27 ) kanssa (kuva 1b ja täydentävä kuva 5). Kaikissa luonnonvaraisista kannoista peräisin olevissa hSNP-alueissa geenien ja koodaavien sekvenssien (CDS) emäsparimäärät olivat suurempia kuin missään klassisessa sisäsiitoskannassa (≥503 ja ≥0,36 megatavua (Mb); lisätaulukko 9). C57BL/6J:ssä ja C57BL/6NJ:ssä tunnistetut alueet (117 ja 141, yhteensä 145) leikkaavat tunnettuja GRCm38:n kokoamisongelmia, kuten aukkoja, sijoittamattomia telineitä tai sentromeerisiä alueita (107/145, 73,8 %). Loput ehdokasalueet sisältävät suuria proteiiniperheitä (15/145, 10,3 %) ja toistuvia elementtejä (17/145, 11,7 %) (Supplementary Data 2).

Tarkastelimme hSNP-alueilla esiintyviä proteiiniluokkia yksilöimällä 1109 PantherDB-tapausta, jotka on luokiteltu 26 proteiiniluokkaan yhdistetystä joukosta, joka sisältää kaikki hSNP-tiheillä alueilla olevat geenit (Supplementary Data 3). Puolustus ja immuniteetti oli suurin edustettu proteiiniluokka (155 geeniä, täydentävät tiedot 4), ja sen osuus kaikista proteiiniluokkien osumista oli 13,98 prosenttia (täydentävä taulukko 10). Tämä oli viisinkertainen rikastuminen verrattuna arvioituun koko genomin laajuiseen määrään (kuva 1d). Klassisissa kannoissa tunnistettiin 89 immuunijärjestelmään liittyvää geeniä, joista 84 oli yhteisiä vähintään yhden luonnonvaraisen kannan kanssa (kuva 1d). SPRET/EiJ:llä oli eniten kantakohtaisia geenitapauksia (22 geeniä).

HSNP-alueiden joukossa oli edustettuina monia paralogisia geeniperheitä (Supplementary Data 3), mukaan lukien geenejä, joilla oli toiminnallisia ihmisen ortologeja. Useita merkittäviä esimerkkejä ovat apolipoproteiini L:n alleelit, joiden variantit voivat antaa resistenssin Trypanosoma brucei -bakteeria vastaan, joka on ihmisen uniapnean pääasiallinen aiheuttaja28,29; IFI16 (interferon gamma indusoituva proteiini 16, joka kuuluu AIM2:n kaltaisiin reseptoreihin), DNA-anturi, jota tarvitaan ihmisen immuuniviruksen (HIV) abortti-infektoituneiden lymfaattisten CD4 T-solujen kuolemaan30; NAIP (NLR-perheen apoptoosia estävä proteiini), jonka funktionaalinen kopioluvun vaihtelu liittyy lisääntyneeseen solukuolemaan Legionella pneumophila -infektion yhteydessä31; ja sekretoglobiinit (Scgb:n jäsenet), jotka voivat olla osallisina kasvainten muodostumisessa ja invaasiossa sekä ihmisessä että hiiressä32,33. Lisäksi tunnistettiin suuria geeniperheitä, joista tiedetään vain vähän toiminnallista tietoa. Tunnistettiin noin 50 geenin ryhmä, johon kuuluu hippokalsiinin kaltainen 1 (Hpcal1) ja sen homologit (kromosomi 12: 18-25 Mb). Hpcal1 kuuluu neuronaalisiin kalsiumantureihin, jotka ilmentyvät pääasiassa verkkokalvon valoreseptoreissa, neuroneissa ja neuroendokriinisissä soluissa34. Tämä alue on rikastunut hSNP:illä kaikissa kannoissa paitsi C57BL/6J:ssä ja C57BL/6NJ:ssä. Mielenkiintoista on, että tällä alueella Cpsf3 (21,29 Mb) sijaitsee saarekkeella, joka on hyvin säilynyt kaikissa kannoissa, ja homotsygoottinen C57BL/6NJ:n tyrmäys tuottaa elinkyvyttömiä jälkeläisiä35. Muita esimerkkejä ovat toinen alue kromosomissa 12 (87-88 Mb), joka sisältää noin 20 eukaryoottisen translaation initiaatiotekijä 1A:n (eIF1a) homologia, ja kromosomissa 14 (41-45 Mb), joka sisältää noin 100 Dlg1:n kaltaista geeniä. Kaikkien hSNP-ehdokasalueiden sisällä olevat geenit on tunnistettu ja annotoitu (lisäkuva 5).

Tarkastelimme retrotransposonipitoisuutta GRCm38:n hSNP-tiheillä alueilla verrattuna arvioituun nollajakaumaan (miljoona simulaatiota) ja havaitsimme merkittävän rikastumisen sekä LTR-elementtien (empiirinen P < 1 × 10-7) että pitkien interspersoivien ydinkeskustan elementtien (Long Interspersed Nuclear Elements, LINEs) (empiirinen P < 1 × 10-7) osalta (täydentävät taulukot 11 ja 12). Geenien retrotranspositio on jo pitkään ollut osallisena geeniperheiden monimuotoisuuden luomisessa36 , ja uudet alleelit antavat positiivisesti valikoituneita sopeutumismahdollisuuksia37. Kun transponoituvat elementit on siirretty, niihin kertyy ajan mittaan mutaatioita, kun sekvenssi poikkeaa toisistaan38,39. LTR:ien, LINE:ien ja SINE:ien (short interspersed nuclear elements) osalta keskimääräinen prosentuaalinen sekvenssidiversiteetti oli huomattavasti pienempi (P < 1 × 10-22) hSNP-alueilla verrattuna muuhun genomiin (kuva 1e). Suurin ero keskimääräisessä sekvenssidiversiossa oli hSNP-tiheiden alueiden sisällä ja ulkopuolella olevien LTR:ien välillä. Tarkastellessamme vain toistuvia elementtejä, joiden eroavuus oli alle 1 %, havaitsimme, että nämä alueet ovat merkittävästi rikastuneet LTR:ien (empiirinen P < 1 × 10-7) ja LINE:ien (empiirinen P = 0,047) suhteen.

De novo assembly of complex gene families

Aineistomme selvitti kopiolukuvaihtelua, jota ei ollut aiemmin havaittu hiirten kantagenomissa, ja paljasti geenien laajentumisia, supistumisia ja uudenlaisia alleeleja (<80 %:n sekvenssiidentiteetti). Esimerkiksi tunnistettiin 23 erillistä hajureseptoriklusteria, mikä osoittaa huomattavaa vaihtelua sisäsiitoskantojen välillä. Hiirillä fenotyyppiset erot, erityisesti ruokavaliossa ja käyttäytymisessä, on yhdistetty erilaisiin hajureseptorirepertuaareihin40,41. Tätä varten luonnehdimme CAST/EiJ:n hajureseptorirepertuaaria de novo -kokoonpanon avulla ja tunnistimme 1249 hajureseptorigeeniehdokasta (Supplementary Data 5). Vertailukantaan (C57BL/6J) verrattuna CAST/EiJ on menettänyt 20 hajureseptoria ja saanut 37 geeniperheen jäsentä: 12 uutta ja 25 sellaista, joita tukevat julkaistut ennusteet, jotka perustuvat CAST/EiJ:n koko hajuhermon limakalvolta saatuun sanansaattajien RNA:han (mRNA) (Kuva 2a ja Täydentävä taulukko 13)42.

Kuva 2: Kanta-spesifiset alleelit hajuhermo- ja immuniteettilokusten osalta.

a, Hajureseptorigeenit kromosomissa 11 CAST/EiJ:ssä. Geenien vahvistuminen/menetys ja samankaltaisuus ovat suhteessa C57BL/6J:hen. Uudet jäsenet on nimetty niiden samankaltaisimpien homologien mukaan. b, Geenijärjestys Raet1/H60-lokuksen yli Collaborative Cross -vanhempaiskannoissa (A/J, NOD/ShiLtJ ja 129S1/SvImJ jakavat saman haplotyypin tällä lokuksella, jota edustaa NOD/ShiLtJ). Kannan nimi mustalla/punaisella tarkoittaa Aspergillus fumigatus -resistenttiä/herkkää. Katkoviivalla merkitty vahvistamaton geenijärjestys. c, Nlrp1-geeniperheen uudet proteiineja koodaavat alleelit luonnosta peräisin olevissa kannoissa ja kahdessa klassisessa sisäsiitoskannassa. Värit kuvaavat fylogeneettisiä suhteita (ylhäällä NBD-domeenin aminohapponaapuriliitospuu) ja kantojen suhteellista geenijärjestystä (alhaalla). d, PWK/PhJ:n Nlrp1-lookuksen alueellinen pistekuvio verrattuna C57BL/6J GRCm38-referenssilajiin (värikoodaus sama kuin paneelissa c). Harmaat lohkot osoittavat toistoja ja siirrettäviä elementtejä.

Löysimme uusia geenijäseniä useista tärkeistä immuunilokuksista, jotka säätelevät synnynnäisiä ja adaptiivisia infektiovasteita. Esimerkiksi C57BL/6J:n kromosomi 10 (22,1-22,4 Mb) sisältää Raet1-alleeleja ja pienen histokompatibiliteettiantigeenin H60 jäseniä. Raet1 ja H60 ovat tärkeitä ligandeja NKG2D:lle, joka on luonnollisten tappajasolujen aktivoiva reseptori43. NKG2D-ligandit ilmentyvät infektoituneiden44 ja metastaattisten solujen45 pinnalla, ja ne voivat osallistua allograftin aiheuttamiin autoimmuunivasteisiin46. De-novo-kokoonpanon perusteella kahdeksasta CC-perustajakannasta tunnistettiin kuusi erilaista Raet1/H60-haplotyyppiä; Kolme tunnistetuista haplotyypeistä on yhteisiä klassisten sisäsiittoisten CC-perustajien kesken (A/J, 129S1/SvImJ ja NOD/ShiLtJ ovat samoja haplotyyppejä), ja kolme erilaista Raet1/H60-haplotyyppiä tunnistettiin jokaisessa luonnonvaraisessa sisäsiitoskannassa (CAST/EiJ, PWK/PhJ ja WSB/EiJ) (kuva 2b ja täydentävät kuvat 7 ja 8). CAST/EiJ-haplotyyppi koodaa vain yhtä Raet1-perheen jäsentä (Raet1e) eikä yhtään H60-alleelia, kun taas klassisessa NOD/ShiLtJ-haplotyypissä on neljä H60- ja kolme Raet1-alleelia. Aspergillus-resistentti lokus 4 (Asprl4), yksi useista kvantitatiivisista ominaisuuslokuksista (QTL), jotka välittävät resistenssiä Aspergillus fumigatus -infektiota vastaan, on päällekkäinen tämän lokuksen kanssa, ja se käsittää 1 Mb:n pituisen (~10 % QTL:stä) intervallin, joka muihin klassisiin kantoihin verrattuna sisältää haplotyypin, joka on ominainen vain NZO/SODH/HlLtJ:lle (täydentävä kuva 7). Kanta-spesifiset haplotyyppisyhteydet Asprl4:n ja eloonjäämisen kanssa on raportoitu CAST/EiJ:n ja NZO/HlLtJ:n osalta, joilla molemmilla on resistenssi A. fumigatus -infektiota vastaan47 , ja ne ovat myös ainoat kannat, jotka ovat menettäneet H60-alleeleja tällä lokuksella.

Tarkastelimme kolmea immuniteettiin liittyvää lokusta kromosomissa 11, IRG:tä (GRCm38: 48,85-49,10 Mb), Nlrp1:tä (71,05-71,30 Mb) ja Slfn:tä (82,9-83,3 Mb), koska ne ovat polymorfisesti monimutkaisia ja tärkeitä hiirten selviytymiselle48,49,50. Nlrp1-lokus (NOD-like receptors, pyrin domain-containing) koodaa inflammasomikomponentteja, jotka aistivat endogeenisiä mikrobituotteita ja metabolisia stressitekijöitä ja stimuloivat siten synnynnäisiä immuunivasteet51. Kotihiirellä Nlrp1-alleelit osallistuvat Bacillus anthracis -tappavan toksiinin havaitsemiseen, mikä johtaa inflammasomin aktivoitumiseen ja makrofagien pyroptoosiin52,53. Löysimme seitsemän erilaista Nlrp1-perheen jäsentä vertailemalla kuutta kantaa (CAST/EiJ, PWK/PhJ, WSB/EiJ, SPRET/EiJ, NOD/ShiLtJ ja C57BL/6J). Jokaisella kannalla on ainutlaatuinen Nlrp1-perheen jäsenten haplotyyppi, mikä korostaa tämän lokuksen laajaa sekvenssidiversiteettiä eri sisäsiitoshiirikannoissa (kuva 2c). Kukin kolmesta M. m. domesticus -kannasta (C67BL/6J, NOD/ShiLtJ ja WSB/EiJ) kantaa erilaista yhdistelmää Nlrp1-perheen jäsenistä; Nlrp1d-1f ovat uusia kantakohtaisia alleeleja, joita ei aiemmin tunnettu. Eri Nlrp1-alleelien välinen monimuotoisuus on suurempi kuin hiiren ja rotan alleelien välinen sekvenssiero. Esimerkiksi C57BL/6J-kannassa on Nlrp1c, jota ei ole kahdessa muussa kannassa, kun taas Nlrp1b2 on sekä NOD/ShiLtJ:ssä että WSB/EiJ:ssä mutta ei C57BL/6J:ssä. PWK/PhJ:ssä (M. m. musculus) Nlrp1-lokus on lähes kaksinkertainen GRCm38-referenssigenomiin verrattuna, ja se sisältää uusia Nlrp1-homologeja (kuva 2c), kun taas M. spretuksessa (joka on myös villiä alkuperää) tämä lokus on paljon lyhyempi kuin missään muussa hiirikannassa. Noin 90 % intergeenisistä alueista Nlrp1-lokuksen PWK/PhJ-kokoonpanossa koostuu transponoituvista elementeistä (kuva 2d).

Villistä peräisin olevat PWK/PhJ (M. m. musculus) ja CAST/EiJ (M. m. castaneus) kannoilla on hyvin samankaltaiset haplotyypit; PWK/PhJ-makrofagit ovat kuitenkin vastustuskykyisiä pernaruton tappavan toksiinin aiheuttamalle pyroptoottiselle solukuolemalle, kun taas CAST/EiJ-makrofagit eivät ole54. On ehdotettu, että Nlrp1c voi olla syyllinen perheenjäsen, joka välittää resistenssiä; Nlrp1c voidaan monistaa cDNA:sta, joka on peräisin PWK/PhJ-makrofageista mutta ei CAST/EiJ:stä54. De novo -kokoonpanoissa molemmilla hiirikannoilla on sama Nlrp1c:n promoottorialue; transkriboitaessa Nlrp1c_CAST:n cDNA:ta ei kuitenkaan voitu monistaa aiemmin suunnitelluilla alukkeilla54 alukkeen sitoutumiskohdassa olevien SNP:iden vuoksi (5′…CACT-3′ → 5′…TACC-3′). Alukkeen sitoutumiskohta PWK/PhJ:ssä on sama kuin C57BL/6J:ssä, mutta Nlrp1c on ennustettu pseudogeeni. Löysimme Nlrp1b_CAST:n ja Nlrp1b_PWK:n välillä 18 aminohapon epäsuhdan nukleotideja sitovassa domeenissa (NBD). Nämä poikkeavat profiilit viittaavat siihen, että Nlrp1c ei ole ainoa pernaruttotoksiinin tappavan toksiinin vastustuskyvyn välittäjä hiiressä, vaan useat muut jäsenet voivat olla mukana. Vastikään annotoidut jäsenet Nlrp1b2 ja Nlrp1d näyttävät olevan toiminnallisesti ehjiä CAST/EiJ:ssä, mutta molemmat ennustettiin pseudogeeneiksi PWK/PhJ:ssä stop-kodonien tai frameshift-mutaatioiden vuoksi. C57BL/6J:ssä on raportoitu kolme Nlrp1b:n splikoituvaa isoformia (SV1, SV2 ja SV3)54. PWK/PhJ:n ja C57BL/6J-vertailun välinen pistekuvio havainnollistaa ko-lineaarisuuden häiriintymistä PWK/PhJ:n Nlrp1b2- ja Nlrp1d-alleeleilla (kuva 2d). Kaikki sekvensoimamme luonnonvaraiset kannat sisältävät täyspitkän Nlrp1d:n, ja niissä on samanlainen ko-lineaarisuuden häiriö näissä alleeleissa kuin C57BL/6J:ssä (täydentävät tiedot 6). C57BL/6J:n SV1-isomuoto on peräisin Nlrp1b:n ja Nlrp1d:n typistetyistä esi-isoparalogeista, mikä osoittaa, että Nlrp1d on hävinnyt C57BL/6J-linjasta. Nlrp1-lookuksen genomirakenne PWK/PhJ:ssä, CAST/EiJ:ssä, WSB/EiJ:ssä ja NOD/ShiLtJ:ssä vahvistettiin Fiber-FISH:n avulla (lisäyskuva 9).

Assembliot osoittivat laajamittaista diversiteettiä myös jokaisessa muussa tutkitussa lokuksessa: immuniteettiin liittyvissä GTPaaseissa (IRG) ja Schlafen-perheessä (Slfn). IRG-proteiinit kuuluvat interferoni-indusoituvien GTPaasien alaryhmään, jota esiintyy useimmissa selkärankaisissa55. Hiirillä IRG-proteiiniperheen jäsenet osallistuvat adaptiiviseen immuunijärjestelmään antamalla vastustuskykyä solunsisäisiä patogeenejä, kuten Chlamydia trachomatis, Trypanosoma cruzi ja Toxoplasma gondii vastaan56. De-novo-kokoonpanomme vastaa aiemmin julkaistuja tietoja CAST/EiJ:stä48. Se osoittaa ensimmäistä kertaa WSB/EiJ:ssä, PWK/PhJ:ssä ja SPRET/EiJ:ssä esiintyvien kolmen erittäin poikkeavan haplotyypin järjestyksen, suuntautumisen ja rakenteen, mukaan lukien uudenlaiset merkinnät uudelleenjärjestäytyneistä promoottoreista, lisätyistä prosessoiduista pseudogeeneistä ja suuresta määrästä LINE-toistoja (täydentävät tiedot 6).

Schlafen-geeniperheen (kromosomi 11: 82,9-83,3 Mb) geenit osallistuvat tiettävästi immuunivasteisiin, solujen erilaistumiseen, proliferaatioon ja kasvuun, syövän invaasioon ja kemoterapian resistenssiin. Ihmisillä SLFN11:n on raportoitu estävän HIV-proteiinisynteesiä koodonin käyttöön perustuvalla mekanismilla57 , ja kädellisillä on raportoitu Slfn11-geenin positiivisesta valikoitumisesta58. Hiirillä alkion kuolemaa voi esiintyä sellaisten kantojen välillä, jotka kantavat yhteensopimattomia Slfn-haplotyyppejä59. Slfn:n kokoaminen kolmesta luonnonvaraista alkuperää olevasta CC-perustajakannasta (CAST/EiJ, PWK/PhJ ja WSB/EiJ) osoitti ensimmäistä kertaa laajaa variaatiota tässä lokuksessa. Ryhmän 4 Slfn-geenien50 jäsenet Slfn8, Slfn9 ja Slfn10 osoittavat merkittävää sekvenssidiversiteettiä näiden kantojen välillä. Esimerkiksi Sfln8 on ennustettu pseudogeeni PWK/PhJ:ssä, mutta se on proteiinia koodaava muissa kannoissa; CAST/EiJ:n alleelissa on 78 aminohappovirhettä verrattuna C57BL/6J-vertailukantaan (täydentävä kuva 10). Sekä CAST/EiJ että PWK/PhJ sisältävät toimivia kopioita Sfln10:stä, joka on ennustettu pseudogeeni C57BL/6J:ssä ja WSB/EiJ:ssä. PWK/PhJ:ssä ja WSB/EiJ:ssä tunnistettiin Slfn4:stä ylävirtaan uusi aloituskodoni, joka aiheuttaa 25 aminohapon N-terminaalisen pidennyksen. Toinen referenssissä esiintyvä jäsen, Slfn14, on konservoitunut PWK/PhJ:ssä ja CAST/EiJ:ssä, mutta on pseudogeeni WSB/EiJ:ssä (Täydentävä kuva 10).

Referenssigenomin päivitykset kantakokoonpanojen perusteella

Viittauskokoonpanossa GRCm38 (C57BL/6J) on tällä hetkellä 11 sellaista geeniä, jotka eivät ole täydellisiä sekvenssiaukon vuoksi. Näitä lokuksia verrattiin ensin vastaaviin alueisiin C57BL/6NJ-kokoonpanossa ja niitä käytettiin tunnistamaan kontigeja referenssikannan julkisista kokoonpanoista, jotka oli aiemmin jätetty pois riittämättömän päällekkäisyyden vuoksi. Toiseksi C57BL/6NJ-kokoonpanon kiinnostavien alueiden kanssa samansuuntaiset C57BL/6/6J-lukemat poimittiin kohdennettua kokoonpanoa varten, mikä johti kontigien luomiseen, jotka kattoivat sekvenssit, jotka tällä hetkellä puuttuvat vertailukannasta. Molempien lähestymistapojen tuloksena saatiin valmiiksi kymmenen uutta geenirakennetta (esimerkiksi Täydentävä kuva 11 ja Täydentävät tiedot 7) ja aiemmin puuttuneen Sts-geenin lähes täydellinen sisällyttäminen.

Viiteperimän parannuksia yhdessä yleiskantojen geeniennusteiden kanssa käytettiin päivitysten tekemiseen olemassa olevaan viiteperimän annotaatioon, jota ylläpitää GENCODE-konsortio60. Tarkastelimme kantakohtaisia RNA-Seq (Comparative Augustus) -geeniennusteita, jotka sisälsivät 75 prosenttia uusia introneja verrattuna olemassa olevaan referenssiannotaatioon (taulukko 1) (GENCODE M8, kromosomit 1-12). Tutkituista 785 ennusteesta 62 johti uusien lokusten annotointiin, mukaan lukien 19 proteiinia koodaavaa geeniä ja 6 pseudogeeniä (lisätaulukko 14 ja lisätiedot 8). Useimmissa tapauksissa, joissa uusi lokus ennustettiin referenssigenomissa, havaittiin jo olemassa oleva, mutta usein epätäydellinen annotaatio. Esimerkiksi Nmur1-geenin 5′-päätä pidennettiin ja siitä tehtiin täydellinen sen perusteella, että todisteet tukivat ennustetta, jonka mukaan se splikoitui ylävirran eksoniin, joka sisälsi aiemmin puuttuneen aloituskodonin. Mroh3-geeni, joka alun perin annotoitiin käsittelemättömäksi pseudogeeniksi, päivitettiin proteiinia koodaavaksi geeniksi, koska tunnistettiin uusi introni, joka mahdollisti CDS:n laajentamisen täyteen pituuteen. Aiemmin annotoitu pseudogeenimalli on säilytetty proteiinia koodaavan lokuksen nonsense-mediated decay (NMD) -transkriptina. Uuden bikistronisen lokuksen, Chml_Opn3, alkuperäinen merkintä oli yhden eksonin geeni, Chml, jota laajennettiin ja jonka ensimmäisen eksonin todettiin olevan yhteinen Opn3-geenin kanssa.

Taulukko 1 Genome Reference Consortiumin (GRCm38) ja GENCODE:n annotaatiopäivitykset kantakokoonpanojen perusteella

Havaitsimme kromosomilta 11 uuden 188 eksonisen geenin, joka laajentaa merkittävästi olemassa olevaa, Itgb3:n ja Mettl2:n välissä olevaa Efcab3-geeniä (kuva 3a). Tämä Efcab3:n kaltainen geeni kuratoitiin manuaalisesti, validoitiin HAVANA-ohjeiden61 mukaisesti ja tunnistettiin GENCODE-julkaisuissa M11 alkaen nimellä Gm11639. Efcab3/Efcab13 koodaavat kalsiumia sitovia proteiineja, ja uusi geeni koostuu pääasiassa toistuvista EF-käsi-proteiinidomeeneista (täydentävä kuva 12). Syntenian ja genomin rakenteen analyysi osoitti, että Efcab3-lokus on pitkälti konservoitunut muissa nisäkkäissä, mukaan lukien useimmat kädelliset. Vertaileva geeniennustus tunnisti täyspitkän version oranki-, rhesusmakakki-, puskuri- ja orava-apinassa. Paikassa on kuitenkin katkoskohta simpanssin, gorillan ja ihmisen (Homininae) yhteisessä esi-isässä, joka johtuu ~15 Mb:n suuruisesta intrakromosomaalisesta uudelleenjärjestelystä, joka poisti myös monia sisäisiä EF-käsi-domeenin toistoja (kuva 3b ja täydentävä kuva 13). Genotyyppi-kudos-ekspressiotietojen (GTEx) analyysi62 ihmisillä osoitti, että EFCAB13-lokus ilmentyy monissa kudostyypeissä, ja suurin ilmentyminen mitattiin kiveksissä ja kilpirauhasessa. Sitä vastoin EFCAB3-lokuksen ekspressio on mitattavissa vain matalalla tasolla kiveksissä. Tämä on sopusoinnussa sen kanssa, että EFCAB13-versiosta ylävirtaan on täyspitkän geenin promoottori, mitä tukee H3K4me3-analyysi (täydentävä kuva 14). Hiirillä geeni Efcab3 ilmentyy spesifisesti kehityksen aikana monissa kudoksissa, ja sen ilmentyminen on voimakasta kortikaalilevyn ylemmissä kerroksissa (ks. URL-osoitteet), ja se sijaitsee sekä hiirillä että ihmisillä aivojen rakennemuutoksiin liittyvän genomisen 17q21.31-syntenisen alueen välittömässä läheisyydessä63. Käytimme CRISPR:ää (clustered regularly interspaced short palindromic repeats) luodaksemme Efcab3:n kaltaisia mutanttihiiriä (Efcab3em1(IMPC)Wtsi, ks. menetelmät) ja kirjasimme 188 primaarista fenotyyppistä toimenpidettä (Supplementary Data 9). Mittasimme myös 40 aivoparametria 22 eri aivorakenteesta osana korkean läpimenon neuroanatomista seulaa (lisätaulukot 15 ja 16, ks. menetelmät). Efcab3:n kaltaisilla mutanttihiirillä havaittiin erityisesti aivojen koon poikkeavuuksia verrattuna vastaaviin villityypin kontrolleihin (kuva 3c). Mielenkiintoista oli, että sivukammio oli yksi vakavimmin vaurioituneista aivorakenteista, sillä se oli suurentunut 65 prosenttia (P = 0,007). Myös pontin ytimien koko kasvoi 42 % (P = 0,001) ja pikkuaivojen koko 27 % (P = 0,02); nämä kaksi aluetta osallistuvat motoriseen toimintaan (kuva 3d ja täydentävä kuva 15). Myös talamus oli 19 prosenttia suurempi (P = 0,007). Tämän seurauksena aivojen kokonaispinta-alan parametri suureni 7 % (P = 0,006). Kaiken kaikkiaan nämä tulokset viittaavat Efcab3:n kaltaisen geenin mahdolliseen rooliin aivojen kehityksen ja aivojen koon säätelyssä etuaivoista takaraivoihin.

Kuva 3: Efcab3:n kaltainen paikannus, evoluutiohistoria ja knockout-fenotyypitys.

a, Vertailevassa Augustuksessa tunnistettiin vielä noteeraamaton 188:lla eksonilla varustettu geeni (Efcab3:n kaltainen Geenin kaltainen Geenin kaltainen Geenin kaltainen Geenin kaltainen Geenin kaltainen Geenin kaltainen Geenin kaltainen Geenin kaltainen Geenin kaltainen Geenin kaltaisen Geenin kaltainen Geenin kaltainen Geenin kaltainen Geeni (Efcab3:llainen Geeni). Kahdesta kudoksesta (B = aivot, L = maksa, siniset raidat) ja viidestä kannasta saadut RNA-Seq-liitokset on esitetty. Manuaalinen annotointi laajensi tämän geenin 188 eksoniin (alempi punainen raita). b, Efcab3-like-geenin kehityshistoria selkärankaisilla, mukaan lukien genomin rakenne ja ympäröivät geenit. Kunkin geenin mRNA-rakenne on esitetty valkoisilla viivoilla sinisissä lohkoissa. Tässä tutkimuksessa löydetty uusi koodaava sekvenssi on merkitty keltaisella. Efcab13 ja Efcab3 ovat pätkiä uudesta geenistä Efcab3-like. Homininae-alkuperän yhteisessä esi-isässä tapahtui rekombinaatiotapahtuma, joka häiritsi Efcab3:n kaltaista geeniä gorillassa (G. gorilla) ja ihmisessä (H. sapiens). c, Efcab3:n kaltaisten mutanttien uroshiirten (16 viikon ikäiset, n = 3) 22 aivoalueen kaavamainen esitys sagittaalitasossa P-arvojen mukaan (kaksoissuuntainen t-testaus, vasemmalla). Vastaavat aivoalueet on merkitty numerolla, joka on kuvattu paneelin alla (lisätaulukko 15). Valkoinen väritys tarkoittaa P-arvoa > 0,05 ja harmaa osoittaa, että aivojen aluetta ei voitu testata luotettavasti puuttuvien tietojen vuoksi. Histogrammit, joissa esitetään neuroanatomiset piirteet arvioitujen aivoalueiden prosentuaalisena lisääntymisenä tai vähenemisenä Efcab3:n kaltaisilla mutanttihiirillä verrattuna vastaaviin kontrolleihin (oikealla). d, Vastaavien kontrollien (vasemmalla) ja Efcab3:n kaltaisten mutanttien (oikealla) edustavat sagittaaliset aivokuvat, joissa näkyy isompi pikkuaivo, suurentunut lateraalinen kammio ja kasvanut ponttiniytimien koko (n = 3, ks. lisäyskuva 15).

.

Vastaa

Sähköpostiosoitettasi ei julkaista.