Șaisprezece genomuri de referință diverse de șoareci de laborator definesc haplotipuri specifice tulpinii și noi loci funcționali

Asamblări de secvențe și adnotare a genomului

Ansamblări la scară cromozomială au fost produse pentru 16 tulpini de șoareci de laborator utilizând un amestec de ADN Illumina paired-end (40-70×), perechi mate (3, 6, 10 kilobaze (kb)), fosmidă și secvențe terminale BAC (tabelul suplimentar 1), precum și biblioteci Dovetail Genomics Chicago19. Pseudocromosomii au fost produși în paralel utilizând alinieri de sintenie între specii, ceea ce a dus la asamblări de genomuri cuprinse între 2,254 (WSB/EiJ) și 2,328 gigabaze (Gb) (AKR/J), excluzând bazele necunoscute ale lacunelor. Aproximativ 0,5-2% din lungimea totală a genomului pentru fiecare tulpină nu a fost plasată și este compusă din baze lacunare necunoscute (18-49%) și secvențe repetate (61-79%) (tabelul suplimentar 2), cu între 89 și 410 gene prezise pentru fiecare tulpină (tabelul suplimentar 3). Ansamblurile genomului mitocondrial (mtADN) pentru 14 tulpini au susținut secvențe publicate anterior20, deși un număr mic de noi variante de secvențe de înaltă calitate în AKR/J, BALB/cJ, C3H/HeJ și LP/J au intrat în conflict cu intrările GenBank (tabelul suplimentar 4). Au fost identificate haplotipuri noi de ADNmt la PWK/PhJ și NZO/HlLtJ. În special, NZO/HlLtJ conținea 55 de SNP-uri (33 partajate cu tulpinile provenite din mediul sălbatic) și pare distinctă în comparație cu celelalte tulpini consangvinizate clasice (figura suplimentară 1). Cataloagele anterioare de variații au indicat o concordanță ridicată (>97% SNP-uri comune) între NZO/HlLtJ și o altă tulpină consangvinizată de laborator NZB/BlNJ21.

Am evaluat acuratețea bazei cromozomilor tulpinilor în raport cu două versiuni ale genomului de referință C57BL/6J (MGSCv311 și GRCm382) prin realinierea mai întâi a tuturor citirilor de secvențiere perechi din fiecare tulpină înapoi la ansamblurile genomului lor respectiv, apoi folosind aceste alinieri pentru a identifica SNP-urile și indelurile. Rata combinată a erorilor SNP și indel a fost de 0,09-0,1 erori per kb, în comparație cu 0,334 pentru MGSCv3 și 0,02 pentru GRCm38 (tabelul suplimentar 5). În continuare, am utilizat un set de 612 perechi de amorse de reacție în lanț a polimerazei (PCR) utilizate anterior pentru a valida apelurile de variante structurale în opt tulpini22. Ansamblurile au avut 4,7-6,7 % perechi de amorse care au prezentat alinieri incorecte, comparativ cu 10 % pentru MGSCv3 (tabelul suplimentar 6). În cele din urmă, alinierea secvențelor de ADN complementar cu citire lungă PacBio din ficat și splină de la C57BL/6J, CAST/EiJ, PWK/PhJ și SPRET/EiJ a arătat că genomul de referință GRCm38 a avut cea mai mare proporție de citiri ADNc aliniate corect (99 % și, respectiv, 98 %), iar tulpinile și MGSCv3 au fost cu 1-2 % mai mici (tabelul suplimentar 7). Reprezentarea familiilor de repetări cunoscute de șoareci în ansambluri arată că conținutul de repetări scurte (<200 de perechi de baze (bp)) a fost comparabil cu GRCm38 (Fig. Suplimentară 2a,b). Numărul total de repetări lungi (>200 pb) este consecvent în toate tulpinile; cu toate acestea, lungimile totale ale secvențelor sunt în mod constant mai scurte decât GRCm38 (Fig. Suplimentară 2c).

Seturile de gene consensuale specifice tulpinii au fost produse folosind adnotarea GENCODE C57BL/6J și secvențierea ARN specifică tulpinii (RNA-Seq) din mai multe țesuturi23 (Tabelul suplimentar 8 și Fig. Suplimentară 3). Seturile de gene consensuale conțin peste 20.000 de gene codificatoare de proteine și peste 18.000 de gene necodificatoare (Fig. 1a și Tabelul suplimentar 1). Pentru tulpinile clasice de laborator, 90,2 % din transcriptele codificatoare (88,0 % în cazul tulpinilor provenite din mediul sălbatic) și 91,2 % din transcriptele non-codificatoare (91,4 % în cazul tulpinilor provenite din mediul sălbatic) prezente în setul de gene de referință GRCm38 au fost adnotate comparativ. Predicțiile genetice din RNA-Seq specifice tulpinii (Comparative Augustus24) au adăugat în medie 1 400 de noi izoforme la seturile de adnotare a genelor derivate din mediul sălbatic și 1 207 noi izoforme la seturile de adnotare a genelor din tulpinile clasice. Predicția genică bazată pe secvențierea ADNc PacBio a introdus o medie de 1 865 de noi izoforme suplimentare în CAST/EiJ, PWK/PhJ și SPRET/EiJ. Loci noi puternitivi sunt definiți ca fiind gene îmbinate care au fost prezise din RNA-Seq specific tulpinii și nu s-au suprapus peste nicio genă proiectată din genomul de referință. În medie, 37 de gene au fost loci noi putativi (Date suplimentare 1) în cazul tulpinilor sălbatice și 22 în cazul tulpinilor clasice. Cel mai adesea, acestea par să rezulte din evenimente de duplicare a genelor. În plus, un flux de lucru automatizat de adnotare a pseudogenelor, Pseudopipe25, alături de pseudogene curatoriate manual și preluate din genomul de referință GRCm38, a identificat o medie de 11 000 (3 317 conservate între toate tulpinile) de pseudogene pe tulpină (Fig. Suplimentară 4) care par să fi apărut fie prin retrotranspunere (~80%), fie prin evenimente de duplicare a genelor (~20%).

Fig. 1: Adnotarea genomului și conținutul haplotipurilor specifice tulpinii.

a, Rezumatul seturilor de gene specifice tulpinii care arată numărul de gene defalcate în funcție de biotipul GENCODE. b, Densitatea de SNP heterozigoți (hSNP) pentru un interval de 50 Mb pe cromozomul 11 în ferestre de 200 kb pentru 17 tulpini de șoareci consangvinizați pe baza alinierilor citirilor de secvențiere la genomul de referință C57BL/6J (GRCm38) (sus). Etichetele indică genele care se suprapun peste cele mai dense regiuni. SNPs vizualizate în CAST/EiJ și WSB/EiJ pentru 71,006-71,170 Mb pe GRCm38 (jos), inclusiv Derl2 și Mis12 (panoul de sus) și Nlrp1b (panoul de jos). Culoarea gri indică faptul că baza tulpinii este în concordanță cu cea de referință, celelalte culori indică diferențele SNP, iar înălțimea corespunde adâncimii de secvențiere. c, Cantitatea totală de secvențe și de gene codificatoare de proteine în regiunile îmbogățite pentru hSNP (în raport cu genomul de referință GRCm38) per tulpină. d, Topul categoriilor PantherDB de gene codificatoare în regiunile îmbogățite pentru hSNP pe baza clasei de proteine (stânga). Intersecția genelor din categoria apărare și imunitate pentru tulpinile de origine sălbatică și tulpinile consangvinizate clasice (dreapta). e, Box plot de divergență a secvențelor (%)pentru LTR, LINE și SINE în interiorul și în afara regiunilor hSNP. Divergența secvenței este relativă la o secvență consensuală pentru tipul de element transpozabil (n = numărul de repetări în GRCm38, *** a indicat P < 0,001 utilizând testul t cu două eșantioane al lui Welch. Diagramele de cutie indică percentilele 25 și 75, precum și valoarea mediană.

Regii ale genomului șoricelului cu variație alelică extremă

Sânii de șoareci de laborator consangvinizați sunt caracterizați de cel puțin 20 de generații de consangvinizare și sunt homozigoți din punct de vedere genetic la aproape toți loci1. În ciuda acestui fapt, cataloagele anterioare de variație SNP au identificat SNP heterozigoți de înaltă calitate (hSNP) atunci când citirile au fost aliniate la genomul de referință C57BL/6J12. Prezența unor densități mai mari de hSNP poate indica modificări ale numărului de copii sau gene noi care nu sunt prezente în ansamblul de referință, forțate să se mapeze parțial la un singur locus din referință12,21. Astfel, identificarea lor este un instrument puternic pentru a găsi erori în ansamblurile de genomuri. Am identificat între 116 439 (C57BL/6NJ) și 1 895 741 (SPRET/EiJ) hSNP de înaltă calitate din catalogul de variații MGP v521 (Tabelul suplimentar 9). Concentrarea analizei noastre asupra primelor 5% cele mai dense regiuni hSNP (ferestre ≥ 71 hSNP pe fereastra glisantă de 10 kb) a identificat majoritatea regiunilor polimorfe cunoscute în rândul tulpinilor (Fig. Suplimentară 5) și a reprezentat ~49% din toate hSNP-urile (Tabelul Suplimentar 9 și Fig. Suplimentară 6a). După aplicarea acestui cut-off la toate regiunile hSNP specifice tulpinii și fuzionarea ferestrelor suprapuse sau adiacente, au rămas între 117 (C57BL/6NJ) și 2 567 (SPRET/EiJ) regiuni hSNP per tulpină (tabelul suplimentar 9), cu o dimensiune medie de 18-20 kb (figura suplimentară 6b). Multe clustere hSNP se suprapun peste imunitate (de exemplu, MHC, receptori de tip NOD și receptori de tip AIM), senzoriale (de exemplu, receptori olfactivi și gustativi), reproductive (de exemplu, glicoproteine specifice sarcinii și proteine bogate în E asociate spermei) și gene legate de imunitate neuronală și comportament (de exemplu, receptori de prurit26 și γ-protocadherine27) (Fig. 1b și Fig. Suplimentară 5). Toate regiunile hSNP ale tulpinilor de origine sălbatică conțineau un număr de perechi de baze de gene și de secvențe codificatoare (CDS) mai mare decât orice tulpină consangvinizată clasică (≥503 și, respectiv, ≥0,36 megabaze (Mb); tabelul suplimentar 9). Regiunile identificate în C57BL/6J și C57BL/6NJ (117 și, respectiv, 141; 145 combinate) intersectează probleme cunoscute de asamblare a GRCm38, inclusiv lacune, scheletuiri neplasate sau regiuni centromerice (107/145, 73,8 %). Regiunile candidate rămase includ familii mari de proteine (15/145, 10,3%) și elemente repetate (17/145, 11,7%) (Date suplimentare 2).

Am examinat clasele de proteine prezente în regiunile hSNP prin identificarea a 1.109 corespondențe PantherDB, atribuite la 26 de clase de proteine dintr-un set combinat al tuturor genelor din regiunile dense hSNP (Date suplimentare 3). Apărarea și imunitatea a fost cea mai mare clasă de proteine reprezentată (155 de gene, Date suplimentare 4), reprezentând 13,98% din toate potrivirile de clase de proteine (Tabelul suplimentar 10). Aceasta a fost o îmbogățire de cinci ori mai mare în comparație cu o rată estimată la nivelul întregului genom (Fig. 1d). În special, 89 de gene legate de imunitate au fost identificate în tulpinile clasice, dintre care 84 au fost împărtășite cu cel puțin una dintre tulpinile derivate din mediul sălbatic (Fig. 1d). SPRET/EiJ a contribuit cu cel mai mare număr de identificări de gene specifice tulpinii (22 de gene).

Multe familii de gene paraloge au fost reprezentate printre regiunile hSNP (Date suplimentare 3), inclusiv gene cu ortologi umani funcționali. Câteva exemple proeminente includ alelele apolipoproteinei L, ale căror variante pot conferi rezistență la Trypanosoma brucei, cauza principală a bolii somnului la om28,29; IFI16 (interferon gamma inducible protein 16, un membru al receptorilor de tip AIM2), un senzor ADN necesar pentru moartea celulelor T CD4 limfoide infectate abortiv cu imunovirus uman (HIV)30; NAIP (proteina inhibitoare de apoptoză din familia NLR), în cazul căreia variația numărului de copii funcționale este legată de creșterea morții celulare în cazul infecției cu Legionella pneumophila31; și secretoglobinele (membri Scgb), care pot fi implicate în formarea și invazia tumorilor atât la om, cât și la șoarece32,33. Au fost identificate, de asemenea, familii mari de gene în care se cunosc puține informații funcționale. A fost identificat un grup de aproximativ 50 de gene, care include hippocalcin-like 1 (Hpcal1) și omologii săi (cromozomul 12: 18-25 Mb). Hpcal1 aparține senzorilor neuronali de calciu exprimați în principal în fotoreceptorii retinieni, neuroni și celule neuroendocrine34. Această regiune este îmbogățită pentru hSNP în toate tulpinile, cu excepția C57BL/6J și C57BL/6NJ. Este interesant faptul că, în cadrul acestei regiuni, Cpsf3 (21,29 Mb) este situat pe o insulă de conservare ridicată în toate tulpinile, iar un knock-out homozigot C57BL/6NJ produce descendenți subviabili35. Alte exemple includ o altă regiune de pe cromozomul 12 (87-88 Mb) care conține aproximativ 20 de omologi ai factorului 1A de inițiere a traducerii eucariote (eIF1a) și pe cromozomul 14 (41-45 Mb) care conține aproximativ 100 de gene asemănătoare Dlg1. Genele din cadrul tuturor regiunilor candidate hSNP au fost identificate și adnotate (figura suplimentară 5).

Am examinat conținutul de retrotranspozoni în regiunile dense hSNP pe GRCm38 în comparație cu o distribuție nulă estimată (un milion de simulări) și am constatat o îmbogățire semnificativă atât a LTR-urilor (P empiric < 1 × 10-7), cât și a elementelor nucleare lungi intercalate (LINE) (P empiric < 1 × 10-7) (tabelele suplimentare 11 și 12). Retrotranspunerea genelor a fost implicată de mult timp în crearea diversității familiilor de gene36, alele noi care conferă adaptări selectate pozitiv37. Odată transpuse, elementele transpozabile acumulează mutații în timp, pe măsură ce secvența diverge38,39. Pentru LTR-uri, LINE-uri și elemente nucleare intercalate scurte (SINE-uri), procentul mediu de divergență a secvenței a fost semnificativ mai mic (P < 1 × 10-22) în cadrul regiunilor hSNP în comparație cu restul genomului (Fig. 1e). Cea mai mare diferență în ceea ce privește divergența medie a secvenței a fost între LTR-urile din interiorul și din afara regiunilor dense hSNP. Examinând doar elementele de repetiție cu o divergență mai mică de 1%, am constatat că aceste regiuni sunt semnificativ îmbogățite pentru LTR-uri (P empiric < 1 × 10-7) și LINE-uri (P empiric = 0,047).

Asamblarea de novo a familiilor complexe de gene

Datele noastre au elucidat variația numărului de copii necunoscută anterior în genomurile tulpinilor de șoareci și au descoperit expansiuni și contracții de gene și alele noi (<80% identitate de secvență). De exemplu, au fost identificate 23 de clustere distincte de receptori olfactivi, indicând o variație substanțială între tulpinile consangvinizate. La șoareci, diferențele fenotipice, în special în ceea ce privește dieta și comportamentul, au fost legate de repertorii distincte de receptori olfactivi40,41. În acest scop, am caracterizat repertoriul de receptori olfactivi CAST/EiJ cu ajutorul ansamblului nostru de novo și am identificat 1.249 de gene candidate de receptori olfactivi (Date suplimentare 5). În raport cu tulpina de referință (C57BL/6J), CAST/EiJ a pierdut 20 de receptori olfactivi și a câștigat 37 de membri ai familiei de gene: 12 noi și 25 susținute de predicțiile publicate pe baza ARN-ului mesager (ARNm) derivat din întreaga mucoasă olfactivă CAST/EiJ (Fig. 2a și Tabelul suplimentar 13)42.

Fig. 2: Alele specifice tulpinii pentru loci olfactivi și de imunitate.

a, Genele receptorilor olfactivi de pe cromozomul 11 al CAST/EiJ. Câștigul/pierderea de gene și similitudinea sunt raportate la C57BL/6J. Membrii noi sunt numiți după omologii lor cei mai asemănători. b, Ordinea genelor de-a lungul locusului Raet1/H60 în tulpinile parentale Collaborative Cross (A/J, NOD/ShiLtJ și 129S1/SvImJ împărtășesc același haplotip la acest locus, reprezentat de NOD/ShiLtJ). Numele tulpinii în negru/roșu indică Aspergillus fumigatus rezistent/susceptibil. Caseta punctată indică ordinea neconfirmată a genelor. c, Alele noi care codifică proteine din familia de gene Nlrp1 în tulpinile derivate din mediul sălbatic și în două tulpini consangvinizate clasice. Culorile reprezintă relațiile filogenetice (sus, arborele de îmbinare a vecinilor de aminoacizi din domeniul NBD) și ordinea relativă a genelor între tulpini (jos). d, O diagramă regională cu puncte a locusului Nlrp1 în PWK/PhJ în comparație cu referința C57BL/6J GRCm38 (cu același cod de culori ca și panoul c). Blocurile gri indică repetări și elemente transpozabile.

Am descoperit noi membri de gene la mai mulți loci imunitari importanți care reglează răspunsurile înnăscute și adaptative la infecții. De exemplu, cromozomul 10 (22,1-22,4 Mb) pe C57BL/6J conține alele Raet1 și membri ai antigenului minor de histocompatibilitate H60. Raet1 și H60 sunt liganzi importanți pentru NKG2D, un receptor de activare a celulelor natural killer43. Liganzii NKG2D sunt exprimați pe suprafața celulelor infectate44 și metastatice45 și pot participa la răspunsurile autoimune la alogrefe46. În urma asamblării de novo, au fost identificate șase haplotipuri Raet1/H60 diferite în rândul celor opt tulpini fondatoare CC; trei dintre haplotipurile identificate sunt împărtășite între fondatorii CC consangvinizați clasici (A/J, 129S1/SvImJ și NOD/ShiLtJ au același haplotip) și trei haplotipuri Raet1/H60 diferite au fost identificate în fiecare dintre tulpinile consangvinizate derivate din sălbăticie (CAST/EiJ, PWK/PhJ și WSB/EiJ) (Fig. 2b și figurile suplimentare 7 și 8). Haplotipul CAST/EiJ codifică doar un singur membru al familiei Raet1 (Raet1e) și nicio alelă H60, în timp ce haplotipul clasic NOD/ShiLtJ are patru alele H60 și trei alele Raet1. Locusul 4 de rezistență la Aspergillus (Asprl4), unul dintre mai mulți loci de trăsături cantitative (QTL) care mediază rezistența la infecția cu Aspergillus fumigatus, se suprapune peste acest locus și cuprinde un interval de 1 Mb (~10% din QTL) care, în comparație cu alte tulpini clasice, conține un haplotip unic la NZO/HlLtJ (figura suplimentară 7). Asocieri haplotipice specifice tulpinii cu Asprl4 și supraviețuirea au fost raportate pentru CAST/EiJ și NZO/HlLtJ, care prezintă rezistență la infecția cu A. fumigatus47 și sunt, de asemenea, singurele tulpini care au pierdut alelele H60 la acest locus.

Am examinat trei loci legați de imunitate de pe cromozomul 11, IRG (GRCm38: 48,85-49,10 Mb), Nlrp1 (71,05-71,30 Mb) și Slfn (82,9-83,3 Mb) din cauza complexității lor polimorfice și a importanței pentru supraviețuirea șoarecilor48,49,50. Locusul Nlrp1 (NOD-like receptors, pyrin domain-containing) codifică componentele inflammasomului care detectează produsele microbiene endogene și stresurile metabolice, stimulând astfel răspunsurile imune înnăscute51. La șoarecele de casă, alelele Nlrp1 sunt implicate în detectarea toxinei letale a Bacillus anthracis, ceea ce duce la activarea inflammasomului și la piroptoza macrofagelor52,53. Am descoperit șapte membri distincți ai familiei Nlrp1 prin compararea a șase tulpini (CAST/EiJ, PWK/PhJ, WSB/EiJ, SPRET/EiJ, NOD/ShiLtJ și C57BL/6J). Fiecare tulpină are un haplotip unic al membrilor Nlrp1, evidențiind diversitatea extinsă a secvenței la acest locus între tulpinile de șoareci consangvinizați (Fig. 2c). Fiecare dintre cele trei tulpini de M. m. domesticus (C67BL/6J, NOD/ShiLtJ și WSB/EiJ) poartă o combinație diferită de membri ai familiei Nlrp1; Nlrp1d-1f sunt noi alele specifice tulpinii care erau necunoscute anterior. Diversitatea dintre diferitele alele Nlrp1 este mai mare decât divergența de secvență dintre alelele de șoarece și șobolan. De exemplu, C57BL/6J conține Nlrp1c, care nu este prezentă în celelalte două tulpini, în timp ce Nlrp1b2 este prezentă atât la NOD/ShiLtJ, cât și la WSB/EiJ, dar nu și la C57BL/6J. La PWK/PhJ (M. m. musculus), locusul Nlrp1 are o dimensiune aproape dublă față de genomul de referință GRCm38 și conține noi omologi Nlrp1 (Fig. 2c), în timp ce la M. spretus (de asemenea, de origine sălbatică) acest locus este mult mai scurt decât în orice altă tulpină de șoarece. Aproximativ 90% din regiunile intergenice din ansamblul PWK/PhJ al locusului Nlrp1 este compus din elemente transpozabile (Fig. 2d).

Locusul PWK/PhJ (M. m. musculus) și CAST/EiJ (M. m. musculus) și CAST/EiJ (M. m. castaneus) au în comun haplotipuri foarte asemănătoare; cu toate acestea, macrofagele PWK/PhJ sunt rezistente la moartea celulară piroptotică indusă de toxina letală a antraxului, în timp ce macrofagele CAST/EiJ nu sunt54. S-a sugerat că Nlrp1c ar putea fi membrul cauzal al familiei care mediază rezistența; Nlrp1c poate fi amplificat din ADNc din macrofage PWK/PhJ, dar nu și din CAST/EiJ54. În asamblările de novo, ambele tulpini de șoareci au în comun aceeași regiune promotoare pentru Nlrp1c; cu toate acestea, atunci când a fost transcris, ADNc din Nlrp1c_CAST nu a putut fi amplificat cu amorsă concepută anterior54 din cauza SNP-urilor de la locul de legare a amorsă (5′…CACT-3′ → 5′…TACC-3′). Locul de legare a amorselor la PWK/PhJ este același cu cel de la C57BL/6J, însă Nlrp1c este o pseudogena prezisă. Am găsit o nepotrivire de 18 aminoacizi în domeniul de legare a nucleotidelor (NBD) între Nlrp1b_CAST și Nlrp1b_PWK. Aceste profiluri divergente sugerează că Nlrp1c nu este singurul mediator al rezistenței la toxina letală a antraxului la șoarece, ci este posibil ca mai mulți alți membri să fie implicați. Membrii nou adnotați Nlrp1b2 și Nlrp1d par a fi intacți din punct de vedere funcțional în CAST/EiJ, dar amândoi au fost prezise ca pseudogene în PWK/PhJ din cauza prezenței codonilor de oprire sau a mutațiilor frameshift. La C57BL/6J, au fost raportate trei izoforme de splicing ale Nlrp1b (SV1, SV2 și SV3)54. O diagramă cu puncte între PWK/PhJ și referința C57BL/6J ilustrează întreruperea co-liniarității la nivelul alelelor PWK/PhJ Nlrp1b2 și Nlrp1d (Fig. 2d). Toate tulpinile derivate din sălbăticie pe care le-am secvențiat conțin Nlrp1d de lungime completă și prezintă o întrerupere similară a co-liniarității la aceste alele în raport cu C57BL/6J (Date suplimentare 6). Izoforma SV1 din C57BL/6J este derivată din paralogi ancestrali trunchiați ai Nlrp1b și Nlrp1d, ceea ce indică faptul că Nlrp1d a fost pierdut în descendența C57BL/6J. Structura genomică a locusului Nlrp1 în PWK/PhJ, CAST/EiJ, WSB/EiJ și NOD/ShiLtJ a fost confirmată cu ajutorul Fiber-FISH (Fig. suplimentară 9).

Asamblările au arătat, de asemenea, o diversitate extinsă la fiecare dintre ceilalți loci examinați: GTPaze legate de imunitate (IRGs) și familia Schlafen (Slfn). Proteinele IRG aparțin unei subfamilii de GTPaze inductibile de interferon prezente la majoritatea vertebratelor55. La șoarece, membrii familiei de proteine IRG contribuie la sistemul imunitar adaptativ prin conferirea de rezistență împotriva agenților patogeni intracelulari, cum ar fi Chlamydia trachomatis, Trypanosoma cruzi și Toxoplasma gondii56. Ansamblul nostru de novo este în concordanță cu datele publicate anterior pentru CAST/EiJ48. Pentru prima dată, acesta arată ordinea, orientarea și structura a trei haplotipuri foarte divergente prezente în WSB/EiJ, PWK/PhJ și SPRET/EiJ, inclusiv o nouă adnotare a promotorilor rearanjate, a pseudogenelor procesate inserate și a unei frecvențe ridicate de repetări LINE (Date suplimentare 6).

Familia de gene Schlafen (cromozomul 11: 82,9-83,3 Mb) se pare că este implicată în răspunsurile imune, diferențierea celulară, proliferarea și creșterea, invazia cancerului și rezistența la chimioterapie. La om, s-a raportat că SLFN11 inhibă sinteza proteinelor HIV printr-un mecanism bazat pe utilizarea codonului57 , iar la primatele neumane a fost raportată o selecție pozitivă asupra genei Slfn1158. La șoarece, moartea embrionară poate apărea între tulpinile purtătoare de haplotipuri Slfn incompatibile59. Adunarea Slfn pentru cele trei tulpini fondatoare CC de origine sălbatică (CAST/EiJ, PWK/PhJ și WSB/EiJ) a arătat, pentru prima dată, o variație extinsă la acest locus. Membrii grupului 4 de gene Slfn50 , Slfn8, Slfn9 și Slfn10, prezintă o diversitate semnificativă a secvențelor între aceste tulpini. De exemplu, Sflnn8 este o pseudogena prezisă în PWK/PhJ, dar este codificatoare de proteine în celelalte tulpini; alela CAST/EiJ conține 78 de neconcordanțe de aminoacizi în comparație cu referința C57BL/6J (Fig. suplimentară 10). Atât CAST/EiJ, cât și PWK/PhJ conțin copii funcționale ale lui Sfln10, care este o pseudogena prezisă în C57BL/6J și WSB/EiJ. În PWK/PhJ și WSB/EiJ a fost identificat un nou codon de start în amonte de Slfn4, care determină o extensie N-terminală de 25 de aminoacizi. Un alt membru prezent în referință, Slfn14, este conservat în PWK/PhJ și CAST/EiJ, dar este o pseudogena în WSB/EiJ (Fig. Suplimentară 10).

Actualizări ale genomului de referință informate de ansamblurile de tulpini

În prezent, există 11 gene în ansamblul de referință GRCm38 (C57BL/6J) care sunt incomplete din cauza unei lacune în secvență. În primul rând, acești loci au fost comparați cu regiunile respective din ansamblul C57BL/6NJ și au fost utilizați pentru a identifica contigii din ansamblurile publice ale tulpinii de referință omise anterior din cauza suprapunerii insuficiente. În al doilea rând, citirile C57BL/6J aliniate la regiunile de interes din ansamblul C57BL/6NJ au fost extrase pentru asamblarea selectivă, ceea ce a dus la generarea de contig-uri care acoperă secvențe care lipseau în prezent din referință. Ambele abordări au dus la finalizarea a zece noi structuri genetice (de exemplu, figura suplimentară 11 și datele suplimentare 7) și la includerea aproape completă a genei Sts, care lipsea anterior.

Ambunătățirile aduse genomului de referință, împreună cu predicțiile genetice pentru toate tulpinile, au fost utilizate pentru a furniza actualizări ale adnotării genomului de referință existent, menținute de consorțiul GENCODE60. Am examinat predicțiile genei RNA-Seq specifice tulpinii (Comparative Augustus) care conțin 75 % introni noi în comparație cu adnotarea de referință existentă (tabelul 1) (GENCODE M8, cromozomii 1-12). Din cele 785 de predicții investigate, 62 au dus la adnotarea de noi loci, inclusiv 19 gene codificatoare de proteine și 6 pseudogene (tabelul suplimentar 14 și datele suplimentare 8). În majoritatea cazurilor în care a fost prezis un nou locus pe genomul de referință, am identificat o adnotare preexistentă, dar adesea incompletă. De exemplu, gena Nmur1 a fost extinsă la capătul său 5′ și a fost completată pe baza dovezilor care susțin o predicție care a fost îmbinată la un exon din amonte care conținea codonul de început care lipsea anterior. Gena Mroh3, care a fost inițial adnotată ca pseudogena neprocesată, a fost actualizată ca genă codificatoare de proteine datorită identificării unui nou intron care a permis extinderea CDS pe toată lungimea. Modelul pseudogenei adnotate anterior a fost păstrat ca un transcript NMD (nonsense-mediated decay) al locusului codificator de proteine. La noul locus bicistronic, Chml_Opn3, adnotarea inițială a fost o genă cu un singur exon, Chml, care a fost extinsă și s-a constatat că are primul exon comun cu gena Opn3.

Tabelul 1 Actualizări ale adnotărilor Genome Reference Consortium (GRCm38) și GENCODE informate de ansamblurile de tulpini

Am descoperit o nouă genă de 188 de exoni pe cromozomul 11 care extinde semnificativ gena existentă Efcab3 care se întinde între Itgb3 și Mettl2 (Fig. 3a). Această genă asemănătoare cu Efcab3 a fost curatoriată manual, validată în conformitate cu orientările HAVANA61 și identificată în versiunile GENCODE începând cu M11 ca Gm11639. Efcab3/Efcab13 codifică proteine de legare a calciului, iar noua genă constă în principal în domenii repetate ale proteinei EF-hand (Fig. suplimentară 12). Analiza sinteniei și a structurii genomului a arătat că locusul Efcab3 este în mare măsură conservat la alte mamifere, inclusiv la majoritatea primatelor. Predicția comparativă a genelor a identificat versiunea de lungime completă la urangutan, macacul rhesus, bushbaby și maimuța veveriță. Cu toate acestea, locusul conține un punct de întrerupere la strămoșul comun al cimpanzeului, gorilei și omului (Homininae) din cauza unei rearanjări intracromosomale de ~15 Mb care a eliminat, de asemenea, multe dintre repetările interne ale domeniului de mână EF (Fig. 3b și Fig. Suplimentară 13). Analiza datelor de genotip-expresie a țesuturilor (GTEx)62 la om a arătat că locusul EFCAB13 este exprimat în multe tipuri de țesuturi, cu cea mai mare expresie măsurată în testicule și în tiroidă. În schimb, locusul EFCAB3 are o expresie măsurabilă la un nivel scăzut doar în testicule. Acest lucru este în concordanță cu faptul că promotorul genei de lungime completă este prezent în amonte de versiunea EFCAB13, ceea ce este susținut de analiza H3K4me3 (Fig. suplimentară 14). La șoareci, gena Efcab3 este exprimată în mod specific în timpul dezvoltării în numeroase țesuturi, cu o expresie ridicată în straturile superioare ale plăcii corticale (a se vedea URL-urile) și este localizată în imediata vecinătate a regiunii genomice 17q21.31 sintenice legate de modificările structurale ale creierului atât la șoareci, cât și la oameni63. Am utilizat CRISPR (clustered regularly interspaced short palindromic repeats) pentru a crea șoareci mutanți asemănători lui Efcab3 (Efcab3em1(IMPC)Wtsi, a se vedea Metode) și am înregistrat 188 de măsuri fenotipice primare (Date suplimentare 9). De asemenea, am măsurat parametrii cerebrali 40 în 22 structuri cerebrale distincte ca parte a unui screening neuro-anatomic de mare randament (Tabelele suplimentare 15 și 16, a se vedea Metode). În mod notabil, au fost identificate anomalii ale dimensiunii creierului la șoarecii mutanți Efcab3-like în comparație cu controalele de tip sălbatic potrivite (Fig. 3c). Interesant, ventriculul lateral a fost una dintre cele mai grav afectate structuri cerebrale, prezentând o mărire de 65% (P = 0,007). Nucleii pontini au fost, de asemenea, crescuți în dimensiune cu 42% (P = 0,001) și cerebelul cu 27% (P = 0,02); aceste două regiuni sunt implicate în activitatea motorie (Fig. 3d și Fig. Suplimentară 15). Talamusul a fost, de asemenea, mai mare cu 19% (P = 0,007). Ca urmare, parametrul zonei totale a creierului a fost mărit cu 7% (P = 0,006). Luate împreună, aceste rezultate sugerează un rol potențial al genei Efcab3-like în reglarea dezvoltării creierului și a dimensiunii creierului de la creierul anterior până la creierul posterior.

Fig. 3: Locusul Efcab3-like, istoria evoluției și fenotiparea knockout.

a, Augustus Comparative a identificat o genă neanunțată de 188 de exoni (Efcab3-like, urme roșii). Sunt afișate splicingurile RNA-Seq din două țesuturi (B = creier, L = ficat, urme albastre) și cinci tulpini. Adnotarea manuală a extins această genă la 188 de exoni (pista roșie inferioară). b, Istoria evolutivă a Efcab3-like la vertebrate, inclusiv structura genomului și genele din jur. Structura ARNm a fiecărei gene este prezentată cu linii albe pe blocurile albastre. Noua secvență codificatoare descoperită în acest studiu este indicată cu galben. În special, Efcab13 și Efcab3 sunt fragmente ale genei noi Efcab3-like. Un eveniment de recombinare a avut loc în strămoșul comun al subfamiliei Homininae, care a întrerupt Efcab3-like în gorilă (G. gorilla) și om (H. sapiens). c, Reprezentare schematică a 22 de regiuni ale creierului reprezentate în plan sagital pentru șoarecii masculi mutanți Efcab3-like (16 săptămâni de vârstă, n = 3) în funcție de valorile P (test t cu varianță egală cu două cozi, stânga). Regiunile cerebrale corespunzătoare sunt etichetate cu un număr care este descris sub panou (Tabelul suplimentar 15). Culoarea albă indică o valoare P > 0,05, iar cea gri indică faptul că regiunea creierului nu a putut fi testată cu încredere din cauza datelor lipsă. Histograme care arată caracteristicile neuroanatomice ca procent de creștere sau scădere a regiunilor cerebrale evaluate la șoarecii mutanți Efcab3-like în comparație cu martorii compatibili (dreapta). d, Imagini sagitale reprezentative ale creierului ale martorilor compatibili (stânga) și ale mutanților Efcab3-like (dreapta), care arată un cerebel mai mare, un ventricul lateral mărit și o dimensiune crescută a nucleilor pontini (n = 3, a se vedea Fig. Suplimentară 15).

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.