Assemblaggi di sequenze e annotazione del genoma
Sono stati prodotti assemblaggi su scala cromosomica per 16 ceppi di topi da laboratorio utilizzando una miscela di Illumina paired-end (40-70×), mate-pair (3, 6, 10 kilobasi (kb)), fosmid, e BAC end sequenze (Tabella 1 supplementare), e Dovetail Genomics Chicago librerie19. Pseudocromosomi sono stati prodotti in parallelo utilizzando cross-specie allineamenti synteny con conseguente genoma assemblee di tra 2.254 (WSB/EiJ) e 2.328 gigabases (Gb) (AKR / J) escluse le basi gap sconosciuto. Circa lo 0,5-2% della lunghezza totale del genoma per ceppo non è stato posizionato ed è composto da basi di gap sconosciute (18-49%) e sequenze ripetute (61-79%) (Tabella supplementare 2), con tra 89 e 410 geni previsti per ceppo (Tabella supplementare 3). Genoma mitocondriale (mtDNA) assemblee per 14 ceppi supportato precedentemente pubblicato sequenze 20, anche se un piccolo numero di alta qualità nuove varianti di sequenza in AKR / J, BALB / cJ, C3H / HeJ, e LP / J in conflitto con GenBank voci (Tabella supplementare 4). Sono stati identificati nuovi aplotipi mtDNA in PWK/PhJ e NZO/HlLtJ. In particolare, NZO/HlLtJ conteneva 55 SNPs (33 condivisi con i ceppi selvatici) e appare distinto rispetto agli altri ceppi classici inbred (Fig. 1 supplementare). Precedenti cataloghi di variazioni hanno indicato un’alta concordanza (>97% SNPs condivisi) tra NZO/HlLtJ e un altro ceppo inbred di laboratorio NZB/BlNJ21.
Abbiamo valutato l’accuratezza della base dei cromosomi del ceppo rispetto a due versioni del genoma di riferimento C57BL/6J (MGSCv311 e GRCm382) riallineando prima tutte le letture di sequenziamento a coppie di ciascun ceppo ai rispettivi assemblaggi del genoma, quindi utilizzando questi allineamenti per identificare SNPs e indel. Il tasso di errore combinato di SNP e indel era di 0,09-0,1 errori per kb, rispetto a 0,334 per MGSCv3 e 0,02 per GRCm38 (Tabella supplementare 5). Successivamente, abbiamo usato un set di 612 coppie di primer per la reazione a catena della polimerasi (PCR) precedentemente utilizzate per convalidare le chiamate di varianti strutturali in otto ceppi22. Gli assemblaggi avevano 4,7-6,7% coppie di primer che mostrano allineamenti errati rispetto al 10% per MGSCv3 (Tabella supplementare 6). Infine, l’allineamento di PacBio long-read sequenze di DNA complementare da fegato e milza di C57BL/6J, CAST/EiJ, PWK/PhJ, e SPRET/EiJ ha mostrato che il genoma di riferimento GRCm38 aveva la più alta percentuale di letture cDNA correttamente allineati (99% e 98%, rispettivamente) e i ceppi e MGSCv3 erano 1-2% inferiore (Tabella supplementare 7). La rappresentazione delle famiglie di ripetizioni note del topo negli assemblaggi mostra che il contenuto di ripetizioni brevi (<200 paia di basi (bp)) era comparabile a GRCm38 (Fig. 2a,b supplementare). Il numero totale di ripetizioni lunghe (>200 bp) è coerente in tutti i ceppi; tuttavia, la lunghezza totale della sequenza è costantemente più corta di GRCm38 (Fig. 2c).
I set di geni di consenso specifici del ceppo sono stati prodotti utilizzando l’annotazione GENCODE C57BL/6J e il sequenziamento RNA specifico del ceppo (RNA-Seq) da più tessuti23 (Tabella 8 supplementare e Fig. 3 supplementare). I set di geni di consenso contengono oltre 20.000 geni codificanti le proteine e oltre 18.000 geni non codificanti (Fig. 1a e Tabella 1 supplementare). Per i ceppi di laboratorio classici, il 90,2% dei trascritti codificanti (88,0% nei ceppi selvatici) e il 91,2% dei trascritti non codificanti (91,4% nei ceppi selvatici) presenti nel set di geni di riferimento GRCm38 sono stati annotati comparativamente. Le predizioni dei geni da RNA-Seq specifico del ceppo (Comparative Augustus24) hanno aggiunto una media di 1.400 nuove isoforme ai ceppi derivati selvatici e 1.207 nuove isoforme ai set di annotazioni geniche del ceppo classico. La predizione genica basata sul sequenziamento del cDNA PacBio ha introdotto una media di 1.865 nuove isoforme in CAST/EiJ, PWK/PhJ e SPRET/EiJ. I nuovi loci putativi sono definiti come geni spliced che sono stati predetti dal RNA-Seq specifico del ceppo e non si sono sovrapposti a nessun gene proiettato dal genoma di riferimento. In media, 37 geni erano nuovi loci putativi (dati supplementari 1) nei ceppi selvatici e 22 nei ceppi classici. Il più delle volte questi sembrano derivare da eventi di duplicazione genica. Inoltre, un flusso di lavoro automatizzato di annotazione degli pseudogeni, Pseudopipe25, insieme a pseudogeni curati manualmente presi dal genoma di riferimento GRCm38, ha identificato una media di 11.000 (3.317 conservati tra tutti i ceppi) pseudogeni per ceppo (Fig. 4 supplementare) che sembrano essere sorti attraverso la retrotrasposizione (~80%) o eventi di duplicazione genica (~20%).
Regioni del genoma del topo con estrema variazione allelica
I ceppi di topi da laboratorio allevati sono caratterizzati da almeno 20 generazioni di inbreeding e sono geneticamente omozigoti in quasi tutti i loci1. Nonostante questo, precedenti cataloghi di variazione SNP hanno identificato SNP eterozigoti di alta qualità (hSNPs) quando leggi sono stati allineati al genoma di riferimento C57BL/6J12. La presenza di densità più elevate di hSNPs può indicare cambiamenti di numero di copia, o nuovi geni che non sono presenti nell’assembly di riferimento, costretti a mappa parzialmente a un singolo locus nel riferimento12,21. Così, la loro identificazione è un potente strumento per trovare gli errori negli assemblaggi del genoma. Abbiamo identificato tra 116.439 (C57BL/6NJ) e 1.895.741 (SPRET/EiJ) hSNPs di alta qualità dal catalogo MGP variazione v521 (Tabella 9 supplementare). Concentrando la nostra analisi sul top 5% più hSNP-dense regioni (finestre ≥ 71 hSNPs per 10 kb finestra scorrevole) identificato la maggior parte delle regioni polimorfiche conosciute tra i ceppi (Supplementary Fig. 5) e rappresentato ~ 49% di tutti hSNPs (Tabella supplementare 9 e Supplementary Fig. 6a). Dopo aver applicato questo cut-off a tutte le regioni hSNP specifiche del ceppo e fondendo finestre sovrapposte o adiacenti, tra 117 (C57BL/6NJ) e 2.567 (SPRET/EiJ) regioni hSNP rimasto per ceppo (Tabella supplementare 9), con una dimensione media di 18-20 kb (Fig. 6b supplementare). Molti cluster hSNP si sovrappongono immunità (per esempio, MHC, NOD-come i recettori, e AIM-come i recettori), sensoriale (per esempio, recettori olfattivi e gusto), riproduttivo (per esempio, gravidanza-specifiche glicoproteine e spermatozoi associati E-ricche proteine), e neuronale e geni legati al comportamento (per esempio, recettori prurito26 e γ-protocaderine27) (Fig. 1b e Fig. supplementare 5). Tutte le regioni hSNP del ceppo selvatico contenevano un numero di paia di basi di geni e di sequenze codificanti (CDS) superiore a qualsiasi ceppo inbred classico (≥503 e ≥0,36 megabasi (Mb), rispettivamente; Tabella supplementare 9). Le regioni identificate in C57BL/6J e C57BL/6NJ (117 e 141, rispettivamente; 145 combinati) intersecano problemi di assemblaggio noti di GRCm38 tra cui lacune, scaffold non posizionati o regioni centromeriche (107/145, 73,8%). Le restanti regioni candidate includono grandi famiglie di proteine (15/145, 10,3%) ed elementi ripetuti (17/145, 11,7%) (Dati supplementari 2).
Abbiamo esaminato le classi di proteine presenti nelle regioni hSNP identificando 1.109 corrispondenze PantherDB, assegnate a 26 classi di proteine da un insieme combinato di tutti i geni nelle regioni dense hSNP (Dati supplementari 3). Difesa e immunità è stata la più grande classe proteica rappresentata (155 geni, dati supplementari 4), che rappresenta il 13,98% di tutti i successi della classe proteica (tabella supplementare 10). Questo è stato un arricchimento di cinque volte rispetto al tasso stimato a livello di genoma (Fig. 1d). In particolare, 89 geni legati al sistema immunitario sono stati identificati nei ceppi classici, 84 dei quali sono stati condivisi con almeno uno dei ceppi selvatici-derivati (Fig. 1d). SPRET/EiJ contribuito il maggior numero di ceppo-specifici geni colpisce (22 geni).
Molte famiglie di geni paraloghi sono stati rappresentati tra le regioni hSNP (dati supplementari 3), compresi i geni con funzionali ortologhi umani. Diversi esempi importanti includono gli alleli dell’apolipoproteina L, le cui varianti possono conferire resistenza al Trypanosoma brucei, la causa principale della malattia del sonno umana28,29; IFI16 (proteina 16 inducibile dall’interferone gamma, un membro dei recettori AIM2-like), un sensore del DNA necessario per la morte delle cellule T CD4 linfoidi infettate abortivamente con l’immunovirus umano (HIV)30 ; NAIP (proteina inibitoria dell’apoptosi della famiglia NLR) in cui la variazione funzionale del numero di copie è legata all’aumento della morte cellulare durante l’infezione da Legionella pneumophila31; e le secretoglobine (membri di Scgb), che possono essere coinvolte nella formazione e nell’invasione dei tumori sia nell’uomo che nel topo32,33. Sono state identificate anche grandi famiglie di geni in cui sono note poche informazioni funzionali. È stato identificato un cluster di circa 50 geni, che comprende l’ippocalcina-like 1 (Hpcal1) e i suoi omologhi (cromosoma 12: 18-25 Mb). Hpcal1 appartiene ai sensori di calcio neuronali espressi principalmente in fotorecettori retinici, neuroni e cellule neuroendocrine34. Questa regione è arricchita per hSNPs in tutti i ceppi tranne C57BL/6J e C57BL/6NJ. È interessante notare che all’interno di questa regione, Cpsf3 (21,29 Mb) si trova su un’isola di alta conservazione in tutti i ceppi e un knockout omozigote C57BL/6NJ produce una prole non vitale35. Altri esempi includono un’altra regione sul cromosoma 12 (87-88 Mb) contenente circa 20 omologhi del fattore di iniziazione della traduzione eucariotica 1A (eIF1a) e sul cromosoma 14 (41-45 Mb) contenente circa 100 geni Dlg1-like. I geni all’interno di tutte le regioni candidate hSNP sono stati identificati e annotati (Fig. 5 supplementare).
Abbiamo esaminato il contenuto di retrotrasposoni nelle regioni dense hSNP su GRCm38 rispetto a una distribuzione nulla stimata (un milione di simulazioni) e trovato un arricchimento significativo sia di LTR (P empirico < 1 × 10-7) che di elementi nucleari lunghi interspersi (LINE) (P empirico < 1 × 10-7) (Tabelle supplementari 11 e 12). La retrotrasposizione dei geni è stata a lungo implicata nella creazione della diversità delle famiglie di geni36, nuovi alleli che conferiscono adattamenti positivamente selezionati37. Una volta trasposti, gli elementi trasponibili accumulano mutazioni nel tempo man mano che la sequenza diverge38,39. Per LTRs, LINEs e brevi elementi nucleari interspersi (SINEs), la percentuale media di divergenza di sequenza era significativamente inferiore (P < 1 × 10-22) all’interno delle regioni hSNP rispetto al resto del genoma (Fig. 1e). La più grande differenza nella divergenza di sequenza media era tra LTR all’interno e all’esterno delle regioni dense di hSNP. Esaminando solo gli elementi di ripetizione con meno dell’1% di divergenza, abbiamo trovato queste regioni sono significativamente arricchite per LTR (P empirica < 1 × 10-7) e LINEs (P empirica = 0.047).
De novo assembly di famiglie di geni complessi
I nostri dati hanno chiarito la variazione del numero di copie precedentemente sconosciuto nei genomi di ceppi di topo e scoperto espansioni geniche, contrazioni e alleli nuovi (<80% identità di sequenza). Per esempio, sono stati identificati 23 cluster distinti di recettori olfattivi, indicando una variazione sostanziale tra ceppi consanguinei. Nel topo, le differenze fenotipiche, in particolare nella dieta e nel comportamento, sono state collegate a distinti repertori di recettori olfattivi40,41. A tal fine, abbiamo caratterizzato il repertorio dei recettori olfattivi CAST/EiJ utilizzando il nostro assemblaggio de novo e identificato 1.249 geni recettore olfattivo candidato (dati supplementari 5). Rispetto al ceppo di riferimento (C57BL/6J), CAST/EiJ ha perso 20 recettori olfattivi e guadagnato 37 membri della famiglia di geni: 12 nuovo e 25 supportato da previsioni pubblicate sulla base di RNA messaggero (mRNA) derivato da CAST/EiJ intera mucosa olfattiva (Fig. 2a e Tabella supplementare 13)42.
Abbiamo scoperto nuovi membri del gene a diversi importanti loci immunitari che regolano le risposte innate e adattative alle infezioni. Per esempio, il cromosoma 10 (22.1-22.4 Mb) su C57BL/6J contiene alleli Raet1 e membri dell’antigene minore di istocompatibilità H60. Raet1 e H60 sono importanti ligandi per NKG2D, un recettore attivante delle cellule natural killer43. I ligandi NKG2D sono espressi sulla superficie di cellule infette44 e metastatiche45 e possono partecipare alle risposte autoimmuni dei trapianti46. Dall’assemblaggio de novo, sono stati identificati sei diversi aplotipi Raet1/H60 tra gli otto ceppi fondatori CC; tre degli aplotipi identificati sono condivisi tra i fondatori CC inbred classici (A/J, 129S1/SvImJ e NOD/ShiLtJ hanno lo stesso aplotipo) e tre diversi aplotipi Raet1/H60 sono stati identificati in ciascuno dei ceppi inbred di origine selvatica (CAST/EiJ, PWK/PhJ e WSB/EiJ) (Fig. 2b e Figure supplementari 7 e 8). L’aplotipo CAST/EiJ codifica solo un singolo membro della famiglia Raet1 (Raet1e) e nessun allele H60, mentre il classico aplotipo NOD/ShiLtJ ha quattro alleli H60 e tre alleli Raet1. Il locus Aspergillus-resistente 4 (Asprl4), uno dei numerosi loci di tratto quantitativo (QTL) che mediano la resistenza contro l’infezione da Aspergillus fumigatus, si sovrappone a questo locus e comprende un intervallo di 1 Mb (~10% del QTL) che, rispetto ad altri ceppi classici, contiene un aplotipo unico per NZO/HlLtJ (Fig. 7 supplementare). Le associazioni di aplotipi specifici del ceppo con Asprl4 e la sopravvivenza sono state riportate per CAST/EiJ e NZO/HlLtJ, entrambi i quali mostrano resistenza all’infezione da A. fumigatus47 e sono anche gli unici ceppi ad aver perso gli alleli H60 in questo locus.
Abbiamo esaminato tre loci legati all’immunità sul cromosoma 11, IRG (GRCm38: 48,85-49,10 Mb), Nlrp1 (71,05-71,30 Mb) e Slfn (82,9-83,3 Mb) a causa della loro complessità polimorfica e dell’importanza per la sopravvivenza dei topi48,49,50. Il locus Nlrp1 (NOD-like receptors, pyrin domain-containing) codifica i componenti dell’inflammasoma che percepiscono i prodotti microbici endogeni e gli stress metabolici, stimolando così le risposte immunitarie innate51. Nel topo domestico, gli alleli Nlrp1 sono coinvolti nel rilevamento della tossina letale del Bacillus anthracis, portando all’attivazione dell’inflammasoma e alla piroptosi dei macrofagi52,53. Abbiamo scoperto sette distinti membri della famiglia Nlrp1 confrontando sei ceppi (CAST/EiJ, PWK/PhJ, WSB/EiJ, SPRET/EiJ, NOD/ShiLtJ e C57BL/6J). Ogni ceppo ha un aplotipo unico di membri Nlrp1, evidenziando l’ampia diversità di sequenza in questo locus attraverso i ceppi di topo inbred (Fig. 2c). Ognuno dei tre ceppi M. m. domesticus (C67BL/6J, NOD/ShiLtJ, e WSB/EiJ) porta una diversa combinazione di membri della famiglia Nlrp1; Nlrp1d-1f sono nuovi alleli ceppo-specifici che erano precedentemente sconosciuti. La diversità tra i diversi alleli Nlrp1 è superiore alla divergenza di sequenza tra gli alleli del topo e del ratto. Per esempio, C57BL/6J contiene Nlrp1c, che non è presente negli altri due ceppi, mentre Nlrp1b2 è presente sia in NOD/ShiLtJ che WSB/EiJ ma non in C57BL/6J. In PWK/PhJ (M. m. musculus), il locus Nlrp1 è quasi doppio rispetto al genoma di riferimento GRCm38 e contiene nuovi omologhi di Nlrp1 (Fig. 2c), mentre in M. spretus (anch’esso wild-derived) questo locus è molto più corto che in qualsiasi altro ceppo di topo. Circa il 90% delle regioni intergeniche nel gruppo PWK/PhJ del locus Nlrp1 è composto da elementi trasponibili (Fig. 2d).
I ceppi PWK/PhJ (M. m. musculus) e CAST/EiJ (M. m. castaneus) ceppi condividono aplotipi altamente simili, tuttavia, i macrofagi PWK/PhJ sono resistenti alla morte cellulare pirotica indotta dalla tossina letale antrace mentre i macrofagi CAST/EiJ non lo sono54. È stato suggerito che Nlrp1c può essere il membro della famiglia causale che media la resistenza; Nlrp1c può essere amplificato da cDNA da macrofagi PWK/PhJ ma non CAST/EiJ54. Negli assemblaggi de novo, entrambi i ceppi di topo condividono la stessa regione promotore per Nlrp1c; tuttavia, quando trascritto, il cDNA di Nlrp1c_CAST non poteva essere amplificato con primer precedentemente progettati54 a causa di SNPs al sito di legame del primer (5′…CACT-3′ → 5′…TACC-3′). Il sito di legame del primer in PWK/PhJ è lo stesso di quello in C57BL/6J, tuttavia Nlrp1c è uno pseudogene predetto. Abbiamo trovato un mismatch di 18 aminoacidi nel dominio di legame al nucleotide (NBD) tra Nlrp1b_CAST e Nlrp1b_PWK. Questi profili divergenti suggeriscono che Nlrp1c non è l’unico mediatore della resistenza alla tossina letale del carbonchio nel topo, ma diversi altri membri possono essere coinvolti. I nuovi membri annotati Nlrp1b2 e Nlrp1d appaiono funzionalmente intatti in CAST/EiJ ma sono stati entrambi predetti come pseudogeni in PWK/PhJ a causa della presenza di codoni di stop o mutazioni frameshift. In C57BL/6J, sono state riportate tre isoforme di splicing di Nlrp1b (SV1, SV2 e SV3)54. Un dot-plot tra PWK/PhJ e il riferimento C57BL/6J illustra l’interruzione della co-linearità al PWK/PhJ Nlrp1b2 e Nlrp1d alleli (Fig. 2d). Tutti i ceppi selvatici che abbiamo sequenziato contengono Nlrp1d a lunghezza intera e mostrano una simile interruzione della co-linearità a questi alleli rispetto a C57BL/6J (dati supplementari 6). L’isoforma SV1 in C57BL/6J deriva da paraloghi ancestrali troncati di Nlrp1b e Nlrp1d, indicando che Nlrp1d è stato perso nella stirpe C57BL/6J. La struttura del genoma del locus Nlrp1 in PWK/PhJ, CAST/EiJ, WSB/EiJ, e NOD/ShiLtJ è stata confermata usando Fiber-FISH (Fig. 9 supplementare).
Gli assemblaggi hanno anche mostrato un’ampia diversità in ciascuno degli altri loci esaminati: GTPasi legate all’immunità (IRGs) e famiglia Schlafen (Slfn). Le proteine IRG appartengono a una sottofamiglia di GTPasi inducibili all’interferone presenti nella maggior parte dei vertebrati55. Nel topo, i membri della famiglia di proteine IRG contribuiscono al sistema immunitario adattativo conferendo resistenza contro patogeni intracellulari come Chlamydia trachomatis, Trypanosoma cruzi e Toxoplasma gondii56. Il nostro assemblaggio de novo è concordante con i dati precedentemente pubblicati per CAST/EiJ48. Per la prima volta, mostra l’ordine, l’orientamento e la struttura di tre aplotipi altamente divergenti presenti in WSB/EiJ, PWK/PhJ, e SPRET/EiJ, tra cui annotazione romanzo di promotori riarrangiati, inserito pseudogeni elaborati, e una frequenza elevata di ripetizioni LINE (dati supplementari 6).
La famiglia di geni Schlafen (cromosoma 11: 82.9-83.3 Mb) è coinvolta nelle risposte immunitarie, nella differenziazione cellulare, nella proliferazione e crescita, nell’invasione del cancro e nella resistenza alla chemioterapia. Negli esseri umani, è stato riportato che SLFN11 inibisce la sintesi proteica dell’HIV tramite un meccanismo basato sul codone57 e nei primati non umani è stata riportata una selezione positiva sul gene Slfn1158. Nel topo, la morte embrionale può verificarsi tra ceppi che portano aplotipi Slfn incompatibili59. L’assemblaggio di Slfn per i tre ceppi fondatori CC di origine selvatica (CAST/EiJ, PWK/PhJ e WSB/EiJ) ha mostrato, per la prima volta, un’ampia variazione in questo locus. I membri del gruppo 4 dei geni Slfn50, Slfn8, Slfn9 e Slfn10, mostrano una significativa diversità di sequenza tra questi ceppi. Per esempio, Sfln8 è uno pseudogene predetto in PWK/PhJ ma è codificante la proteina negli altri ceppi; l’allele CAST/EiJ contiene 78 mismatch di aminoacidi rispetto al riferimento C57BL/6J (Fig. 10 supplementare). Sia CAST/EiJ che PWK/PhJ contengono copie funzionali di Sfln10, che è uno pseudogene previsto in C57BL/6J e WSB/EiJ. Un nuovo codone di inizio a monte di Slfn4, che causa un’estensione N-terminale di 25 aminoacidi, è stato identificato in PWK/PhJ e WSB/EiJ. Un altro membro presente nel riferimento, Slfn14, è conservato in PWK/PhJ e CAST/EiJ ma è uno pseudogene in WSB/EiJ (Fig. 10 supplementare).
Aggiornamenti del genoma di riferimento informati dagli assemblaggi dei ceppi
Ci sono attualmente 11 geni nell’assembly di riferimento GRCm38 (C57BL/6J) che sono incompleti a causa di una lacuna nella sequenza. In primo luogo, questi loci sono stati confrontati con le rispettive regioni nell’assemblaggio C57BL/6NJ e utilizzati per identificare i contigs dagli assemblaggi pubblici del ceppo di riferimento precedentemente omessi a causa di una sovrapposizione insufficiente. In secondo luogo, le letture C57BL/6J allineate alle regioni di interesse nell’assemblaggio C57BL/6NJ sono state estratte per l’assemblaggio mirato, portando alla generazione di contigs che coprono sequenze attualmente mancanti dal riferimento. Entrambi gli approcci hanno portato al completamento di dieci nuove strutture geniche (ad esempio, Fig. 11 supplementare e dati supplementari 7) e l’inclusione quasi completa del gene Sts che era precedentemente mancante.
I miglioramenti al genoma di riferimento, accoppiato con pan-strain gene previsioni, sono stati utilizzati per fornire aggiornamenti per l’annotazione genoma di riferimento esistente, mantenuto dal consorzio GENCODE60. Abbiamo esaminato il ceppo-specifico RNA-Seq (Comparative Augustus) gene previsioni contenenti 75% introni romanzo rispetto all’annotazione di riferimento esistente (Tabella 1) (GENCODE M8, cromosomi 1-12). Delle 785 previsioni studiate, 62 hanno portato all’annotazione di nuovi loci, compresi 19 geni codificanti proteine e 6 pseudogeni (Tabella supplementare 14 e Dati supplementari 8). Nella maggior parte dei casi in cui un nuovo locus è stato previsto sul genoma di riferimento, abbiamo identificato l’annotazione preesistente, ma spesso incompleta. Per esempio, il gene Nmur1 è stato esteso alla sua estremità 5′ e reso completo sulla base di prove a sostegno di una previsione che spliced a un esone a monte contenente il codone di inizio precedentemente mancante. Il gene Mroh3, che è stato originariamente annotato come uno pseudogene non elaborato, è stato aggiornato a un gene codificante la proteina a causa dell’identificazione di un nuovo introne che ha permesso l’estensione del CDS a piena lunghezza. Il modello di pseudogene precedentemente annotato è stato mantenuto come trascrizione nonsense-mediated decay (NMD) del locus codificante le proteine. Al nuovo locus bicistronico, Chml_Opn3, l’annotazione originale era un gene a esone singolo, Chml, che è stato esteso e che condivide il suo primo esone con il gene Opn3.
Abbiamo scoperto un nuovo gene di 188 esoni sul cromosoma 11 che estende significativamente il gene esistente Efcab3 tra Itgb3 e Mettl2 (Fig. 3a). Questo gene simile a Efcab3 è stato curato manualmente, convalidato secondo le linee guida HAVANA61 e identificato in GENCODE versioni M11 in poi come Gm11639. Efcab3/Efcab13 codificano proteine leganti il calcio e il nuovo gene consiste principalmente in domini ripetuti di proteine EF-hand (Fig. 12 supplementare). L’analisi della sintenia e della struttura del genoma ha mostrato che il locus Efcab3 è ampiamente conservato in altri mammiferi, compresa la maggior parte dei primati. La predizione genica comparativa ha identificato la versione completa in orangutan, macaco rhesus, bushbaby e scimmia scoiattolo. Tuttavia, il locus contiene un punto di rottura all’antenato comune di scimpanzé, gorilla e uomo (Homininae) a causa di un riarrangiamento intracromosomico di ~ 15 Mb che ha anche eliminato molte delle ripetizioni interne del dominio EF-hand (Fig. 3b e Fig. 13 supplementare). L’analisi dei dati GTEx (Genotype-Tissue Expression)62 negli esseri umani ha mostrato che il locus EFCAB13 è espresso in molti tipi di tessuto, con la massima espressione misurata nei testicoli e nella tiroide. Al contrario, il locus EFCAB3 ha solo un basso livello di espressione misurabile nel testicolo. Questo è coerente con il promotore del gene completo presente a monte della versione EFCAB13, che è supportato da analisi H3K4me3 (Fig. 14 supplementare). Nei topi, il gene Efcab3 è specificamente espresso durante lo sviluppo in molti tessuti con alta espressione negli strati superiori della piastra corticale (vedi URL) e si trova nelle immediate vicinanze della regione genomica 17q21.31 syntenic legato a cambiamenti strutturali del cervello sia nei topi e gli esseri umani63. Abbiamo usato CRISPR (clustered regolarmente interspaced short palindromic repeats) per creare Efcab3-come topi mutanti (Efcab3em1(IMPC)Wtsi, vedi Metodi) e registrato 188 misure fenotipiche primarie (dati supplementari 9). Abbiamo anche misurato 40 parametri del cervello attraverso 22 strutture cerebrali distinte come parte di un high-throughput neuro-anatomica schermo (tabelle supplementari 15 e 16, vedi metodi). In particolare, anomalie dimensioni del cervello sono stati identificati in Efcab3-come topi mutanti rispetto ai controlli corrispondenti wild-type (Fig. 3c). È interessante notare che il ventricolo laterale era una delle strutture cerebrali più gravemente colpite che mostra un allargamento del 65% (P = 0,007). I nuclei pontini erano anche aumentati di dimensioni del 42% (P = 0,001) e il cervelletto del 27% (P = 0,02); queste due regioni sono coinvolte nell’attività motoria (Fig. 3d e Fig. 15 supplementare). Il talamo era anche più grande del 19% (P = 0.007). Come risultato, il parametro di area totale del cervello è stato ampliato del 7% (P = 0.006). Presi insieme, questi risultati suggeriscono un ruolo potenziale del gene Efcab3-like per regolare lo sviluppo del cervello e le dimensioni del cervello dal prosencefalo al cervelletto.