Assemblages de séquences et annotation du génome
Des assemblages à l’échelle du chromosome ont été produits pour 16 souches de souris de laboratoire en utilisant un mélange de séquences Illumina paired-end (40-70×), mate-pairs (3, 6, 10 kilobases (kb)), de séquences terminales fosmid et BAC (tableau supplémentaire 1), et de bibliothèques Dovetail Genomics Chicago19. Les pseudochromosomes ont été produits en parallèle à l’aide d’alignements de synténie entre espèces, ce qui a permis d’obtenir des assemblages de génomes d’une taille comprise entre 2,254 (WSB/EiJ) et 2,328 gigabases (Gb) (AKR/J), à l’exclusion des bases inconnues. Environ 0,5 à 2 % de la longueur totale du génome par souche n’était pas placée et se compose de bases inconnues (18 à 49 %) et de séquences répétées (61 à 79 %) (tableau supplémentaire 2), avec entre 89 et 410 gènes prédits par souche (tableau supplémentaire 3). Les assemblages du génome mitochondrial (ADNmt) pour 14 souches ont confirmé les séquences publiées précédemment20, bien qu’un petit nombre de nouvelles variantes de séquence de haute qualité chez AKR/J, BALB/cJ, C3H/HeJ et LP/J soient en conflit avec les entrées de la GenBank (tableau supplémentaire 4). De nouveaux haplotypes d’ADNmt ont été identifiés chez PWK/PhJ et NZO/HlLtJ. Notamment, NZO/HlLtJ contenait 55 SNP (33 partagés avec les souches sauvages) et semble distinct par rapport aux autres souches consanguines classiques (Fig. 1 supplémentaire). Des catalogues de variation précédents ont indiqué une concordance élevée (>97% de SNP partagés) entre NZO/HlLtJ et une autre souche consanguine de laboratoire NZB/BlNJ21.
Nous avons évalué la précision de base des chromosomes de la souche par rapport à deux versions du génome de référence C57BL/6J (MGSCv311 et GRCm382) en réalignant d’abord toutes les lectures de séquençage en paires de chaque souche sur leurs assemblages de génome respectifs, puis en utilisant ces alignements pour identifier les SNP et les indels. Le taux d’erreur combiné des SNP et des indels était de 0,09-0,1 erreur par kb, contre 0,334 pour la MGSCv3 et 0,02 pour la GRCm38 (tableau supplémentaire 5). Ensuite, nous avons utilisé un ensemble de 612 paires d’amorces de réaction en chaîne par polymérase (PCR) précédemment utilisées pour valider les appels de variants structurels dans huit souches22. Les assemblages présentaient 4,7 à 6,7 % de paires d’amorces présentant des alignements incorrects, contre 10 % pour MGSCv3 (tableau supplémentaire 6). Enfin, l’alignement des séquences d’ADN complémentaire à lecture longue de PacBio provenant du foie et de la rate de C57BL/6J, CAST/EiJ, PWK/PhJ et SPRET/EiJ a montré que le génome de référence GRCm38 présentait la plus forte proportion de lectures d’ADNc correctement alignées (99 % et 98 %, respectivement) et que les souches et MGSCv3 présentaient une proportion inférieure de 1 à 2 % (tableau supplémentaire 7). La représentation des familles de répétitions connues de souris dans les assemblages montre que le contenu en répétitions courtes (<200 paires de bases (bp)) était comparable à celui de la GRCm38 (figures supplémentaires 2a,b). Le nombre total de répétitions longues (>200 pb) est cohérent dans toutes les souches ; cependant, les longueurs de séquence totales sont systématiquement plus courtes que celles de GRCm38 (figure supplémentaire 2c).
Des ensembles de gènes consensus spécifiques aux souches ont été produits à l’aide de l’annotation GENCODE C57BL/6J et du séquençage de l’ARN spécifique à la souche (RNA-Seq) à partir de plusieurs tissus23 (tableau supplémentaire 8 et figure supplémentaire 3). Les ensembles de gènes consensus contiennent plus de 20 000 gènes codant pour des protéines et plus de 18 000 gènes non codants (figure 1a et tableau supplémentaire 1). Pour les souches de laboratoire classiques, 90,2 % des transcrits codants (88,0 % pour les souches sauvages) et 91,2 % des transcrits non codants (91,4 % pour les souches sauvages) présents dans l’ensemble de gènes de référence GRCm38 ont été annotés de manière comparative. Les prédictions de gènes à partir de l’ARN-Seq spécifique aux souches (Comparative Augustus24) ont ajouté en moyenne 1 400 nouvelles isoformes aux ensembles d’annotation de gènes de souches sauvages et 1 207 nouvelles isoformes aux ensembles d’annotation de gènes de souches classiques. La prédiction de gènes basée sur le séquençage d’ADNc PacBio a introduit en moyenne 1 865 nouvelles isoformes supplémentaires dans les souches CAST/EiJ, PWK/PhJ et SPRET/EiJ. Les nouveaux loci putatifs sont définis comme des gènes épissés qui ont été prédits à partir du RNA-Seq spécifique à la souche et qui ne chevauchaient aucun gène projeté à partir du génome de référence. En moyenne, 37 gènes étaient des loci nouveaux putatifs (données supplémentaires 1) dans les souches sauvages et 22 dans les souches classiques. Le plus souvent, ces loci semblent résulter d’événements de duplication de gènes. En outre, un flux de travail automatisé d’annotation de pseudogènes, Pseudopipe25, à côté de pseudogènes manuellement curatés soulevés à partir du génome de référence GRCm38, a identifié une moyenne de 11 000 (3 317 conservés entre toutes les souches) pseudogènes par souche (figure supplémentaire 4) qui semblent être apparus soit par rétrotransposition (~80%), soit par des événements de duplication de gènes (~20%).
Régions du génome de la souris avec une variation allélique extrême
Les souches de souris de laboratoire consanguines sont caractérisées par au moins 20 générations de consanguinité et sont génétiquement homozygotes à presque tous les loci1. Malgré cela, les catalogues de variation SNP précédents ont identifié des SNP hétérozygotes (hSNP) de haute qualité lorsque les lectures ont été alignées sur le génome de référence C57BL/6J12. La présence de densités plus élevées de hSNP peut indiquer des modifications du nombre de copies, ou de nouveaux gènes qui ne sont pas présents dans l’assemblage de référence, contraints de cartographier partiellement à un locus unique dans la référence12,21. Ainsi, leur identification est un outil puissant pour trouver des erreurs dans les assemblages de génomes. Nous avons identifié entre 116 439 (C57BL/6NJ) et 1 895 741 (SPRET/EiJ) hSNP de haute qualité à partir du catalogue de variation MGP v521 (tableau supplémentaire 9). En concentrant notre analyse sur les 5 % de régions les plus denses en hSNP (fenêtres ≥ 71 hSNP par fenêtre coulissante de 10 kb), nous avons identifié la majorité des régions polymorphes connues parmi les souches (figure supplémentaire 5) et représenté ~49 % de tous les hSNP (tableau supplémentaire 9 et figure supplémentaire 6a). Après avoir appliqué ce seuil à toutes les régions hSNP spécifiques de la souche et fusionné les fenêtres adjacentes ou se chevauchant, il restait entre 117 (C57BL/6NJ) et 2 567 (SPRET/EiJ) régions hSNP par souche (tableau supplémentaire 9), avec une taille moyenne de 18-20 kb (figure supplémentaire 6b). De nombreux groupes de hSNP chevauchent des gènes liés à l’immunité (par exemple, CMH, récepteurs de type NOD et récepteurs de type AIM), des gènes sensoriels (par exemple, récepteurs olfactifs et gustatifs), des gènes liés à la reproduction (par exemple, glycoprotéines spécifiques de la grossesse et protéines riches en E associées aux spermatozoïdes) et des gènes liés aux neurones et au comportement (par exemple, récepteurs de démangeaison26 et γ-protocadhérines27) (figure 1b et figure supplémentaire 5). Toutes les régions hSNP des souches sauvages contenaient un nombre de paires de bases de gènes et de séquences codantes (CDS) supérieur à celui de toute souche consanguine classique (≥503 et ≥0,36 mégabases (Mb), respectivement ; tableau supplémentaire 9). Les régions identifiées chez C57BL/6J et C57BL/6NJ (117 et 141, respectivement ; 145 combinées) recoupent des problèmes d’assemblage connus de GRCm38, notamment des lacunes, des échafaudages non placés ou des régions centromériques (107/145, 73,8 %). Les régions candidates restantes comprennent de grandes familles de protéines (15/145, 10,3%) et des éléments répétés (17/145, 11,7%) (Données supplémentaires 2).
Nous avons examiné les classes de protéines présentes dans les régions hSNP en identifiant 1 109 correspondances PantherDB, attribuées à 26 classes de protéines à partir d’un ensemble combiné de tous les gènes dans les régions denses hSNP (Données supplémentaires 3). La défense et l’immunité étaient la classe de protéines la plus représentée (155 gènes, données supplémentaires 4), représentant 13,98 % de toutes les correspondances de classes de protéines (tableau supplémentaire 10). Il s’agissait d’un enrichissement de cinq fois par rapport à un taux estimé à l’échelle du génome (Fig. 1d). En particulier, 89 gènes liés à l’immunité ont été identifiés dans les souches classiques, dont 84 étaient partagés avec au moins une des souches sauvages (Fig. 1d). SPRET/EiJ a contribué au plus grand nombre d’occurrences de gènes spécifiques à la souche (22 gènes).
De nombreuses familles de gènes paralogues étaient représentées parmi les régions hSNP (données supplémentaires 3), y compris des gènes avec des orthologues humains fonctionnels. Parmi les exemples les plus marquants, citons les allèles de l’apolipoprotéine L, dont les variantes peuvent conférer une résistance à Trypanosoma brucei, la principale cause de la maladie du sommeil chez l’homme28,29 ; IFI16 (protéine 16 inductible par l’interféron gamma, membre des récepteurs de type AIM2), un capteur d’ADN nécessaire à la mort des cellules T CD4 lymphoïdes infectées de manière avortée par l’immunovirus humain (VIH)30 ; NAIP (protéine inhibitrice de l’apoptose de la famille NLR), dont la variation du nombre de copies fonctionnelles est liée à une augmentation de la mort cellulaire lors d’une infection par Legionella pneumophila31 ; et les sécrétoglobines (membres de Scgb), qui peuvent être impliquées dans la formation et l’invasion de tumeurs chez l’homme et la souris32,33. De grandes familles de gènes pour lesquelles peu d’informations fonctionnelles sont connues ont également été identifiées. Un groupe d’environ 50 gènes, qui comprend l’hippocalcine-like 1 (Hpcal1) et ses homologues, a été identifié (chromosome 12 : 18-25 Mb). Hpcal1 appartient aux capteurs de calcium neuronaux exprimés principalement dans les photorécepteurs rétiniens, les neurones et les cellules neuroendocrines34. Cette région est enrichie en hSNPs dans toutes les souches, à l’exception de C57BL/6J et C57BL/6NJ. Il est intéressant de noter qu’au sein de cette région, Cpsf3 (21,29 Mb) est situé sur un îlot de haute conservation dans toutes les souches et qu’un knockout homozygote de C57BL/6NJ produit une descendance subviable35. D’autres exemples incluent une autre région sur le chromosome 12 (87-88 Mb) contenant environ 20 homologues du facteur 1A d’initiation de la traduction eucaryote (eIF1a) et sur le chromosome 14 (41-45 Mb) contenant environ 100 gènes de type Dlg1. Les gènes au sein de toutes les régions candidates hSNP ont été identifiés et annotés (figure supplémentaire 5).
Nous avons examiné le contenu en rétrotransposons dans les régions denses hSNP sur GRCm38 par rapport à une distribution nulle estimée (un million de simulations) et nous avons constaté un enrichissement significatif à la fois des LTR (P empirique < 1 × 10-7) et des éléments nucléaires longuement dispersés (LINE) (P empirique < 1 × 10-7) (tableaux supplémentaires 11 et 12). La rétrotransposition des gènes a longtemps été impliquée dans la création de la diversité des familles de gènes36, de nouveaux allèles conférant des adaptations sélectionnées positivement37. Une fois transposés, les éléments transposables accumulent les mutations au fil du temps à mesure que la séquence diverge38,39. Pour les LTR, les LINE et les éléments nucléaires courts dispersés (SINE), le pourcentage moyen de divergence de séquence était significativement plus faible (P < 1 × 10-22) dans les régions hSNP par rapport au reste du génome (Fig. 1e). La plus grande différence dans la divergence de séquence moyenne était entre les LTR à l’intérieur et à l’extérieur des régions denses hSNP. En examinant uniquement les éléments répétés avec moins de 1% de divergence, nous avons constaté que ces régions sont significativement enrichies pour les LTR (P empirique < 1 × 10-7) et les LINE (P empirique = 0,047).
Assemblage de novo de familles de gènes complexes
Nos données ont élucidé la variation du nombre de copies jusqu’alors inconnue dans les génomes de souches de souris et ont découvert des expansions, des contractions de gènes et de nouveaux allèles (<80% d’identité de séquence). Par exemple, 23 groupes distincts de récepteurs olfactifs ont été identifiés, indiquant une variation substantielle entre les souches consanguines. Chez la souris, les différences phénotypiques, notamment en matière de régime alimentaire et de comportement, ont été liées à des répertoires de récepteurs olfactifs distincts40,41. À cette fin, nous avons caractérisé le répertoire des récepteurs olfactifs de CAST/EiJ à l’aide de notre assemblage de novo et identifié 1 249 gènes de récepteurs olfactifs candidats (Données supplémentaires 5). Par rapport à la souche de référence (C57BL/6J), CAST/EiJ a perdu 20 récepteurs olfactifs et gagné 37 membres de famille de gènes : 12 nouveaux et 25 soutenus par des prédictions publiées basées sur l’ARN messager (ARNm) dérivé de la muqueuse olfactive entière de CAST/EiJ (Fig. 2a et Tableau supplémentaire 13)42.
Nous avons découvert de nouveaux membres de gènes à plusieurs loci immunitaires importants régulant les réponses innées et adaptatives à l’infection. Par exemple, le chromosome 10 (22,1-22,4 Mb) sur C57BL/6J contient des allèles Raet1 et des membres de l’antigène mineur d’histocompatibilité H60. Raet1 et H60 sont des ligands importants pour NKG2D, un récepteur d’activation des cellules tueuses naturelles43. Les ligands NKG2D sont exprimés à la surface des cellules infectées44 et métastatiques45 et peuvent participer aux réponses auto-immunes des allogreffes46. À partir de l’assemblage de novo, six haplotypes Raet1/H60 différents ont été identifiés parmi les huit souches fondatrices CC ; trois des haplotypes identifiés sont partagés entre les fondateurs de CC consanguins classiques (A/J, 129S1/SvImJ et NOD/ShiLtJ ont le même haplotype) et trois haplotypes Raet1/H60 différents ont été identifiés dans chacune des souches consanguines sauvages (CAST/EiJ, PWK/PhJ et WSB/EiJ) (figure 2b et figures supplémentaires 7 et 8). L’haplotype CAST/EiJ ne code qu’un seul membre de la famille Raet1 (Raet1e) et aucun allèle H60, tandis que l’haplotype classique NOD/ShiLtJ présente quatre allèles H60 et trois allèles Raet1. Le locus 4 de résistance à Aspergillus (Asprl4), l’un des nombreux loci de traits quantitatifs (QTL) qui médient la résistance à l’infection par Aspergillus fumigatus, chevauche ce locus et comprend un intervalle de 1 Mb (~10 % du QTL) qui, par rapport aux autres souches classiques, contient un haplotype unique à NZO/HlLtJ (figure supplémentaire 7). Des associations d’haplotype spécifiques aux souches avec Asprl4 et la survie ont été signalées pour CAST/EiJ et NZO/HlLtJ, qui présentent toutes deux une résistance à l’infection par A. fumigatus47 et ce sont également les seules souches à avoir perdu des allèles H60 à ce locus.
Nous avons examiné trois loci liés à l’immunité sur le chromosome 11, IRG (GRCm38 : 48,85-49,10 Mb), Nlrp1 (71,05-71,30 Mb) et Slfn (82,9-83,3 Mb) en raison de leur complexité polymorphe et de leur importance pour la survie des souris48,49,50. Le locus Nlrp1 (NOD-like receptors, pyrin domain-containing) code les composants de l’inflammasome qui détectent les produits microbiens endogènes et les stress métaboliques, stimulant ainsi les réponses immunitaires innées51. Chez la souris domestique, les allèles Nlrp1 sont impliqués dans la détection de la toxine létale de Bacillus anthracis, entraînant l’activation de l’inflammasome et la pyroptose des macrophages52,53. Nous avons découvert sept membres distincts de la famille Nlrp1 en comparant six souches (CAST/EiJ, PWK/PhJ, WSB/EiJ, SPRET/EiJ, NOD/ShiLtJ et C57BL/6J). Chaque souche présente un haplotype unique de membres de Nlrp1, ce qui met en évidence la grande diversité de séquences à ce locus entre les souches de souris consanguines (Fig. 2c). Chacune des trois souches de M. m. domesticus (C67BL/6J, NOD/ShiLtJ et WSB/EiJ) porte une combinaison différente de membres de la famille Nlrp1 ; les Nlrp1d-1f sont de nouveaux allèles spécifiques à la souche qui étaient auparavant inconnus. La diversité entre les différents allèles Nlrp1 est supérieure à la divergence de séquence entre les allèles de souris et de rat. Par exemple, C57BL/6J contient Nlrp1c, qui n’est pas présent dans les deux autres souches, tandis que Nlrp1b2 est présent dans NOD/ShiLtJ et WSB/EiJ mais pas dans C57BL/6J. Chez PWK/PhJ (M. m. musculus), le locus Nlrp1 est presque deux fois plus grand que celui du génome de référence GRCm38 et contient de nouveaux homologues de Nlrp1 (Fig. 2c), tandis que chez M. spretus (également dérivé sauvage), ce locus est beaucoup plus court que dans toute autre souche de souris. Environ 90% des régions intergéniques dans l’assemblage PWK/PhJ du locus Nlrp1 est composé d’éléments transposables (Fig. 2d).
Les souches sauvages PWK/PhJ (M. m. musculus) et CAST/EiJ (M. m. castaneus) partagent des haplotypes très similaires ; cependant, les macrophages PWK/PhJ sont résistants à la mort cellulaire pyroptotique induite par la toxine létale de l’anthrax alors que les macrophages CAST/EiJ ne le sont pas54. Il a été suggéré que Nlrp1c pourrait être le membre de la famille responsable de la résistance ; Nlrp1c peut être amplifié à partir de l’ADNc des macrophages PWK/PhJ mais pas de CAST/EiJ54. Dans les assemblages de novo, les deux souches de souris partagent la même région promotrice pour Nlrp1c ; cependant, lorsqu’il a été transcrit, l’ADNc de Nlrp1c_CAST n’a pas pu être amplifié avec les amorces conçues précédemment54 en raison de SNPs au niveau du site de liaison des amorces (5′…CACT-3′ → 5′…TACC-3′). Le site de liaison des amorces chez PWK/PhJ est le même que celui de C57BL/6J, cependant Nlrp1c est un pseudogène prédit. Nous avons trouvé un décalage de 18 acides aminés dans le domaine de liaison aux nucléotides (NBD) entre Nlrp1b_CAST et Nlrp1b_PWK. Ces profils divergents suggèrent que Nlrp1c n’est pas le seul médiateur de la résistance à la toxine létale de l’anthrax chez la souris mais que plusieurs autres membres peuvent être impliqués. Les membres nouvellement annotés Nlrp1b2 et Nlrp1d semblent fonctionnellement intacts dans CAST/EiJ mais ont tous deux été prédits comme pseudogènes dans PWK/PhJ en raison de la présence de codons stop ou de mutations de décalage de cadre. Chez les C57BL/6J, trois isoformes d’épissage de Nlrp1b (SV1, SV2 et SV3) ont été signalées54. Un diagramme à points entre PWK/PhJ et la référence C57BL/6J illustre la perturbation de la colinéarité au niveau des allèles Nlrp1b2 et Nlrp1d de PWK/PhJ (Fig. 2d). Toutes les souches sauvages que nous avons séquencées contiennent la longueur totale de Nlrp1d et présentent une perturbation similaire de la colinéarité au niveau de ces allèles par rapport à C57BL/6J (Données supplémentaires 6). L’isoforme SV1 de C57BL/6J est dérivée de paralogues ancestraux tronqués de Nlrp1b et Nlrp1d, ce qui indique que Nlrp1d a été perdu dans la lignée C57BL/6J. La structure génomique du locus Nlrp1 chez PWK/PhJ, CAST/EiJ, WSB/EiJ et NOD/ShiLtJ a été confirmée par Fiber-FISH (figure supplémentaire 9).
Les assemblages ont également montré une grande diversité à chacun des autres loci examinés : les GTPases liées à l’immunité (IRGs) et la famille de Schlafen (Slfn). Les protéines IRG appartiennent à une sous-famille de GTPases inductibles par l’interféron présentes chez la plupart des vertébrés55. Chez la souris, les membres de la famille des protéines IRG contribuent au système immunitaire adaptatif en conférant une résistance aux pathogènes intracellulaires tels que Chlamydia trachomatis, Trypanosoma cruzi et Toxoplasma gondii56. Notre assemblage de novo est concordant avec les données précédemment publiées pour CAST/EiJ48. Pour la première fois, il montre l’ordre, l’orientation et la structure de trois haplotypes hautement divergents présents dans WSB/EiJ, PWK/PhJ et SPRET/EiJ, y compris l’annotation nouvelle de promoteurs réarrangés, de pseudogènes transformés insérés et une fréquence élevée de répétitions LINE (Données supplémentaires 6).
La famille de gènes Schlafen (chromosome 11 : 82,9-83,3 Mb) serait impliquée dans les réponses immunitaires, la différenciation cellulaire, la prolifération et la croissance, l’invasion du cancer et la résistance à la chimiothérapie. Chez l’homme, il a été signalé que SLFN11 inhibe la synthèse des protéines du VIH par un mécanisme basé sur l’utilisation des codons57 et chez les primates non humains, une sélection positive sur le gène Slfn11 a été signalée58. Chez la souris, la mort embryonnaire peut survenir entre des souches portant des haplotypes de Slfn incompatibles59. L’assemblage de Slfn pour les trois souches fondatrices CC d’origine sauvage (CAST/EiJ, PWK/PhJ, et WSB/EiJ) a montré, pour la première fois, une variation importante à ce locus. Les membres du groupe 4 des gènes Slfn50, Slfn8, Slfn9, et Slfn10, présentent une diversité de séquence significative parmi ces souches. Par exemple, Sfln8 est un pseudogène prédit chez PWK/PhJ mais est codant pour une protéine chez les autres souches ; l’allèle CAST/EiJ contient 78 mésappariements d’acides aminés par rapport à la référence C57BL/6J (figure supplémentaire 10). CAST/EiJ et PWK/PhJ contiennent toutes deux des copies fonctionnelles de Sfln10, qui est un pseudogène prédit chez C57BL/6J et WSB/EiJ. Un nouveau codon d’initiation en amont de Slfn4, qui entraîne une extension N-terminale de 25 acides aminés, a été identifié dans PWK/PhJ et WSB/EiJ. Un autre membre présent dans la référence, Slfn14, est conservé dans PWK/PhJ et CAST/EiJ mais est un pseudogène dans WSB/EiJ (figure supplémentaire 10).
Mises à jour du génome de référence informées par les assemblages de souches
Il y a actuellement 11 gènes dans l’assemblage de référence GRCm38 (C57BL/6J) qui sont incomplets en raison d’une lacune dans la séquence. Premièrement, ces loci ont été comparés aux régions respectives dans l’assemblage C57BL/6NJ et utilisés pour identifier les contigs des assemblages publics de la souche de référence précédemment omis en raison d’un chevauchement insuffisant. Deuxièmement, les lectures C57BL/6J alignées sur les régions d’intérêt dans l’assemblage C57BL/6NJ ont été extraites pour un assemblage ciblé, conduisant à la génération de contigs couvrant les séquences actuellement manquantes dans la référence. Les deux approches ont permis de compléter dix nouvelles structures de gènes (par exemple, la figure supplémentaire 11 et les données supplémentaires 7) et l’inclusion presque complète du gène Sts qui était auparavant manquant.
Les améliorations apportées au génome de référence, associées aux prédictions de gènes de toutes les souches, ont été utilisées pour fournir des mises à jour de l’annotation du génome de référence existant, maintenu par le consortium GENCODE60. Nous avons examiné les prédictions de gènes RNA-Seq spécifiques à la souche (Comparative Augustus) contenant 75 % de nouveaux introns par rapport à l’annotation de référence existante (Tableau 1) (GENCODE M8, chromosomes 1-12). Sur les 785 prédictions étudiées, 62 ont conduit à l’annotation de nouveaux loci, dont 19 gènes codant pour des protéines et 6 pseudogènes (tableau supplémentaire 14 et données supplémentaires 8). Dans la plupart des cas où un nouveau locus a été prédit sur le génome de référence, nous avons identifié une annotation préexistante, mais souvent incomplète. Par exemple, le gène Nmur1 a été étendu à son extrémité 5′ et rendu complet sur la base de preuves soutenant une prédiction qui s’est épissée à un exon amont contenant le codon de départ précédemment manquant. Le gène Mroh3, qui était initialement annoté comme un pseudogène non traité, a été mis à jour en tant que gène codant pour une protéine en raison de l’identification d’un nouvel intron qui a permis l’extension du CDS sur toute sa longueur. Le modèle de pseudogène précédemment annoté a été conservé en tant que transcription de la désintégration médiée par le non-sens (NMD) du locus codant pour la protéine. Au nouveau locus bicistronique, Chml_Opn3, l’annotation originale était un gène à un seul exon, Chml, qui a été étendu et trouvé pour partager son premier exon avec le gène Opn3.
Nous avons découvert un nouveau gène de 188 exons sur le chromosome 11 qui étend significativement le gène existant Efcab3 s’étendant entre Itgb3 et Mettl2 (Fig. 3a). Ce gène similaire à Efcab3 a été identifié manuellement, validé selon les directives de HAVANA61 et identifié dans les versions M11 et suivantes de GENCODE sous le nom de Gm11639. Efcab3/Efcab13 codent pour des protéines liant le calcium et le nouveau gène est principalement constitué de domaines répétés de la protéine EF-hand (figure supplémentaire 12). L’analyse de la synténie et de la structure du génome a montré que le locus Efcab3 est largement conservé chez les autres mammifères, y compris la plupart des primates. La prédiction comparative des gènes a identifié la version complète chez l’orang-outan, le macaque rhésus, le bushbaby et le singe écureuil. Cependant, le locus contient un point de rupture au niveau de l’ancêtre commun du chimpanzé, du gorille et de l’homme (Homininae) en raison d’un réarrangement intrachromosomique de ~15 Mb qui a également supprimé de nombreuses répétitions du domaine EF-hand interne (Fig. 3b et Fig. 13 supplémentaire). L’analyse des données d’expression génotype-tissu (GTEx)62 chez l’homme a montré que le locus EFCAB13 est exprimé dans de nombreux types de tissus, l’expression la plus élevée étant mesurée dans le testicule et la thyroïde. En revanche, le locus EFCAB3 n’a qu’une faible expression mesurable dans le testicule. Ceci est cohérent avec la présence du promoteur du gène complet en amont de la version EFCAB13, ce qui est confirmé par l’analyse H3K4me3 (figure supplémentaire 14). Chez la souris, le gène Efcab3 est spécifiquement exprimé au cours du développement dans de nombreux tissus, avec une expression élevée dans les couches supérieures de la plaque corticale (voir URLs), et il est situé à proximité immédiate de la région syntérique génomique 17q21.31 liée aux changements structurels du cerveau chez la souris et l’homme63. Nous avons utilisé CRISPR (clustered regularly interspaced short palindromic repeats) pour créer des souris mutantes semblables à Efcab3 (Efcab3em1(IMPC)Wtsi, voir Méthodes) et enregistré 188 mesures phénotypiques primaires (Données supplémentaires 9). Nous avons également mesuré 40 paramètres cérébraux dans 22 structures cérébrales distinctes dans le cadre d’un dépistage neuro-anatomique à haut débit (tableaux supplémentaires 15 et 16, voir Méthodes). Des anomalies de taille du cerveau ont notamment été identifiées chez les souris mutantes Efcab3-like par rapport aux témoins de type sauvage appariés (Fig. 3c). Il est intéressant de noter que le ventricule latéral était l’une des structures cérébrales les plus sévèrement touchées, présentant une augmentation de 65 % (P = 0,007). La taille des noyaux pontins a également augmenté de 42 % (P = 0,001) et celle du cervelet de 27 % (P = 0,02) ; ces deux régions sont impliquées dans l’activité motrice (Fig. 3d et Fig. 15 supplémentaire). Le thalamus était également plus grand de 19 % (P = 0,007). Par conséquent, le paramètre de la surface totale du cerveau a été augmenté de 7 % (P = 0,006). Pris ensemble, ces résultats suggèrent un rôle potentiel du gène Efcab3-like pour réguler le développement du cerveau et la taille du cerveau du cerveau antérieur au cerveau postérieur.
.