Se produjeron ensamblajes de secuencias y anotaciones del genoma
Se produjeron ensamblajes a escala del cromosoma para 16 cepas de ratones de laboratorio utilizando una mezcla de pares de Illumina (40-70×), pares de mate (3, 6, 10 kilobases (kb)), fosmidos y secuencias finales de BAC (Tabla Suplementaria 1), y bibliotecas Dovetail Genomics Chicago19. Los pseudocromosomas se produjeron en paralelo utilizando alineaciones de sintenia entre especies, lo que dio lugar a ensamblajes del genoma de entre 2,254 (WSB/EiJ) y 2,328 gigabases (Gb) (AKR/J), excluyendo las bases desconocidas. Aproximadamente el 0,5-2% de la longitud total del genoma por cepa estaba sin colocar y se compone de bases desconocidas (18-49%) y de secuencias repetidas (61-79%) (Tabla suplementaria 2), con entre 89 y 410 genes predichos por cepa (Tabla suplementaria 3). Los ensamblajes del genoma mitocondrial (ADNmt) de 14 cepas apoyaron las secuencias publicadas anteriormente20 , aunque un pequeño número de variantes de secuencias nuevas de alta calidad en AKR/J, BALB/cJ, C3H/HeJ y LP/J entraron en conflicto con las entradas del GenBank (Tabla suplementaria 4). Se identificaron nuevos haplotipos de ADNmt en PWK/PhJ y NZO/HlLtJ. En particular, NZO/HlLtJ contenía 55 SNPs (33 compartidos con las cepas silvestres) y parece distinto en comparación con las otras cepas endogámicas clásicas (Fig. 1 suplementaria). Los catálogos de variaciones anteriores han indicado una alta concordancia (>97% de SNPs compartidos) entre NZO/HlLtJ y otra cepa endogámica de laboratorio NZB/BlNJ21.
Evaluamos la exactitud de las bases de los cromosomas de las cepas en relación con dos versiones del genoma de referencia de C57BL/6J (MGSCv311 y GRCm382) realineando primero todas las lecturas de secuenciación de extremo emparejado de cada cepa con sus respectivos ensamblajes genómicos, y utilizando después estas alineaciones para identificar SNPs e indels. La tasa de error combinada de SNP e indels fue de 0,09-0,1 errores por kb, en comparación con 0,334 para MGSCv3 y 0,02 para GRCm38 (Tabla Suplementaria 5). A continuación, utilizamos un conjunto de 612 pares de cebadores para la reacción en cadena de la polimerasa (PCR) utilizados previamente para validar las llamadas de variantes estructurales en ocho cepas22. Los ensamblajes tenían entre un 4,7 y un 6,7% de pares de cebadores que mostraban alineaciones incorrectas, en comparación con el 10% de MGSCv3 (Tabla Suplementaria 6). Por último, la alineación de las secuencias de ADN complementarias de PacBio de hígado y bazo de C57BL/6J, CAST/EiJ, PWK/PhJ y SPRET/EiJ mostró que el genoma de referencia GRCm38 tenía la mayor proporción de lecturas de ADNc correctamente alineadas (99% y 98%, respectivamente) y las cepas y MGSCv3 tenían un 1-2% menos (Tabla suplementaria 7). La representación de las familias de repeticiones conocidas de ratones en los ensamblajes muestra que el contenido de repeticiones cortas (<200 pares de bases (pb)) era comparable al de GRCm38 (Fig. suplementaria 2a,b). El número total de repeticiones largas (>200 pb) es consistente en todas las cepas; sin embargo, las longitudes totales de las secuencias son consistentemente más cortas que las de GRCm38 (Fig. 2c suplementaria).
Se produjeron conjuntos de genes de consenso específicos para cada cepa utilizando la anotación de GENCODE C57BL/6J y la secuenciación de ARN específica para cada cepa (RNA-Seq) de múltiples tejidos23 (Tabla 8 suplementaria y Fig. 3 suplementaria). Los conjuntos de genes consensuados contienen más de 20.000 genes codificantes de proteínas y más de 18.000 genes no codificantes (Fig. 1a y Tabla Suplementaria 1). Para las cepas clásicas de laboratorio, se anotaron comparativamente el 90,2% de los transcritos codificantes (88,0% en las cepas derivadas de la naturaleza) y el 91,2% de los transcritos no codificantes (91,4% en las cepas derivadas de la naturaleza) presentes en el conjunto de genes de referencia GRCm38. Las predicciones de genes a partir de RNA-Seq específico de la cepa (Comparative Augustus24) añadieron una media de 1.400 nuevas isoformas a las cepas silvestres y 1.207 nuevas isoformas a los conjuntos de anotación genética de las cepas clásicas. La predicción de genes basada en la secuenciación de ADNc de PacBio introdujo una media de 1.865 nuevas isoformas en CAST/EiJ, PWK/PhJ y SPRET/EiJ. Los nuevos loci putativos se definen como genes empalmados que se predijeron a partir del RNA-Seq específico de la cepa y que no se solaparon con ningún gen proyectado a partir del genoma de referencia. Por término medio, 37 genes eran loci nuevos putativos (Datos suplementarios 1) en las cepas derivadas de la naturaleza y 22 en las cepas clásicas. En la mayoría de los casos, éstos parecen ser el resultado de eventos de duplicación de genes. Además, un flujo de trabajo automatizado de anotación de pseudogenes, Pseudopipe25, junto con pseudogenes curados manualmente y extraídos del genoma de referencia GRCm38, identificó una media de 11.000 (3.317 conservados entre todas las cepas) pseudogenes por cepa (Fig. Suplementaria 4) que parecen haber surgido a través de eventos de retrotransposición (~80%) o de duplicación de genes (~20%).
Las regiones del genoma del ratón con variación alélica extrema
Las cepas de ratones de laboratorio se caracterizan por tener al menos 20 generaciones de endogamia y son genéticamente homocigóticas en casi todos los loci1. A pesar de esto, los catálogos de variación de SNP anteriores han identificado SNPs heterocigotos de alta calidad (hSNPs) cuando las lecturas se alinearon con el genoma de referencia C57BL/6J12. La presencia de densidades más altas de hSNPs puede indicar cambios en el número de copias, o nuevos genes que no están presentes en el ensamblaje de referencia, forzados a mapear parcialmente a un único locus en la referencia12,21. Por lo tanto, su identificación es una poderosa herramienta para encontrar errores en los ensamblajes del genoma. Identificamos entre 116.439 (C57BL/6NJ) y 1.895.741 (SPRET/EiJ) hSNPs de alta calidad del catálogo de variaciones MGP v521 (Tabla Suplementaria 9). Al centrar nuestro análisis en el 5% de las regiones más densas en hSNPs (ventanas ≥ 71 hSNPs por ventana deslizante de 10 kb) se identificó la mayoría de las regiones polimórficas conocidas entre las cepas (Fig. 5 suplementaria) y representaron el ~49% de todos los hSNPs (Tabla 9 suplementaria y Fig. 6a suplementaria). Después de aplicar este corte a todas las regiones hSNP específicas de cada cepa y de fusionar las ventanas superpuestas o adyacentes, quedaron entre 117 (C57BL/6NJ) y 2.567 (SPRET/EiJ) regiones hSNP por cepa (Tabla Suplementaria 9), con un tamaño medio de 18-20 kb (Fig. Suplementaria 6b). Muchos grupos de hSNP se superponen a la inmunidad (por ejemplo, MHC, receptores similares a NOD y receptores similares a AIM), a la sensorialidad (por ejemplo, receptores olfativos y gustativos), a la reproducción (por ejemplo, glicoproteínas específicas de la gestación y proteínas ricas en E asociadas a los espermatozoides) y a los genes relacionados con el comportamiento y las neuronas (por ejemplo, receptores de picor26 y γ-protocadherinas27) (Fig. 1b y Fig. 5 suplementaria). Todas las regiones hSNP de las cepas silvestres contenían recuentos de pares de bases de genes y secuencias codificantes (CDS) mayores que los de cualquier cepa endogámica clásica (≥503 y ≥0,36 megabases (Mb), respectivamente; Tabla Suplementaria 9). Las regiones identificadas en C57BL/6J y C57BL/6NJ (117 y 141, respectivamente; 145 combinadas) se cruzan con problemas conocidos de ensamblaje del GRCm38, incluyendo huecos, andamios no colocados o regiones centroméricas (107/145, 73,8%). Las restantes regiones candidatas incluyen grandes familias de proteínas (15/145, 10,3%) y elementos de repetición (17/145, 11,7%) (Datos Suplementarios 2).
Examinamos las clases de proteínas presentes en las regiones hSNP identificando 1.109 coincidencias de PantherDB, asignadas a 26 clases de proteínas de un conjunto combinado de todos los genes en regiones densas de hSNP (Datos Suplementarios 3). La defensa y la inmunidad fue la clase de proteína más representada (155 genes, Datos Suplementarios 4), representando el 13,98% de todas las coincidencias de clases de proteínas (Tabla Suplementaria 10). Esto supuso un enriquecimiento de cinco veces en comparación con una tasa estimada para todo el genoma (Fig. 1d). En particular, se identificaron 89 genes relacionados con la inmunidad en las cepas clásicas, 84 de los cuales eran compartidos con al menos una de las cepas derivadas de la naturaleza (Fig. 1d). SPRET/EiJ contribuyó con el mayor número de resultados de genes específicos de la cepa (22 genes).
Muchas familias de genes paralógicos estuvieron representadas entre las regiones hSNP (Datos Suplementarios 3), incluyendo genes con ortólogos humanos funcionales. Algunos ejemplos destacados son los alelos de la apolipoproteína L, cuyas variantes pueden conferir resistencia al Trypanosoma brucei, la causa principal de la enfermedad del sueño humana28,29; IFI16 (proteína inducible por el interferón gamma 16, un miembro de los receptores similares a AIM2), un sensor de ADN necesario para la muerte de las células T CD4 linfoides infectadas de forma abortiva por el inmunovirus humano (VIH)30 ; NAIP (proteína inhibidora de la apoptosis de la familia NLR) en la que la variación del número de copias funcional está relacionada con el aumento de la muerte celular tras la infección por Legionella pneumophila31; y secretoglobinas (miembros de Scgb), que pueden estar implicadas en la formación e invasión de tumores tanto en humanos como en ratones32,33. También se identificaron grandes familias de genes de las que se conoce poca información funcional. Se identificó un grupo de aproximadamente 50 genes, entre los que se encuentra el hippocalcin-like 1 (Hpcal1) y sus homólogos (cromosoma 12: 18-25 Mb). Hpcal1 pertenece a los sensores de calcio neuronales que se expresan principalmente en los fotorreceptores de la retina, las neuronas y las células neuroendocrinas34. Esta región está enriquecida por hSNPs en todas las cepas excepto en C57BL/6J y C57BL/6NJ. Curiosamente, dentro de esta región, Cpsf3 (21,29 Mb) se encuentra en una isla de alta conservación en todas las cepas y un knockout homocigoto de C57BL/6NJ produce una descendencia subviable35. Otros ejemplos incluyen otra región en el cromosoma 12 (87-88 Mb) que contiene aproximadamente 20 homólogos del factor de iniciación de la traducción eucariótica 1A (eIF1a) y en el cromosoma 14 (41-45 Mb) que contiene aproximadamente 100 genes similares a Dlg1. Se han identificado y anotado genes dentro de todas las regiones candidatas a hSNP (Fig. Suplementaria 5).
Examinamos el contenido de retrotransposones en las regiones densas de hSNP en GRCm38 en comparación con una distribución nula estimada (un millón de simulaciones) y encontramos un enriquecimiento significativo tanto de LTRs (P empírica < 1 × 10-7) como de elementos nucleares intercalados largos (LINEs) (P empírica < 1 × 10-7) (Tablas Suplementarias 11 y 12). La retrotransposición de genes está implicada desde hace mucho tiempo en la creación de la diversidad de familias de genes36 y de nuevos alelos que confieren adaptaciones seleccionadas positivamente37. Una vez transpuestos, los elementos transponibles acumulan mutaciones con el tiempo a medida que la secuencia diverge38,39. Para LTRs, LINEs y elementos nucleares cortos intercalados (SINEs), el porcentaje medio de divergencia de la secuencia fue significativamente menor (P < 1 × 10-22) dentro de las regiones hSNP en comparación con el resto del genoma (Fig. 1e). La mayor diferencia en la divergencia media de secuencias fue entre los LTRs dentro y fuera de las regiones densas de hSNP. Examinando sólo los elementos de repetición con menos del 1% de divergencia, encontramos que estas regiones están significativamente enriquecidas para LTRs (P empírica < 1 × 10-7) y LINEs (P empírica = 0,047).
Ensamblaje de novo de familias complejas de genes
Nuestros datos dilucidaron la variación del número de copias previamente desconocida en los genomas de cepas de ratón y descubrieron expansiones de genes, contracciones y nuevos alelos (<80% de identidad de secuencia). Por ejemplo, se identificaron 23 grupos distintos de receptores olfativos, lo que indica una variación sustancial entre las cepas endogámicas. En el ratón, las diferencias fenotípicas, especialmente en la dieta y el comportamiento, se han relacionado con repertorios de receptores olfativos distintos40,41. Con este fin, hemos caracterizado el repertorio de receptores olfativos de CAST/EiJ utilizando nuestro ensamblaje de novo y hemos identificado 1.249 genes candidatos a receptores olfativos (Datos suplementarios 5). En relación con la cepa de referencia (C57BL/6J), CAST/EiJ ha perdido 20 receptores olfativos y ha ganado 37 miembros de familias de genes: 12 nuevos y 25 respaldados por predicciones publicadas basadas en el ARN mensajero (ARNm) derivado de la mucosa olfativa completa de CAST/EiJ (Fig. 2a y Tabla Suplementaria 13)42.
Descubrimos nuevos miembros de genes en varios loci inmunitarios importantes que regulan las respuestas innatas y adaptativas a la infección. Por ejemplo, el cromosoma 10 (22,1-22,4 Mb) de C57BL/6J contiene alelos Raet1 y miembros del antígeno de histocompatibilidad menor H60. Raet1 y H60 son ligandos importantes para NKG2D, un receptor activador de las células asesinas naturales43. Los ligandos de NKG2D se expresan en la superficie de las células infectadas44 y metastásicas45 y pueden participar en las respuestas autoinmunes de los aloinjertos46. A partir del ensamblaje de novo, se identificaron seis haplotipos Raet1/H60 diferentes entre las ocho cepas fundadoras de CC; Tres de los haplotipos identificados son compartidos entre los fundadores clásicos de CC (A/J, 129S1/SvImJ y NOD/ShiLtJ tienen el mismo haplotipo) y se identificaron tres haplotipos Raet1/H60 diferentes en cada una de las cepas endocriadas de origen silvestre (CAST/EiJ, PWK/PhJ y WSB/EiJ) (Fig. 2b y Figs. suplementarias 7 y 8). El haplotipo CAST/EiJ sólo codifica un único miembro de la familia Raet1 (Raet1e) y ningún alelo H60, mientras que el haplotipo clásico NOD/ShiLtJ tiene cuatro alelos H60 y tres Raet1. El locus 4 resistente a Aspergillus (Asprl4), uno de los varios loci de rasgos cuantitativos (QTL) que median en la resistencia contra la infección por Aspergillus fumigatus, se solapa con este locus y comprende un intervalo de 1 Mb (~10% del QTL) que, en comparación con otras cepas clásicas, contiene un haplotipo exclusivo de NZO/HlLtJ (Fig. suplementaria 7). Se ha informado de asociaciones de haplotipos específicos de la cepa con Asprl4 y la supervivencia para CAST/EiJ y NZO/HlLtJ, que muestran resistencia a la infección por A. fumigatus47 y también son las únicas cepas que han perdido alelos H60 en este locus.
Examinamos tres loci relacionados con la inmunidad en el cromosoma 11, IRG (GRCm38: 48,85-49,10 Mb), Nlrp1 (71,05-71,30 Mb) y Slfn (82,9-83,3 Mb) por su complejidad polimórfica y su importancia para la supervivencia de los ratones48,49,50. El locus Nlrp1 (NOD-like receptors, pyrin domain-containing) codifica componentes del inflamasoma que detectan los productos microbianos endógenos y el estrés metabólico, estimulando así las respuestas inmunitarias innatas51. En el ratón doméstico, los alelos Nlrp1 están implicados en la detección de la toxina letal del Bacillus anthracis, lo que provoca la activación del inflamasoma y la piroptosis de los macrófagos52,53. Descubrimos siete miembros distintos de la familia Nlrp1 comparando seis cepas (CAST/EiJ, PWK/PhJ, WSB/EiJ, SPRET/EiJ, NOD/ShiLtJ y C57BL/6J). Cada cepa tiene un haplotipo único de los miembros de Nlrp1, lo que pone de manifiesto la amplia diversidad de secuencias en este locus entre las cepas endogámicas de ratón (Fig. 2c). Cada una de las tres cepas de M. m. domesticus (C67BL/6J, NOD/ShiLtJ y WSB/EiJ) es portadora de una combinación diferente de miembros de la familia Nlrp1; Nlrp1d-1f son nuevos alelos específicos de la cepa que se desconocían hasta ahora. La diversidad entre los distintos alelos de Nlrp1 es mayor que la divergencia de secuencias entre los alelos de ratón y rata. Por ejemplo, C57BL/6J contiene Nlrp1c, que no está presente en las otras dos cepas, mientras que Nlrp1b2 está presente tanto en NOD/ShiLtJ como en WSB/EiJ pero no en C57BL/6J. En PWK/PhJ (M. m. musculus), el locus Nlrp1 tiene casi el doble de tamaño en relación con el genoma de referencia GRCm38 y contiene nuevos homólogos de Nlrp1 (Fig. 2c), mientras que en M. spretus (también de origen salvaje) este locus es mucho más corto que en cualquier otra cepa de ratón. Aproximadamente el 90% de las regiones intergénicas en el ensamblaje PWK/PhJ del locus Nlrp1 está compuesto por elementos transponibles (Fig. 2d).
Las cepas PWK/PhJ (M. m. musculus) y CAST/EiJ (M. m. castaneus) comparten haplotipos muy similares; sin embargo, los macrófagos PWK/PhJ son resistentes a la muerte celular pirotécnica inducida por la toxina letal del ántrax, mientras que los macrófagos CAST/EiJ no lo son54. Se ha sugerido que Nlrp1c puede ser el miembro causal de la familia que media la resistencia; Nlrp1c puede amplificarse a partir de ADNc de macrófagos PWK/PhJ pero no de CAST/EiJ54. En los montajes de novo, ambas cepas de ratón comparten la misma región promotora para Nlrp1c; sin embargo, cuando se transcribe, el cDNA de Nlrp1c_CAST no pudo amplificarse con los cebadores diseñados previamente54 debido a los SNPs en el sitio de unión del cebador (5′…CACT-3′ → 5′…TACC-3′). El sitio de unión del cebador en PWK/PhJ es el mismo que en C57BL/6J, sin embargo Nlrp1c es un pseudogén predicho. Encontramos un desajuste de 18 aminoácidos en el dominio de unión a nucleótidos (NBD) entre Nlrp1b_CAST y Nlrp1b_PWK. Estos perfiles divergentes sugieren que Nlrp1c no es el único mediador de la resistencia a la toxina letal del ántrax en el ratón, sino que varios otros miembros pueden estar involucrados. Los nuevos miembros anotados Nlrp1b2 y Nlrp1d parecen funcionalmente intactos en CAST/EiJ, pero ambos fueron predichos como pseudogenes en PWK/PhJ debido a la presencia de codones de parada o mutaciones de cambio de marco. En C57BL/6J, se reportaron tres isoformas de empalme de Nlrp1b (SV1, SV2 y SV3)54. Un gráfico de puntos entre PWK/PhJ y la referencia C57BL/6J ilustra la interrupción de la colinealidad en los alelos Nlrp1b2 y Nlrp1d de PWK/PhJ (Fig. 2d). Todas las cepas derivadas de la naturaleza que secuenciamos contienen Nlrp1d de longitud completa y muestran una alteración similar de la colinealidad en estos alelos en relación con C57BL/6J (Datos suplementarios 6). La isoforma SV1 en C57BL/6J deriva de paralogos ancestrales truncados de Nlrp1b y Nlrp1d, lo que indica que Nlrp1d se perdió en el linaje de C57BL/6J. La estructura del genoma del locus Nlrp1 en PWK/PhJ, CAST/EiJ, WSB/EiJ y NOD/ShiLtJ se confirmó mediante Fiber-FISH (Fig. 9 suplementaria).
Los ensamblajes también mostraron una amplia diversidad en cada uno de los otros loci examinados: GTPasas relacionadas con la inmunidad (IRGs) y la familia Schlafen (Slfn). Las proteínas IRG pertenecen a una subfamilia de GTPasas inducibles por interferón presentes en la mayoría de los vertebrados55. En el ratón, los miembros de la familia de proteínas IRG contribuyen al sistema inmunitario adaptativo confiriendo resistencia contra patógenos intracelulares como Chlamydia trachomatis, Trypanosoma cruzi y Toxoplasma gondii56. Nuestro ensamblaje de novo concuerda con los datos publicados anteriormente para CAST/EiJ48. Por primera vez, muestra el orden, la orientación y la estructura de tres haplotipos altamente divergentes presentes en WSB/EiJ, PWK/PhJ y SPRET/EiJ, incluyendo una nueva anotación de promotores reordenados, pseudogenes procesados insertados y una alta frecuencia de repeticiones LINE (Datos suplementarios 6).
La familia de genes Schlafen (cromosoma 11: 82,9-83,3 Mb) está supuestamente implicada en las respuestas inmunitarias, la diferenciación celular, la proliferación y el crecimiento, la invasión del cáncer y la resistencia a la quimioterapia. En humanos, se ha informado de que SLFN11 inhibe la síntesis de proteínas del VIH mediante un mecanismo basado en el uso de codones57 y en primates no humanos se ha informado de la selección positiva del gen Slfn1158. En el ratón, puede producirse la muerte embrionaria entre cepas que portan haplotipos de Slfn incompatibles59. El ensamblaje de Slfn para las tres cepas fundadoras de CC de origen salvaje (CAST/EiJ, PWK/PhJ y WSB/EiJ) mostró, por primera vez, una amplia variación en este locus. Los miembros de los genes Slfn del grupo 450, Slfn8, Slfn9 y Slfn10, muestran una importante diversidad de secuencias entre estas cepas. Por ejemplo, Sfln8 es un pseudogén predicho en PWK/PhJ pero es codificador de proteínas en las otras cepas; el alelo CAST/EiJ contiene 78 desajustes de aminoácidos en comparación con la referencia C57BL/6J (Fig. suplementaria 10). Tanto CAST/EiJ como PWK/PhJ contienen copias funcionales de Sfln10, que es un pseudogén predicho en C57BL/6J y WSB/EiJ. En PWK/PhJ y WSB/EiJ se identificó un nuevo codón de inicio aguas arriba de Slfn4, que provoca una extensión N-terminal de 25 aminoácidos. Otro miembro presente en la referencia, Slfn14, está conservado en PWK/PhJ y CAST/EiJ, pero es un pseudogén en WSB/EiJ (Supplementary Fig. 10).
Actualizaciones del genoma de referencia informadas por los ensamblajes de las cepas
Actualmente hay 11 genes en el ensamblaje de referencia GRCm38 (C57BL/6J) que están incompletos debido a un hueco en la secuencia. En primer lugar, estos loci se compararon con las regiones respectivas en el ensamblaje de C57BL/6NJ y se utilizaron para identificar contigs de ensamblajes públicos de la cepa de referencia previamente omitidos debido a un solapamiento insuficiente. En segundo lugar, se extrajeron las lecturas de C57BL/6J alineadas con las regiones de interés en el ensamblaje de C57BL/6NJ para el ensamblaje dirigido, lo que condujo a la generación de contigs que cubrían secuencias actualmente ausentes en la referencia. Ambos enfoques permitieron completar diez nuevas estructuras genéticas (por ejemplo, la Fig. 11 y los Datos suplementarios 7) y la inclusión casi completa del gen Sts que faltaba anteriormente.
Las mejoras del genoma de referencia, junto con las predicciones genéticas de todas las cepas, se utilizaron para proporcionar actualizaciones de la anotación del genoma de referencia existente, mantenida por el consorcio GENCODE60. Examinamos las predicciones genéticas de RNA-Seq (Comparative Augustus) específicas de cada cepa que contenían un 75% de intrones nuevos en comparación con la anotación de referencia existente (Tabla 1) (GENCODE M8, cromosomas 1-12). De las 785 predicciones investigadas, 62 condujeron a la anotación de nuevos loci, incluyendo 19 genes codificadores de proteínas y 6 pseudogenes (Tabla Suplementaria 14 y Datos Suplementarios 8). En la mayoría de los casos en los que se predijo un nuevo locus en el genoma de referencia, identificamos una anotación preexistente, aunque a menudo incompleta. Por ejemplo, el gen Nmur1 se amplió en su extremo 5′ y se completó sobre la base de pruebas que apoyaban una predicción que empalmaba con un exón aguas arriba que contenía el codón de inicio que faltaba anteriormente. El gen Mroh3, que fue anotado originalmente como un pseudogen no procesado, fue actualizado a un gen codificador de proteínas debido a la identificación de un nuevo intrón que permitió la extensión de la CDS a su longitud completa. El modelo de pseudogen previamente anotado se ha mantenido como un transcrito de decadencia mediada por el sinsentido (NMD) del locus codificador de proteínas. En el nuevo locus bicistrónico, Chml_Opn3, la anotación original era un gen de un solo exón, Chml, que se amplió y se descubrió que compartía su primer exón con el gen Opn3.
Descubrimos un nuevo gen de 188 exones en el cromosoma 11 que amplía significativamente el gen existente Efcab3 que se extiende entre Itgb3 y Mettl2 (Fig. 3a). Este gen similar a Efcab3 fue curado manualmente, validado según las directrices de HAVANA61 e identificado en las versiones M11 y siguientes de GENCODE como Gm11639. Efcab3/Efcab13 codifican proteínas de unión al calcio y el nuevo gen consiste principalmente en dominios repetidos de la proteína EF-hand (Fig. 12 suplementaria). El análisis de la sintenia y de la estructura del genoma demostró que el locus Efcab3 está ampliamente conservado en otros mamíferos, incluyendo la mayoría de los primates. La predicción génica comparativa identificó la versión completa en el orangután, el macaco rhesus, el bushbaby y el mono ardilla. Sin embargo, el locus contiene un punto de ruptura en el ancestro común del chimpancé, el gorila y el ser humano (Homininae) debido a un reordenamiento intracromosómico de ~15 Mb que también eliminó muchas de las repeticiones internas del dominio EF-hand (Fig. 3b y Fig. 13 suplementaria). El análisis de los datos de expresión genotipo-tejido (GTEx)62 en humanos mostró que el locus EFCAB13 se expresa en muchos tipos de tejidos, con la mayor expresión medida en testículos y tiroides. En cambio, el locus EFCAB3 sólo tiene una expresión medible de bajo nivel en los testículos. Esto es coherente con la presencia del promotor del gen completo aguas arriba de la versión de EFCAB13, lo que se apoya en el análisis de H3K4me3 (Fig. 14 suplementaria). En ratones, el gen Efcab3 se expresa específicamente durante el desarrollo en muchos tejidos con una alta expresión en las capas superiores de la placa cortical (ver URLs) y está localizado en las inmediaciones de la región genómica 17q21.31 sintética vinculada a los cambios estructurales del cerebro tanto en ratones como en humanos63. Utilizamos CRISPR (repeticiones palindrómicas cortas agrupadas y regularmente interespaciadas) para crear ratones mutantes similares a Efcab3 (Efcab3em1(IMPC)Wtsi, ver Métodos) y registramos 188 medidas de fenotipo primario (Datos suplementarios 9). También medimos 40 parámetros cerebrales en 22 estructuras cerebrales distintas como parte de un cribado neuro-anatómico de alto rendimiento (Tablas Suplementarias 15 y 16, ver Métodos). En particular, se identificaron anomalías del tamaño del cerebro en los ratones mutantes Efcab3-like en comparación con los controles de tipo salvaje (Fig. 3c). Curiosamente, el ventrículo lateral fue una de las estructuras cerebrales más afectadas, mostrando un aumento del 65% (P = 0,007). Los núcleos pontinos también aumentaron de tamaño en un 42% (P = 0,001) y el cerebelo en un 27% (P = 0,02); estas dos regiones están implicadas en la actividad motora (Fig. 3d y Fig. 15 suplementaria). El tálamo también era mayor en un 19% (P = 0,007). Como resultado, el parámetro de área cerebral total se amplió en un 7% (P = 0,006). En conjunto, estos resultados sugieren un papel potencial del gen Efcab3-like para regular el desarrollo del cerebro y el tamaño del cerebro desde el prosencéfalo hasta el rombencéfalo.