Sixteen diverse laboratory mouse reference genomes define haplotypes específicos de cepas e novos loci funcionais

Assembléias de sequência e anotação de genoma

Assembléias em escala cromossômica foram produzidas para 16 cepas de mouse em laboratório usando uma mistura de Illumina paired-end (40-70×), pares mate (3, 6, 10 kilobases (kb)), fosmídeo e sequências finais BAC (Tabela Suplementar 1), e as bibliotecas Dovetail Genomics Chicago19. Pseudocromossomos foram produzidos em paralelo utilizando alinhamentos cruzados de espécies sintéticas resultando em conjuntos genômicos entre 2,254 (WSB/EiJ) e 2,328 gigabases (Gb) (AKR/J) excluindo bases de fendas desconhecidas. Aproximadamente 0,5-2% do comprimento total do genoma por estirpe não foi colocado e é composto de bases de fendas desconhecidas (18-49%) e seqüências de repetição (61-79%) (Tabela Complementar 2), com entre 89 e 410 genes previstos por estirpe (Tabela Complementar 3). Os conjuntos do genoma mitocondrial (mtDNA) para 14 cepas suportaram seqüências previamente publicadas20, embora um pequeno número de novas variantes de seqüência de alta qualidade em AKR/J, BALB/cJ, C3H/HeJ e LP/J conflitassem com as entradas do GenBank (Tabela Suplementar 4). Os novos haplótipos mtDNA foram identificados em PWK/PhJ e NZO/HlLtJ. Notavelmente, o NZO/HlLtJ continha 55 SNPs (33 compartilhados com as cepas derivadas da natureza) e parece distinto em comparação com as outras cepas clássicas de sangue puro (Fig. 1 do Suplemento). Catálogos de variação anteriores indicaram alta concordância (>97% de SNPs compartilhados) entre NZO/HlLLtJ e outra linhagem de laboratório consanguínea NZB/BlNJ21.

Avaliamos a precisão básica dos cromossomos das estirpes em relação a duas versões do genoma de referência C57BL/6J (MGSCv311 e GRCm382) realinhando primeiramente todas as leituras de cada estirpe de volta às suas respectivas montagens genômicas, usando então estes alinhamentos para identificar SNPs e indels. A taxa de erro combinada de SNP e indel foi de 0,09-0,1 erros por kb, comparado a 0,334 para MGSCv3 e 0,02 para GRCm38 (Tabela Complementar 5). Em seguida, utilizamos um conjunto de 612 pares de primers de reação em cadeia da polimerase (PCR) previamente utilizados para validar chamadas de variantes estruturais em oito linhagens22. Os conjuntos tinham 4,7-6,7% de pares de primers mostrando alinhamentos incorretos comparados a 10% para MGSCv3 (Tabela Suplementar 6). Finalmente, o alinhamento das sequências de DNA complementares de longa duração do PacBio a partir do fígado e baço de C57BL/6J, CAST/EiJ, PWK/PhJ e SPRET/EiJ mostrou que o genoma de referência GRCm38 teve a maior proporção de cDNA corretamente alinhado (99% e 98%, respectivamente) e as cepas e MGSCv3 foram 1-2% mais baixas (Tabela Suplementar 7). A representação de famílias conhecidas de repetição do rato nas montagens mostra que o conteúdo da repetição curta (<200 pares de bases (bp)) foi comparável ao GRCm38 (Figura Complementar 2a,b). O número total de repetições longas (>200 bp) é consistente em todas as cepas; entretanto, os comprimentos totais da sequência são consistentemente menores que GRCm38 (Suplemento Fig. 2c).

Conjuntos de genes de consenso específico da cepa foram produzidos usando a anotação GENCODE C57BL/6J e o sequenciamento de RNA específico da cepa (RNA-Seq) a partir de múltiplos tecidos23 (Suplemento Tabela 8 e Suplemento Fig. 3). Os conjuntos de genes de consenso contêm mais de 20.000 genes codificadores de proteínas e mais de 18.000 genes não codificadores (Fig. 1a e Suplemento da Tabela 1). Para as linhagens de laboratório clássicas, 90,2% das transcrições de codificação (88,0% em linhagens derivadas da natureza selvagem) e 91,2% das transcrições não-codificadoras (91,4% em linhagens derivadas da natureza selvagem) presentes no conjunto de genes de referência GRCm38 foram comparativamente anotadas. As predições genéticas do RNA-Seq (Augustus Comparativo24) de cepas específicas de cepas adicionaram uma média de 1.400 novas isoformas a conjuntos de anotações de genes de cepas derivadas da natureza selvagem e 1.207 novas isoformas a conjuntos de anotações de genes de cepas clássicas. A previsão gênica baseada na seqüência PacBio cDNA introduziu uma média de 1.865 novas isoformas para CAST/EiJ, PWK/PhJ, e SPRET/EiJ. Os loci novos supostos são definidos como genes emendados que foram previstos a partir do RNA-Seq específico da estirpe e não sobrepuseram nenhum gene projetado a partir do genoma de referência. Em média, 37 genes eram loci novos putativos (Dados Suplementares 1) em cepas derivadas da natureza selvagem e 22 em cepas clássicas. Na maioria das vezes, estes parecem resultar de eventos de duplicação de genes. Além disso, um fluxo de trabalho automatizado de anotação de pseudogênios, Pseudopipe25, juntamente com pseudogenes curados manualmente retirados do genoma de referência GRCm38 , identificou uma média de 11.000 (3.317 conservados entre todas as cepas) pseudogenes por cepa (Figura Suplementar 4) que parecem ter surgido através de eventos de retrotransposição (~80%) ou duplicação de genes (~20%).

Fig. 1: Anotação do genoma e conteúdo dos haplótipos específicos da estirpe.

a, Resumo dos conjuntos de genes específicos da estirpe mostrando o número de genes divididos pelo biótipo GENCODE. b, Densidade do SNP (hSNP) Heterozigotos para um intervalo de 50 Mb no cromossomo 11 em janelas de 200 kb para cepas de 17 ratos consanguíneos com base no sequenciamento de alinhamentos de leitura para o genoma de referência C57BL/6J (GRCm38) (topo). Os rótulos indicam genes que se sobrepõem às regiões mais densas. SNPs visualizados em CAST/EiJ e WSB/EiJ para 71.006-71.170 Mb no GRCm38 (inferior), incluindo Derl2 e Mis12 (painel superior) e Nlrp1b (painel inferior). A cor cinza indica que a base da estirpe concorda com a referência, outras cores indicam diferenças de SNP e a altura corresponde à profundidade do sequenciamento. c, Quantidade total de genes codificadores de seqüência e proteína em regiões enriquecidas para hSNPs (em relação ao genoma de referência GRCm38) por estirpe. d, Top PantherDB categorias de genes codificadores em regiões enriquecidas para hSNPs com base na classe de proteína (esquerda). Intersecção de genes na categoria de defesa e imunidade para as cepas de origem selvagem e clássicas (à direita). e, Caixa de diferenças de sequência (%) para LTRs, LINEs e SINEs dentro e fora das regiões hSNP. A divergência de sequência é relativa a uma sequência de consenso para o tipo de elemento transponível (n = número de repetições em GRCm38, *** indicado P < 0,001 usando o teste t de duas amostras de Welch. Os gráficos da caixa mostram percentis 25 e 75, e o valor mediano.

Regiões do genoma do rato com variação alélica extrema

Estirpes de rato de laboratório consanguíneo são caracterizadas por pelo menos 20 gerações de consanguinidade e são geneticamente homozigotos em quase todos os loci1. Apesar disso, catálogos anteriores de variação do SNP identificaram SNPs heterozigotos de alta qualidade (hSNPs) quando as leituras foram alinhadas ao genoma de referência C57BL/6J12. A presença de densidades maiores de hSNPs pode indicar mudanças no número de cópias, ou novos genes que não estão presentes no conjunto de referência, forçados a mapear parcialmente para um único locus na referência12,21. Assim, sua identificação é uma poderosa ferramenta para encontrar erros nas assembléias do genoma. Identificamos entre 116.439 (C57BL/6NJ) e 1.895.741 (SPRET/EiJ) hSNPs de alta qualidade do catálogo de variação MGP v521 (Tabela Suplementar 9). Focalizando nossa análise nos 5% superiores da maioria das regiões hSNPs densas (janelas ≥ 71 hSNPs por janela deslizante de 10 kb) identificou a maioria das regiões polimórficas conhecidas entre as cepas (Suplemento Fig. 5) e respondeu por ~49% de todos os hSNPs (Tabela Suplemento 9 e Suplemento Fig. 6a). Após aplicar este corte a todas as regiões hSNP específicas da estirpe e fundir janelas sobrepostas ou adjacentes, entre 117 (C57BL/6NJ) e 2.567 (SPRET/EiJ) regiões hSNP permaneceram por estirpe (Tabela Suplementar 9), com um tamanho médio de 18-20 kb (Suplementar Fig. 6b). Muitos clusters de hSNP sobrepõem imunidade (por exemplo, MHC, receptores do tipo NOD e receptores do tipo AIM), sensoriais (por exemplo, receptores olfativos e gustativos), reprodutivos (por exemplo, glicoproteínas específicas da gravidez e proteínas ricas em E associadas ao esperma) e genes neuronais e relacionados ao comportamento (por exemplo, receptores de coceira26 e γ-protocadherins27) (Fig. 1b e Suplemento Fig. 5). Todas as regiões hSNP de cepas derivadas da natureza continham genes e sequências de codificação (CDS) de pares de base maiores do que qualquer cepa inbred clássica (≥503 e ≥0.36 megabases (Mb), respectivamente; Tabela Suplementar 9). As regiões identificadas em C57BL/6J e C57BL/6NJ (117 e 141, respectivamente; 145 combinadas) cruzam questões de montagem conhecidas do GRCm38 , incluindo lacunas, andaimes não colocados, ou regiões centrômicas (107/145, 73,8%). As demais regiões candidatas incluem grandes famílias proteicas (15/145, 10,3%) e elementos repetidos (17/145, 11,7%) (Dados Suplementares 2).

Examinamos as classes proteicas presentes nas regiões hSNP identificando 1.109 combinações PantherDB, atribuídas a 26 classes proteicas de um conjunto combinado de todos os genes em regiões densas hSNP (Dados Suplementares 3). Defesa e imunidade foi a maior classe de proteína representada (155 genes, Dados Suplementares 4), respondendo por 13,98% de todos os acertos de classe de proteína (Tabela Suplementar 10). Este foi um enriquecimento quíntuplo em comparação com uma taxa estimada para todo o genoma (Fig. 1d). Notavelmente, foram identificados 89 genes imunológicos em cepas clássicas, 84 dos quais foram compartilhados com pelo menos uma das cepas derivadas da natureza selvagem (Fig. 1d). SPRET/EiJ contribuiu com o maior número de acertos de genes específicos de cepas (22 genes).

Muitas famílias de genes parálogos foram representadas entre as regiões hSNP (Dados Suplementares 3), incluindo genes com ortologs humanos funcionais. Vários exemplos proeminentes incluem alelos da apolipoproteína L, cujas variantes podem conferir resistência ao Trypanosoma brucei, a principal causa da doença do sono humano28,29; IFI16 (interferon gamma inducible protein 16, um membro de receptores do tipo AIM2), um sensor de DNA necessário para a morte de células T linfóides CD4 infectadas abortivamente com o imunovírus humano (HIV)30; NAIP (proteína inibitória da apoptose da família NLR), na qual a variação funcional do número de cópias está ligada ao aumento da morte celular na infecção por Legionella pneumophila31; e secretoglobinas (membros Scgb), que podem estar envolvidas na formação e invasão de tumores tanto em humanos quanto em camundongos32,33. Grandes famílias de genes em que se conhece pouca informação funcional também foram identificadas. Um cluster de aproximadamente 50 genes, que inclui hippocalcina 1 (Hpcal1) e seus homólogos, foram identificados (cromossomo 12: 18-25 Mb). Hpcal1 pertence aos sensores neuronais de cálcio expressos principalmente em fotorreceptores da retina, neurônios e células neuroendócrinas34. Esta região é enriquecida para hSNPs em todas as linhagens exceto C57BL/6J e C57BL/6NJ. Curiosamente, dentro desta região, o Cpsf3 (21,29 Mb) está localizado em uma ilha de alta conservação em todas as cepas e um nocaute homozigoto C57BL/6NJ produz descendência subviável35. Exemplos adicionais incluem outra região no cromossoma 12 (87-88 Mb) contendo aproximadamente 20 homólogos com fator de iniciação de tradução eucariótica 1A (eIF1a) e no cromossomo 14 (41-45 Mb) contendo aproximadamente 100 genes do tipo Dlg1. Genes de todas as regiões candidatas ao hSNP foram identificados e anotados (Fig. 5 Suplementar).

Examinamos o conteúdo de retrotransposão nas regiões densas do hSNP no GRCm38 em comparação com uma distribuição nula estimada (um milhão de simulações) e encontramos um enriquecimento significativo tanto de LTRs (empírico P < 1 × 10-7) quanto de elementos nucleares longos intercalados (LINEs) (empírico P < 1 × 10-7) (Tabelas Suplementares 11 e 12). A retrotransposição gênica está há muito implicada na criação da diversidade da família genética36, novos alelos conferindo adaptações positivamente selecionadas37. Uma vez transpostos, os elementos transponíveis acumulam mutações ao longo do tempo à medida que a seqüência diverge38,39. Para LTRs, LINEs e elementos nucleares curtos intercalados (SINEs), a divergência percentual média da seqüência foi significativamente menor (P < 1 × 10-22) dentro das regiões hSNP em relação ao resto do genoma (Fig. 1e). A maior diferença na divergência da sequência média foi entre os LTRs dentro e fora das regiões densas de hSNP. Examinando apenas elementos repetidos com menos de 1% de divergência, encontramos que estas regiões são significativamente enriquecidas para LTRs (empírico P < 1 × 10-7) e LINEs (empírico P = 0,047).

De novo conjunto de famílias de genes complexos

Nossos dados elucidaram a variação do número de cópias previamente desconhecido em genomas de cepas de camundongos e expansões de genes descobertos, contrações e novos alelos (<80% de identidade de sequência). Por exemplo, 23 grupos distintos de receptores olfativos foram identificados, indicando uma variação substancial entre as linhagens consanguíneas. No rato, as diferenças fenotípicas, particularmente na dieta e no comportamento, foram ligadas a repertórios de receptores olfativos distintos40,41. Para tanto, caracterizamos o repertório de receptores olfativos CAST/EiJ utilizando nosso conjunto de novo e identificamos 1.249 genes candidatos a receptores olfativos (Dados Suplementares 5). Em relação à linhagem de referência (C57BL/6J), o CAST/EiJ perdeu 20 receptores olfativos e ganhou 37 membros da família dos genes: 12 novos e 25 suportados por previsões baseadas em RNA mensageiro (mRNA) derivado da mucosa olfatória total CAST/EiJ (Fig. 2a e Tabela Suplementar 13)42.

Fig. 2: Alelos específicos da cepa para loci olfativo e imunitário.

a, genes receptores olfatórios no cromossomo 11 do CAST/EiJ. Ganho/perda de genes e similaridade são relativos a C57BL/6J. Os novos membros são nomeados de acordo com seus homólogos mais similares. b, A ordem dos genes através do locus Raet1/H60 nas cepas Collaborative Cross parental (A/J, NOD/ShiLtJ e 129S1/SvImJ compartilham o mesmo haplótipo neste locus, representado por NOD/ShiLtJ). O nome da estirpe em preto/vermelho indica Aspergillus fumigatus resistente/susceptível. Caixa tracejada indica ordem genética não confirmada. c, Novos alelos codificadores de proteínas da família do gene Nlrp1 nas linhagens derivadas da natureza e duas linhagens clássicas consanguíneas. As cores representam as relações filogenéticas (topo, vizinho aminoácido que une a árvore do domínio NBD) e a ordem relativa do gene através das estirpes (fundo). d, Um gráfico de pontos regionais do locus Nlrp1 em PWK/PhJ comparado com a referência C57BL/6J GRCm38 (código de cores igual ao painel c). Blocos cinzentos indicam repetições e elementos transponíveis.

Descobrimos novos membros gênicos em vários loci imunes importantes regulando respostas inatas e adaptativas à infecção. Por exemplo, o cromossoma 10 (22.1-22.4 Mb) em C57BL/6J contém alelos de Raet1 e membros de antígenos de histocompatibilidade menor de H60. Raet1 e H60 são ligandos importantes para o NKG2D, um receptor activador de células assassinas naturais43. Os ligandos NKG2D são expressos na superfície de células infectadas44 e metastáticas45 e podem participar de respostas auto-imunes de aloenxertos46. Da montagem de novo, seis diferentes haplótipos Raet1/H60 foram identificados entre as oito linhagens fundadoras do CC; três dos haplotipos identificados são compartilhados entre os fundadores clássicos de CC consanguíneos (A/J, 129S1/SvImJ e NOD/ShiLtJ têm o mesmo haplótipo) e três haplotipos diferentes de Raet1/H60 foram identificados em cada uma das linhagens congênitas de origem selvagem (CAST/EiJ, PWK/PhJ e WSB/EiJ) (Fig. 2b e Figs. 7 e 8 Suplementares). O haplótipo CAST/EiJ codifica apenas um único membro da família Raet1 (Raet1e) e nenhum alelo H60, enquanto o haplótipo clássico NOD/ShiLtJ tem quatro alelos H60 e três alelos Raet1. O locus 4 resistente a Aspergillus (Asprl4), um dos vários loci de características quantitativas (QTLs) que medeiam a resistência contra a infecção por Aspergillus fumigatus, sobrepõe-se a este locus e compreende um intervalo de 1 Mb (~10% de QTL) que, em comparação com outras estirpes clássicas, contém um haplótipo único para NZO/HlLtJ (Fig. 7 Suplementar). Associações de haplótipos específicos de estirpes com Asprl4 e sobrevivência foram relatadas para CAST/EiJ e NZO/HlLtJ, ambas exibindo resistência à infecção por A. fumigatus47 e são também as únicas estirpes que perderam alelos H60 neste locus.

Examinamos três loci relacionados à imunidade no cromossomo 11, IRG (GRCm38: 48,85-49,10 Mb), Nlrp1 (71,05-71,30 Mb) e Slfn (82,9-83,3 Mb) devido à sua complexidade polimórfica e importância para a sobrevivência do rato48,49,50. O locus Nlrp1 (receptores do tipo NOD, contendo domínio de pirina) codifica componentes inflammáticos que detectam produtos microbianos endógenos e tensões metabólicas, estimulando assim respostas imunes inatas51. No rato doméstico, os alelos Nlrp1 estão envolvidos na detecção da toxina letal do Bacillus anthracis, levando à ativação inflammática e piroptose dos macrófagos52,53. Descobrimos sete membros distintos da família Nlrp1 comparando seis cepas (CAST/EiJ, PWK/PhJ, WSB/EiJ, SPRET/EiJ, NOD/ShiLtJ, e C57BL/6J). Cada estirpe tem um haplótipo único de membros Nlrp1, destacando a extensa diversidade de sequências neste local através de estirpes de ratos consanguíneos (Fig. 2c). Cada uma das três estirpes M. m. domesticus (C67BL/6J, NOD/ShiLtJ e WSB/EiJ) carrega uma combinação diferente de membros da família Nlrp1; Nlrp1d-1f são novos alelos específicos da estirpe que eram anteriormente desconhecidos. A diversidade entre os diferentes alelos Nlrp1 é maior do que a divergência de sequência entre os alelos do rato e do rato. Por exemplo, C57BL/6J contém Nlrp1c, que não está presente nas outras duas cepas, enquanto Nlrp1b2 está presente tanto na NOD/ShiLtJ como na WSB/EiJ, mas não na C57BL/6J. Em PWK/PhJ (M. m. musculus), o locus Nlrp1 tem quase o dobro do tamanho relativo ao genoma de referência GRCm38 e contém novos homólogos Nlrp1 (Fig. 2c), enquanto que em M. spretus (também derivado da natureza selvagem) este locus é muito mais curto do que em qualquer outra estirpe de rato. Aproximadamente 90% das regiões intergênicas no conjunto PWK/PhJ do locus Nlrp1 é composto de elementos transponíveis (Fig. 2d).

O locus PWK/PhJ (M. m. musculus) e CAST/EiJ (M. m. castaneus) compartilham haplótipos altamente similares; entretanto, os macrófagos PWK/PhJ são resistentes à morte celular piroptótica induzida pela toxina letal do antrax, enquanto os macrófagos CAST/EiJ não são54. Tem sido sugerido que Nlrp1c pode ser o membro causal da família que medeia a resistência; Nlrp1c pode ser amplificado a partir de cDNA de macrófagos PWK/PhJ, mas não CAST/EiJ54. Nas montagens de novo, ambas cepas de mouse compartilham a mesma região promotora do Nlrp1c; entretanto, quando transcrito, o cDNA do Nlrp1c_CAST não pôde ser amplificado com primers previamente desenhados54 devido aos SNPs no site de ligação do primer (5′…CACT-3′ → 5′…TACC-3′). O site de ligação de primers em PWK/PhJ é o mesmo que em C57BL/6J, porém Nlrp1c é um pseudogene previsto. Encontramos um descasamento de 18 aminoácidos no domínio de ligação de nucleotídeos (NBD) entre o Nlrp1b_CAST e o Nlrp1b_PWK. Estes perfis divergentes sugerem que o Nlrp1c não é o único mediador da resistência à toxina letal do antrax no rato, mas vários outros membros podem estar envolvidos. Membros recém anotados Nlrp1b2 e Nlrp1d aparecem funcionalmente intactos no CAST/EiJ mas ambos foram previstos como pseudogenes no PWK/PhJ devido à presença de códons de parada ou mutações frameshift. Em C57BL/6J, três isoformas de emenda de Nlrp1b (SV1, SV2 e SV3) foram relatadas54. Um ponto-plot entre PWK/PhJ e a referência C57BL/6J ilustra a ruptura da co-linearidade nos alelos PWK/PhJ Nlrp1b2 e Nlrp1d (Fig. 2d). Todas as estirpes derivadas da natureza que sequenciamos contêm Nlrp1d de comprimento total e exibem uma perturbação de co-linearidade semelhante nesses alelos em relação a C57BL/6J (Dados Suplementares 6). A isoforma SV1 em C57BL/6J é derivada de parálogos ancestrais truncados de Nlrp1b e Nlrp1d, indicando que Nlrp1d foi perdido na linhagem C57BL/6J. A estrutura genômica do locus Nlrp1 em PWK/PhJ, CAST/EiJ, WSB/EiJ, e NOD/ShiLtJ foi confirmada usando Fiber-FISH (Suplemento Fig. 9).

As assembléias também mostraram grande diversidade em cada um dos outros loci examinados: GTPases relacionados à imunidade (IRGs) e família Schlafen (Slfn). As proteínas IRG pertencem a uma subfamília de GTPases interferon-induzíveis presentes na maioria dos vertebrados55. No rato, os membros da família das proteínas IRG contribuem para o sistema imunitário adaptativo ao conferirem resistência contra patogénios intracelulares como a Chlamydia trachomatis, Trypanosoma cruzi e Toxoplasma gondii56. Nossa montagem de novo está de acordo com os dados previamente publicados para o CAST/EiJ48. Pela primeira vez, mostra a ordem, orientação e estrutura de três haplótipos altamente divergentes presentes na WSB/EiJ, PWK/PhJ e SPRET/EiJ, incluindo nova anotação de promotores rearranjados, pseudogenes processados inseridos e uma alta freqüência de repetições de LINE (Dados Suplementares 6).

A família de genes Schlafen (cromossomo 11: 82.9-83.3 Mb) está alegadamente envolvida em respostas imunológicas, diferenciação celular, proliferação e crescimento, invasão do câncer, e resistência à quimioterapia. Em humanos, o SLFN11 foi relatado para inibir a síntese protéica do HIV por um mecanismo baseado na utilização do códon57 e em primatas não humanos foi relatada a seleção positiva no gene Slfn1158. Em camundongos, a morte embrionária pode ocorrer entre estirpes portadoras de haplótipos incompatíveis do Slfn59. A montagem do Slfn para as três estirpes fundadoras do CC de origem selvagem (CAST/EiJ, PWK/PhJ e WSB/EiJ) mostrou, pela primeira vez, uma grande variação neste locus. Os membros do grupo 4 genes Slfn50, Slfn8, Slfn9 e Slfn10, mostram uma diversidade significativa de sequências entre estas estirpes. Por exemplo, Sfln8 é um pseudogene previsto em PWK/PhJ mas é codificador de proteínas nas outras cepas; o alelo CAST/EiJ contém 78 desajustes de aminoácidos em comparação com a referência C57BL/6J (Suplemento Fig. 10). Ambos CAST/EiJ e PWK/PhJ contêm cópias funcionais do Sfln10, que é um pseudogene previsto em C57BL/6J e WSB/EiJ. Um novo códon inicial a montante do Slfn4, que causa uma extensão terminal de 25 aminoácidos N-terminal, foi identificado em PWK/PhJ e WSB/EiJ. Outro membro presente na referência, Slfn14, é conservado em PWK/PhJ e CAST/EiJ mas é um pseudogene em WSB/EiJ (Suplemento Fig. 10).

Atualizações do genoma de referência informadas pelos conjuntos de cepas

Existem atualmente 11 genes no conjunto de referência GRCm38 (C57BL/6J) que estão incompletos devido a uma lacuna na sequência. Primeiro, esses loci foram comparados com as respectivas regiões no conjunto C57BL/6NJ e usados para identificar contigs de conjuntos públicos da cepa de referência previamente omitidos devido a uma sobreposição insuficiente. Em segundo lugar, as leituras de C57BL/6J alinhadas com as regiões de interesse na montagem de C57BL/6NJ foram extraídas para a montagem dirigida, levando à geração de contigs cobrindo seqüências atualmente ausentes da referência. Ambas as abordagens resultaram na conclusão de dez novas estruturas de genes (por exemplo, Fig. 11 e Dados Suplementares 7) e na inclusão quase completa do gene Sts que estava faltando anteriormente.

Improvements to the reference genome, coupled with pan-strain gene predictions, were used to provide updates to the existing reference genome annotation, maintained by the GENCODE consortium60. Examinamos as previsões do gene RNA-Seq (Comparative Augustus) específico da cepa contendo 75% de novos introns em comparação com a anotação de referência existente (Tabela 1) (GENCODE M8, cromossomos 1-12). Das 785 predições investigadas, 62 levaram à anotação de novos loci, incluindo 19 genes codificadores de proteínas e 6 pseudogenes (Tabela 14 e Dados Suplementares 8). Na maioria dos casos em que um novo locus foi predito no genoma de referência, identificamos a anotação pré-existente, mas muitas vezes incompleta. Por exemplo, o gene Nmur1 foi estendido no final de 5′ e completado com base em evidências que suportam uma predição que se uniram a um exon a montante contendo o códon de início anteriormente ausente. O gene Mroh3, que foi originalmente anotado como um pseudogene não processado, foi atualizado para um gene codificador de proteínas devido à identificação de um novo intron que permitiu a extensão do CDS até o seu comprimento total. O modelo do pseudogene previamente anotado foi retido como uma transcrição sem sentido da decadência mediada (NMD) do locus codificador de proteínas. No novo locus bicistrônico, Chml_Opn3, a anotação original era um único gene exon, Chml, que foi estendido e encontrado para compartilhar seu primeiro exon com o gene Opn3.

Table 1 Genome Reference Consortium (GRCm38) e a anotação GENCODE actualiza informada pelas assembleias de estirpes

Nós descobrimos um novo gene 188-exon no cromossoma 11 que estende significativamente o gene Efcab3 existente entre Itgb3 e Mettl2 (Fig. 3a). Este gene do tipo Efcab3 foi curado manualmente, validado de acordo com as diretrizes da HAVANA61 e identificado no GENCODE a partir das versões M11 como Gm11639. O Efcab3/Efcab13 codifica as proteínas de ligação ao cálcio e o novo gene consiste principalmente em domínios repetidos da proteína EF-hand (Suplemento Fig. 12). A análise da síntese e da estrutura do genoma mostrou que o lócus Efcab3 está amplamente conservado em outros mamíferos, incluindo a maioria dos primatas. A predição genética comparativa identificou a versão completa em orangotango, rhesus macaque, bushbaby, e macaco esquilo. No entanto, o locus contém um ponto de quebra no ancestral comum de chimpanzé, gorila e humano (Homininae) devido a um rearranjo intracromossômico de ~15 Mb que também eliminou muitas das repetições internas do domínio EF-hand (Fig. 3b e Suplementar Fig. 13). A análise dos dados da Expressão Genótipo-Tissue (GTEx)62 em humanos mostrou que o locus EFCAB13 é expresso através de muitos tipos de tecido, com a expressão mais alta medida em testículo e tireóide. Em contraste, o lócus EFCAB3 só tem expressão mensurável de baixo nível no testículo. Isto é consistente com a presença do promotor do gene de comprimento total a montante da versão EFCAB13, que é suportada pela análise H3K4me3 (Suplemento Fig. 14). Em ratos, o gene Efcab3 é especificamente expresso durante o desenvolvimento através de muitos tecidos com alta expressão nas camadas superiores da placa cortical (ver URLs) e está localizado na vizinhança imediata da região genômica 17q21.31 sintética ligada a mudanças estruturais do cérebro tanto em ratos quanto em humanos63. Utilizamos CRISPR (agrupados regularmente em repetições palíndromas curtas espaçadas) para criar ratos mutantes do tipo Efcab3 (Efcab3em1(IMPC)Wtsi, ver Métodos) e registramos 188 medidas de fenotipagem primária (Dados Suplementares 9). Também medimos 40 parâmetros cerebrais em 22 estruturas cerebrais distintas como parte de uma tela neuro-anatômica de alto rendimento (Tabelas Suplementares 15 e 16, ver Métodos). Notavelmente, anomalias de tamanho do cérebro foram identificadas em ratos mutantes do tipo Efcab3 quando comparados a controles do tipo selvagem (Fig. 3c). Curiosamente, o ventrículo lateral foi uma das estruturas cerebrais mais severamente afetadas, apresentando uma ampliação de 65% (P = 0,007). Os núcleos pontinos também foram aumentados em 42% (P = 0,001) e o cerebelo em 27% (P = 0,02); estas duas regiões estão envolvidas na atividade motora (Fig. 3d e Suplementar Fig. 15). O tálamo também foi maior em 19% (P = 0,007). Como resultado, o parâmetro área total do cérebro foi aumentado em 7% (P = 0,006). Em conjunto, estes resultados sugerem um papel potencial do gene do tipo Efcab3 para regular o desenvolvimento cerebral e o tamanho do cérebro desde o cérebro do antebraço até o retrobraço.

Fig. 3: locus do tipo Efcab3, história evolutiva, e fenotipagem de knockout.

a, Augustus comparativo identificou um gene exon 188 não anotado (Efcab3, rastos vermelhos). RNA-Seq splicing a partir de dois tecidos (B = Cérebro, L = Fígado, pegadas azuis) e cinco linhagens são exibidas. A anotação manual estendeu este gene para 188 exons (rastro vermelho inferior). b, História evolutiva do Efcab3 em vertebrados incluindo a estrutura do genoma e genes circundantes. A estrutura do mRNA de cada gene é mostrada com linhas brancas nos blocos azuis. A nova sequência de codificação descoberta neste estudo é mostrada em amarelo. Notavelmente, Efcab13 e Efcab3 são fragmentos do novo gene do tipo Efcab3. Um evento de recombinação aconteceu no ancestral comum da subfamília Homininae, que perturbou o Efcab3 do tipo gorila (G. gorilla) e humano (H. sapiens). c, Representação esquemática de 22 regiões cerebrais plotadas em plano sagital para ratos machos mutantes do tipo Efcab3 (16 semanas de idade, n = 3) de acordo com os valores de P (teste de variância t de duas caudas iguais, à esquerda). As regiões cerebrais correspondentes são marcadas com um número que é descrito abaixo do painel (Tabela Suplementar 15). A coloração branca indica um valor de P > 0,05 e a cinza indica que a região cerebral não pôde ser testada com confiança devido à falta de dados. Histogramas mostrando as características neuroanatômicas como aumento ou diminuição percentual das regiões cerebrais avaliadas em ratos mutantes do tipo Efcab3 comparados com controles combinados (direita). d, Imagens representativas sagitais do cérebro de controles combinados (esquerda) e mutantes do tipo Efcab3 (direita), mostrando um cerebelo maior, ventrículo lateral aumentado e tamanho aumentado dos núcleos pontinos (n = 3, ver Suplemento 15).

Deixe uma resposta

O seu endereço de email não será publicado.