Polimorfismo de nucleotídeo único - Single-nucleotide polymorphism

A molécula de DNA superior difere da molécula de DNA inferior em um único par de bases (um polimorfismo G / A)

Em genética , um polimorfismo de nucleotídeo único ( SNP / s n ɪ p / ; SNPs / s n ɪ p s / plural ) é uma substituição da linha germinativa de um único nucleotídeo em uma posição específica no genoma . Embora certas definições exijam que a substituição esteja presente em uma fração suficientemente grande da população (por exemplo, 1% ou mais), muitas publicações não aplicam esse limite de frequência.

Por exemplo, em uma posição de base específica no genoma humano, o nucleótido G pode aparecer na maior parte dos indivíduos, mas numa minoria de indivíduos, a posição é ocupada por um A . Isso significa que há um SNP nesta posição específica, e as duas variações de nucleotídeos possíveis - G ou A - são considerados os alelos para esta posição específica.

Os SNPs identificam diferenças em nossa suscetibilidade a uma ampla gama de doenças (por exemplo, anemia falciforme , β-talassemia e fibrose cística ). A gravidade da doença e a forma como o corpo responde aos tratamentos também são manifestações de variações genéticas causadas por SNPs. Por exemplo, uma mutação de base única no gene APOE ( apolipoproteína E ) está associada a um risco menor de doença de Alzheimer .

Uma variante de nucleotídeo único ( SNV ) é uma variação em um único nucleotídeo. Os SNVs diferem dos SNPs em que um SNV pode ser somático e pode ser causado por câncer, mas um SNP tem que segregar na população de organismos de uma espécie. Os SNVs também surgem comumente em diagnósticos moleculares, como a criação de primers de PCR para detectar vírus, nos quais a amostra de RNA ou DNA viral pode conter SNVs.

Tipos

Tipos de SNPs
Tipos de polimorfismo de nucleotídeo único (SNPs)

Polimorfismos de nucleotídeo único podem cair em sequências codificantes de genes , regiões não codificantes de genes ou nas regiões intergênicas (regiões entre genes). SNPs dentro de uma sequência de codificação não alteram necessariamente a sequência de aminoácidos da proteína que é produzida, devido à degenerescência do código genético .

SNPs na região de codificação são de dois tipos: SNPs sinônimos e não-sinônimos. SNPs sinônimos não afetam a sequência da proteína, enquanto SNPs não sinônimos alteram a sequência de aminoácidos da proteína.

  • Os SNPs em regiões não codificantes podem se manifestar em um risco maior de câncer e podem afetar a estrutura do mRNA e a suscetibilidade à doença. SNPs não codificantes também podem alterar o nível de expressão de um gene, como um eQTL (locus de traço quantitativo de expressão).
  • SNPs em regiões de codificação :
    • As substituições de sinônimos, por definição, não resultam em uma mudança de aminoácido na proteína, mas ainda podem afetar sua função de outras maneiras. Um exemplo seria uma mutação aparentemente silenciosa no gene 1 de resistência a múltiplas drogas ( MDR1 ), que codifica uma bomba de membrana celular que expele drogas da célula, pode retardar a tradução e permitir que a cadeia de peptídeo se dobre em uma conformação incomum, causando o bomba mutante para ser menos funcional (na proteína MDR1, por exemplo, polimorfismo C1236T altera um códon GGC para GGT na posição de aminoácido 412 do polipeptídeo (ambos codificam glicina) e o polimorfismo C3435T altera ATC para ATT na posição 1145 (ambos codificam isoleucina)).
    • substituições não-sinônimas :

SNPs que não estão em regiões codificadoras de proteínas ainda podem afetar o splicing do gene , a ligação do fator de transcrição , a degradação do RNA mensageiro ou a sequência do RNA não codificador. A expressão gênica afetada por este tipo de SNP é chamada de eSNP (expressão SNP) e pode estar a montante ou a jusante do gene.

Frequência

Mais de 335 milhões de SNPs foram encontrados em humanos de várias populações. Um genoma típico difere do genoma humano de referência em 4 a 5 milhões de locais, a maioria dos quais (mais de 99,9%) consiste em SNPs e indels curtos .

Dentro de um genoma

A distribuição genômica dos SNPs não é homogênea; SNPs ocorrem em regiões não codificantes com mais freqüência do que em regiões codificantes ou, em geral, onde a seleção natural está agindo e "fixando" o alelo (eliminando outras variantes) do SNP que constitui a adaptação genética mais favorável. Outros fatores, como recombinação genética e taxa de mutação, também podem determinar a densidade SNP.

A densidade SNP pode ser prevista pela presença de microssatélites : microssatélites AT em particular são potentes preditores de densidade SNP, com longos tratos de repetição (AT) (n) tendendo a ser encontrados em regiões de densidade SNP significativamente reduzida e baixo conteúdo de GC .

Dentro de uma população

Existem variações entre as populações humanas, portanto, um alelo SNP comum em um grupo geográfico ou étnico pode ser muito mais raro em outro. No entanto, esse padrão de variação é relativamente raro; em uma amostra global de 67,3 milhões de SNPs, o Projeto de Diversidade do Genoma Humano

não encontraram tais variantes privadas que são fixadas em um determinado continente ou região principal. As frequências mais altas são alcançadas por algumas dezenas de variantes presentes em> 70% (e alguns milhares em> 50%) na África, nas Américas e na Oceania. Em contraste, as variantes de frequência mais altas privadas para Europa, Leste Asiático, Oriente Médio ou Ásia Central e do Sul chegam a apenas 10 a 30%.

Dentro de uma população, os SNPs podem ser atribuídos a uma frequência de alelo menor - a frequência de alelo mais baixa em um locus que é observado em uma determinada população. Esta é simplesmente a menor das duas frequências de alelos para polimorfismos de nucleotídeo único.

Com esse conhecimento, os cientistas desenvolveram novos métodos de análise de estruturas populacionais em espécies menos estudadas. Usando técnicas de pooling, o custo da análise é reduzido significativamente. Essas técnicas são baseadas no sequenciamento de uma população em uma amostra combinada, em vez de sequenciar cada indivíduo dentro da população por si só. Com as novas ferramentas de bioinformática, existe a possibilidade de investigar a estrutura da população, o fluxo gênico e a migração gênica, observando as frequências alélicas em toda a população. Com estes protocolos existe a possibilidade de combinar as vantagens dos SNPs com marcadores de micro satélites. No entanto, há informações perdidas no processo, como desequilíbrio de ligação e informações de zigosidade.

Formulários

  • Os estudos de associação podem determinar se uma variante genética está associada a uma doença ou característica.
  • Um tag SNP é um polimorfismo de nucleotídeo único representativo em uma região do genoma com alto desequilíbrio de ligação (a associação não aleatória de alelos em dois ou mais loci). Tag SNPs são úteis em estudos de associação de SNPs de genoma completo, nos quais centenas de milhares de SNPs em todo o genoma são genotipados.
  • Mapeamento de haplótipos : conjuntos de alelos ou sequências de DNA podem ser agrupados de modo que um único SNP possa identificar muitos SNPs vinculados.
  • O desequilíbrio de ligação (LD), um termo usado na genética de populações, indica associação não aleatória de alelos em dois ou mais loci, não necessariamente no mesmo cromossomo. Refere-se ao fenômeno de que o alelo SNP ou a sequência de DNA que estão próximos no genoma tendem a ser herdados juntos. O LD pode ser afetado por dois parâmetros (entre outros fatores, como estratificação da população): 1) A distância entre os SNPs [quanto maior a distância, menor o LD]. 2) Taxa de recombinação [quanto menor a taxa de recombinação, maior o LD].

Importância

Variações nas sequências de DNA de humanos podem afetar o modo como os humanos desenvolvem doenças e respondem a patógenos , produtos químicos , drogas , vacinas e outros agentes. Os SNPs também são essenciais para a medicina personalizada . Os exemplos incluem pesquisa biomédica, forense, farmacogenética e causalidade de doenças, conforme descrito abaixo.

Pesquisa Clinica

A maior importância dos SNPs na pesquisa clínica é a comparação de regiões do genoma entre coortes (como coortes correspondentes com e sem doença) em estudos de associação de todo o genoma . SNPs têm sido usados ​​em estudos de associação do genoma como marcadores de alta resolução no mapeamento de genes relacionados a doenças ou traços normais. SNPs sem um impacto observável no fenótipo (as chamadas mutações silenciosas ) ainda são úteis como marcadores genéticos em estudos de associação do genoma, por causa de sua quantidade e da herança estável ao longo das gerações.

forense

Os SNPs têm sido usados ​​historicamente para comparar uma amostra de DNA forense a um suspeito, mas se tornaram obsoletos devido ao avanço das técnicas de impressão digital de DNA baseadas em STR . No entanto, o desenvolvimento da tecnologia de sequenciamento de próxima geração (NGS) pode permitir mais oportunidades para o uso de SNPs em pistas fenotípicas, como etnia, cor do cabelo e cor dos olhos com uma boa probabilidade de correspondência. Isso também pode ser aplicado para aumentar a precisão das reconstruções faciais, fornecendo informações que podem ser desconhecidas, e essas informações podem ser usadas para ajudar a identificar suspeitos, mesmo sem uma correspondência de perfil de DNA de STR .

Alguns contras de usar SNPs versus STRs é que SNPs geram menos informações do que STRs e, portanto, mais SNPs são necessários para análise antes que um perfil de um suspeito seja criado. Além disso, os SNPs dependem fortemente da presença de um banco de dados para análise comparativa de amostras. No entanto, em casos com amostras degradadas ou de pequeno volume, as técnicas SNP são uma excelente alternativa aos métodos STR. SNPs (ao contrário de STRs) têm uma abundância de marcadores potenciais, podem ser totalmente automatizados e uma possível redução do comprimento do fragmento necessário para menos de 100 bp. [26]

Farmacogenética

Alguns SNPs estão associados ao metabolismo de diferentes drogas. Os SNP podem ser mutações, como deleções, que podem inibir ou promover a atividade enzimática; tal mudança na atividade enzimática pode levar à diminuição das taxas de metabolismo de drogas. A associação de uma ampla gama de doenças humanas como câncer , doenças infecciosas ( AIDS , hanseníase , hepatite , etc.) autoimunes , neuropsiquiátricas e muitas outras doenças com diferentes SNPs pode ser feita como alvos farmacogenômicos relevantes para a terapia medicamentosa.

Doença

Um único SNP pode causar uma doença Mendeliana , embora para doenças complexas , os SNPs geralmente não funcionam individualmente, em vez disso, eles funcionam em coordenação com outros SNPs para manifestar uma doença como na Osteoporose. [33] Um dos primeiros sucessos nesse campo foi encontrar uma mutação de base única na região não codificadora do APOC3 (gene da apolipoproteína C3) associada a riscos mais elevados de hipertrigliceridemia e aterosclerose . [34] Algumas doenças causadas por SNPs incluem a artrite reumatóide , doença de Crohn , cancro da mama , a doença de Alzheimer , e algumas desordens auto-imunes . Estudos de associação em grande escala foram realizados para tentar descobrir SNPs causadores de doenças adicionais em uma população, mas um grande número deles ainda é desconhecido.

Exemplos

Bancos de dados

Como existem para genes, existem bancos de dados de bioinformática para SNPs.

  • dbSNP é um banco de dados SNP do National Center for Biotechnology Information (NCBI). Em 8 de junho de 2015, o dbSNP listou 149.735.377 SNPs em humanos.
  • Kaviar é um compêndio de SNPs de várias fontes de dados, incluindo dbSNP.
  • SNPedia é um banco de dados no estilo wiki que oferece suporte à anotação, interpretação e análise do genoma pessoal.
  • O banco de dados OMIM descreve a associação entre polimorfismos e doenças (por exemplo, fornece doenças na forma de texto)
  • dbSAP - banco de dados de polimorfismo de aminoácido único para detecção de variação de proteína
  • O banco de dados de mutações genéticas humanas fornece mutações genéticas que causam ou estão associadas a doenças hereditárias humanas e SNPs funcionais
  • O International HapMap Project , onde os pesquisadores estão identificando Tag SNPs para poderem determinar a coleção de haplótipos presentes em cada sujeito.
  • O GWAS Central permite que os usuários interroguem visualmente os dados reais de associação de nível de resumo em um ou mais estudos de associação de todo o genoma .

O grupo de trabalho International SNP Map mapeou a sequência que flanqueia cada SNP por alinhamento com a sequência genômica de clones de inserção grande no Genebank. Esses alinhamentos foram convertidos em coordenadas cromossômicas que são mostradas na Tabela 1. Essa lista aumentou muito desde, por exemplo, o banco de dados Kaviar agora listando 162 milhões de variantes de nucleotídeo único (SNVs).

Cromossoma Comprimento (bp) Todos os SNPs SNPs TSC
SNPs totais kb por SNP SNPs totais kb por SNP
1 214.066.000 129.931 1,65 75.166 2,85
2 222.889.000 103.664 2,15 76.985 2,90
3 186.938.000 93.140 2.01 63.669 2,94
4 169.035.000 84.426 2,00 65.719 2,57
5 170.954.000 117.882 1,45 63.545 2,69
6 165.022.000 96.317 1,71 53.797 3,07
7 149.414.000 71.752 2.08 42.327 3,53
8 125.148.000 57.834 2,16 42.653 2,93
9 107.440.000 62.013 1,73 43.020 2,50
10 127.894.000 61.298 2.09 42.466 3,01
11 129.193.000 84.663 1,53 47.621 2,71
12 125.198.000 59.245 2,11 38.136 3,28
13 93.711.000 53.093 1,77 35.745 2,62
14 89.344.000 44.112 2.03 29.746 3,00
15 73.467.000 37.814 1,94 26.524 2,77
16 74.037.000 38.735 1,91 23.328 3,17
17 73.367.000 34.621 2,12 19.396 3,78
18 73.078.000 45.135 1,62 27.028 2,70
19 56.044.000 25.676 2,18 11.185 5.01
20 63.317.000 29.478 2,15 17.051 3,71
21 33.824.000 20.916 1,62 9.103 3,72
22 33.786.000 28.410 1,19 11.056 3,06
X 131.245.000 34.842 3,77 20.400 6,43
Y 21.753.000 4.193 5,19 1.784 12,19
RefSeq 15.696.674 14.534 1.08
Totais 2.710.164.000 1.419.190 1,91 887.450 3,05

Nomenclatura

A nomenclatura para SNPs inclui várias variações para um SNP individual, embora falte um consenso comum.

O padrão rs ### é aquele que vem sendo adotado pelo dbSNP e usa o prefixo "rs", para "referência SNP", seguido por um número único e arbitrário. Os SNPs são freqüentemente referidos por seu número dbSNP rs, como nos exemplos acima.

A Human Genome Variation Society (HGVS) usa um padrão que transmite mais informações sobre o SNP. Exemplos são:

  • c.76A> T: "c." para a região de codificação , seguido por um número para a posição do nucleotídeo, seguido por uma abreviatura de uma letra para o nucleotídeo (A, C, G, T ou U), seguido por um sinal maior que (">") para indicar substituição, seguida pela abreviatura do nucleotídeo que substitui o anterior
  • p.Ser123Arg: "p." para proteína, seguida por uma abreviatura de três letras para o aminoácido, seguida por um número para a posição do aminoácido, seguido pela abreviatura do aminoácido que substitui o primeiro.

Análise SNP

SNPs podem ser facilmente testados devido a conter apenas dois alelos possíveis e três genótipos possíveis envolvendo os dois alelos: homozigoto A, homozigoto B e heterozigoto AB, levando a muitas técnicas possíveis para análise. Alguns incluem: sequenciamento de DNA ; eletroforese capilar ; espectrometria de massa ; polimorfismo de conformação de fita simples (SSCP); extensão de base única ; análise eletroquímica; HPLC desnaturante e eletroforese em gel ; polimorfismo do comprimento do fragmento de restrição ; e análise de hibridização .

Programas para previsão de efeitos SNP

Um grupo importante de SNPs são aqueles que correspondem a mutações missense que causam alterações de aminoácidos no nível de proteína. A mutação pontual de determinado resíduo pode ter efeito diferente na função da proteína (de nenhum efeito até a interrupção completa de sua função). Normalmente, a alteração de aminoácidos com tamanho e propriedades físico-químicas semelhantes (por exemplo, substituição de leucina por valina) tem efeito moderado e oposto. Da mesma forma, se o SNP interrompe os elementos da estrutura secundária (por exemplo, substituição por prolina na região da hélice alfa ), essa mutação geralmente pode afetar a estrutura e função da proteína inteira. Usando essas regras simples e muitas outras derivadas de aprendizado de máquina, um grupo de programas para a previsão do efeito SNP foi desenvolvido:

  • SIFT Este programa fornece uma visão sobre como uma mutação sem sentido ou não-sinônimo induzida em laboratório afetará a função da proteína com base nas propriedades físicas do aminoácido e na homologia da sequência.
  • LIST (Local Identity and Shared Taxa) estima o potencial deletério de mutações resultantes da alteração de suas funções protéicas. Baseia-se na suposição de que as variações observadas em espécies estreitamente relacionadas são mais significativas ao avaliar a conservação em comparação com aquelas em espécies distantemente relacionadas.
  • SNAP2
  • Suspeito
  • PolyPhen-2
  • PredictSNP
  • MutationTaster : site oficial
  • Preditor de efeito variante do projeto Ensembl
  • SNPViz Este programa fornece uma representação 3D da proteína afetada, destacando a mudança de aminoácidos para que os médicos possam determinar a patogenicidade da proteína mutante.
  • PROVEAN
  • PhyreRisk é um banco de dados que mapeia variantes para estruturas de proteínas experimentais e previstas.
  • Missense3D é uma ferramenta que fornece um relatório estereoquímico sobre o efeito de variantes missense na estrutura da proteína.

Veja também

Referências

Leitura adicional

links externos