BLOSUM - BLOSUM

A matriz BLOSUM62

Em bioinformática , a matriz BLOSUM ( BLO cks SU bstitution M atrix) é uma matriz de substituição usada para o alinhamento de sequência de proteínas . Matrizes BLOSUM são usadas para marcar alinhamentos entre sequências de proteínas evolutivamente divergentes . Eles são baseados em alinhamentos locais. As matrizes BLOSUM foram apresentadas pela primeira vez em um artigo de Steven Henikoff e Jorja Henikoff. Eles escanearam o banco de dados BLOCKS para regiões muito conservadas de famílias de proteínas (que não têm lacunas no alinhamento da sequência) e então contaram as frequências relativas de aminoácidos e suas probabilidades de substituição. Em seguida, eles calcularam uma pontuação log-odds para cada um dos 190 pares de substituição possíveis dos 20 aminoácidos padrão. Todas as matrizes BLOSUM são baseadas em alinhamentos observados; eles não são extrapolados de comparações de proteínas intimamente relacionadas, como as matrizes PAM .

Fundo biológico

As instruções genéticas de cada célula que se replica em um organismo vivo estão contidas em seu DNA. Ao longo da vida da célula, essa informação é transcrita e replicada por mecanismos celulares para produzir proteínas ou fornecer instruções para células-filhas durante a divisão celular , e existe a possibilidade de o DNA ser alterado durante esses processos. Isso é conhecido como mutação . No nível molecular, existem sistemas regulatórios que corrigem a maioria - mas não todas - dessas mudanças no DNA antes que ele seja replicado.

A funcionalidade de uma proteína é altamente dependente de sua estrutura. Alterar um único aminoácido em uma proteína pode reduzir sua capacidade de realizar essa função, ou a mutação pode até mesmo alterar a função que a proteína realiza. Mudanças como essas podem afetar gravemente uma função crucial em uma célula, potencialmente fazendo com que a célula - e em casos extremos, o organismo - morra. Por outro lado, a mudança pode permitir que a célula continue funcionando, embora de forma diferente, e a mutação pode ser passada para a descendência do organismo. Se essa mudança não resultar em nenhuma desvantagem física significativa para a prole, existe a possibilidade de que essa mutação persista na população. Também existe a possibilidade de que a mudança de função se torne vantajosa.

Os 20 aminoácidos traduzidos pelo código genético variam muito pelas propriedades físicas e químicas de suas cadeias laterais. No entanto, esses aminoácidos podem ser classificados em grupos com propriedades físico-químicas semelhantes. Substituir um aminoácido por outro da mesma categoria tem mais probabilidade de ter um impacto menor na estrutura e função de uma proteína do que a substituição por um aminoácido de uma categoria diferente.

O alinhamento de sequências é um método de pesquisa fundamental para a biologia moderna. O alinhamento de sequência mais comum para proteínas é procurar semelhanças entre diferentes sequências para inferir a função ou estabelecer relações evolutivas. Isso ajuda os pesquisadores a entender melhor a origem e a função dos genes por meio da natureza da homologia e da conservação . Matrizes de substituição são utilizadas em algoritmos para calcular a similaridade de diferentes sequências de proteínas; no entanto, a utilidade da matriz Dayhoff PAM diminuiu ao longo do tempo devido à necessidade de sequências com uma similaridade de mais de 85%. A fim de preencher esta lacuna, Henikoff e Henikoff introduziram a matriz BLOSUM (BLOcks SUbstitution Matrix) que levou a melhorias marcantes nos alinhamentos e nas pesquisas usando consultas de cada um dos grupos de proteínas relacionadas.

Terminologia

BLOSUM: Blocks Substitution Matrix, uma matriz de substituição usada para o alinhamento de sequência de proteínas .

Métricas de pontuação (estatística versus biológica): Ao avaliar um alinhamento de sequência, gostaria de saber o quão significativo ele é. Isso requer uma matriz de pontuação ou uma tabela de valores que descreve a probabilidade de um aminoácido biologicamente significativo ou par de resíduos de nucleotídeo ocorrendo em um alinhamento. As pontuações para cada posição são as frequências obtidas de substituições em blocos de alinhamentos locais de sequências de proteínas.

Existem vários conjuntos de matrizes BLOSUM usando diferentes bancos de dados de alinhamento, nomeados com números. As matrizes BLOSUM com números altos são projetadas para comparar sequências estreitamente relacionadas, enquanto aquelas com números baixos são projetadas para comparar sequências relacionadas distantes. Por exemplo, BLOSUM80 é usado para alinhamentos intimamente relacionados e BLOSUM45 é usado para alinhamentos relacionados mais distantes. As matrizes foram criadas mesclando (agrupando) todas as sequências que eram mais semelhantes do que uma determinada porcentagem em uma única sequência e, em seguida, comparando essas sequências (que eram todas mais divergentes do que o valor de porcentagem fornecido) apenas; reduzindo assim a contribuição de sequências intimamente relacionadas. A porcentagem usada foi anexada ao nome, dando BLOSUM80, por exemplo, onde sequências que eram mais de 80% idênticas foram agrupadas.

BLOSUM r: a matriz construída a partir de blocos com menos de r% de similaridade - Por exemplo, BLOSUM62 é a matriz construída usando sequências com menos de 62% de similaridade (sequências com ≥ 62% de identidade foram agrupadas) - Nota: BLOSUM 62 é a matriz padrão para proteína BLAST. A experimentação mostrou que a matriz BLOSUM-62 está entre as melhores para detectar as semelhanças de proteínas mais fracas.

Construção de matrizes BLOSUM

As matrizes BLOSUM são obtidas usando blocos de sequências de aminoácidos semelhantes como dados e, em seguida, aplicando métodos estatísticos aos dados para obter as pontuações de similaridade. Etapas dos métodos estatísticos:

Eliminando Sequências

Elimine as sequências que são mais de r% idênticas. Existem duas maneiras de eliminar as sequências. Isso pode ser feito removendo sequências do bloco ou apenas encontrando sequências semelhantes e substituindo-as por novas sequências que possam representar o cluster. A eliminação é feita para remover sequências de proteínas que são mais semelhantes do que o limite especificado.

Calculando Freqüência e Probabilidade

Um banco de dados que armazena os alinhamentos de sequência das regiões mais conservadas das famílias de proteínas. Esses alinhamentos são usados ​​para derivar as matrizes BLOSUM. Apenas as sequências com uma porcentagem de identidade inferior ao limite são usadas. Ao usar o bloco, conta os pares de aminoácidos em cada coluna do alinhamento múltiplo.

Razão ímpar de log

Ele dá a razão entre a ocorrência de cada combinação de aminoácidos nos dados observados e o valor esperado de ocorrência do par. É arredondado e usado na matriz de substituição.

Em que está a possibilidade de ser observada e é a possibilidade de ser esperada.

Matrizes BLOSUM

As probabilidades de parentesco são calculadas a partir da razão log ímpar, que é então arredondada para obter as matrizes de substituição BLOSUM.

Pontuação das matrizes BLOSUM

Uma matriz de pontuação ou uma tabela de valores é necessária para avaliar a importância de um alinhamento de sequência, tal como descrever a probabilidade de um aminoácido biologicamente significativo ou par de resíduos de nucleotídeo ocorrendo em um alinhamento. Normalmente, quando duas sequências de nucleotídeos estão sendo comparadas, tudo o que está sendo avaliado é se duas bases são ou não iguais em uma posição. Todas as correspondências e incompatibilidades recebem, respectivamente, a mesma pontuação (normalmente +1 ou +5 para correspondências e -1 ou -4 para incompatibilidades). Mas é diferente para as proteínas. As matrizes de substituição de aminoácidos são mais complicadas e implicitamente levam em consideração tudo o que pode afetar a frequência com que um aminoácido é substituído por outro. O objetivo é fornecer uma penalidade relativamente pesada para alinhar dois resíduos juntos se eles tiverem uma baixa probabilidade de serem homólogos (alinhados corretamente por descendência evolutiva). Duas forças principais afastam as taxas de substituição de aminoácidos da uniformidade: as substituições ocorrem com frequências diferentes e são menos toleradas funcionalmente do que outras. Assim, as substituições são selecionadas contra.

As matrizes de substituição comumente usadas incluem as matrizes de substituição de blocos (BLOSUM) e de mutação de ponto aceito (PAM). Ambos são baseados na obtenção de conjuntos de alinhamentos de alta confiança de muitas proteínas homólogas e na avaliação das frequências de todas as substituições, mas são calculados usando métodos diferentes.

As pontuações dentro de um BLOSUM são pontuações log-odds que medem, em um alinhamento, o logaritmo para a razão da probabilidade de dois aminoácidos aparecerem com um sentido biológico e a probabilidade dos mesmos aminoácidos aparecerem por acaso. As matrizes são baseadas na identidade de porcentagem mínima da sequência de proteína alinhada usada para calculá-las. Cada possível identidade ou substituição é atribuída uma pontuação com base em suas frequências observadas no alinhamento de proteínas relacionadas. Uma pontuação positiva é atribuída às substituições mais prováveis, enquanto uma pontuação negativa é atribuída às substituições menos prováveis.

Para calcular uma matriz BLOSUM, a seguinte equação é usada:

Aqui, é a probabilidade de dois aminoácidos e substituição de um ao outro em uma sequência homóloga, e e são as probabilidades de encontrar os aminoácidos fundo e em qualquer sequência de proteína. O fator é um fator de escala, definido de forma que a matriz contenha valores inteiros facilmente computáveis.

Um exemplo - BLOSUM62

BLOSUM80: mais proteínas relacionadas

BLOSUM62: midrange

BLOSUM45: proteínas distantemente relacionadas

Um artigo na Nature Biotechnology revelou que o BLOSUM62 usado por tantos anos como padrão não é exatamente preciso de acordo com o algoritmo descrito por Henikoff e Henikoff. Surpreendentemente, o cálculo incorreto do BLOSUM62 melhora o desempenho da pesquisa.

A matriz BLOSUM62 com os aminoácidos da tabela agrupados de acordo com a química da cadeia lateral, como em (a). Cada valor na matriz é calculado dividindo a frequência de ocorrência do par de aminoácidos no banco de dados BLOCKS, agrupado ao nível de 62%, dividido pela probabilidade de que os mesmos dois aminoácidos possam se alinhar ao acaso. A razão é então convertida em um logaritmo e expressa como um log de pontuação, como para o PAM. As matrizes BLOSUM são geralmente dimensionadas em unidades de meio bit. Uma pontuação de zero indica que a frequência com a qual um determinado dois aminoácidos foram encontrados alinhados no banco de dados foi esperada ao acaso, enquanto uma pontuação positiva indica que o alinhamento foi encontrado mais frequentemente do que por acaso, e uma pontuação negativa indica que o alinhamento foi encontrado com menos frequência do que por acaso.

Alguns usos em bioinformática

Aplicações de pesquisa

Os escores BLOSUM foram usados ​​para prever e compreender as variantes do gene de superfície entre os portadores do vírus da hepatite B e epítopos de células T.

Variantes de genes de superfície entre os portadores do vírus da hepatite B

As sequências de DNA do HBsAg foram obtidas de 180 pacientes, dos quais 51 eram portadores crônicos de HBV e 129 pacientes recém-diagnosticados, e comparadas com sequências de consenso construídas com 168 sequências de HBV importadas do GenBank. A revisão da literatura e os escores BLOSUM foram usados ​​para definir a antigenicidade potencialmente alterada.

Predição confiável de epítopos de células T

Uma nova representação de entrada foi desenvolvida consistindo em uma combinação de codificação esparsa, codificação Blosum e entrada derivada de modelos de Markov ocultos. este método prevê epítopos de células T para o genoma do vírus da hepatite C e discute as possíveis aplicações do método de previsão para orientar o processo de projeto racional de vacinas.

Use no BLAST

As matrizes BLOSUM também são usadas como uma matriz de pontuação ao comparar sequências de DNA ou sequências de proteínas para avaliar a qualidade do alinhamento. Esta forma de sistema de pontuação é utilizada por uma ampla gama de softwares de alinhamento, incluindo o BLAST .

Comparando PAM e BLOSUM

Além das matrizes BLOSUM, uma matriz de pontuação desenvolvida anteriormente pode ser usada. Isso é conhecido como PAM . Os dois resultam no mesmo resultado de pontuação, mas usam metodologias diferentes. O BLOSUM olha diretamente para as mutações em motivos de sequências relacionadas, enquanto o PAM extrapola a informação evolutiva com base em sequências intimamente relacionadas.

Uma vez que PAM e BLOSUM são métodos diferentes para mostrar a mesma informação de pontuação, os dois podem ser comparados, mas devido ao método muito diferente de obter essa pontuação, um PAM100 não é igual a BLOSUM100.

PAM BLOSUM
PAM100 BLOSUM90
PAM120 BLOSUM80
PAM160 BLOSUM62
PAM200 BLOSUM50
PAM250 BLOSUM45
A relação entre PAM e BLOSUM
PAM BLOSUM
Para comparar sequências estreitamente relacionadas, são criadas matrizes PAM com números mais baixos. Para comparar sequências estreitamente relacionadas, são criadas matrizes BLOSUM com números mais altos.
Para comparar proteínas distantemente relacionadas, matrizes PAM com números elevados são criadas. Para comparar proteínas distantemente relacionadas, matrizes BLOSUM com números baixos são criadas.
As diferenças entre PAM e BLOSUM
PAM BLOSUM
Com base em alinhamentos globais de proteínas intimamente relacionadas. Baseado em alinhamentos locais.
PAM1 é a matriz calculada a partir de comparações de sequências com não mais do que 1% de divergência, mas corresponde a 99% de identidade de sequência. BLOSUM 62 é uma matriz calculada a partir de comparações de sequências com uma identidade de pares não superior a 62%.
Outras matrizes PAM são extrapoladas de PAM1. Com base em alinhamentos observados; eles não são extrapolados de comparações de proteínas intimamente relacionadas.
Números mais altos no esquema de nomenclatura de matrizes denotam distância evolutiva maior. Números maiores no esquema de nomenclatura de matrizes denotam maior similaridade de sequência e, portanto, menor distância evolutiva.

Veja também

Referências

links externos