Pfam - Pfam

Pfam
Pfam logo.gif
Contente
Descrição O banco de dados Pfam fornece alinhamentos e modelos ocultos de Markov para domínios de proteínas.
Tipos de dados
capturados
Famílias de proteínas
Organismos tudo
Contato
Centro de Pesquisa EBI
Citação primária PMID  19920124
Acesso
Formato de dados Formato de Estocolmo
Local na rede Internet pfam .xfam .org
URL de download FTP 1 FTP 2
Diversos
Licença GNU Lesser General Public License
Versão 33,1
bookmarkable
entidades
sim

Pfam é um banco de dados de famílias de proteínas que inclui suas anotações e múltiplos alinhamentos de sequência gerados usando modelos ocultos de Markov . A versão mais recente, Pfam 34.0, foi lançada em março de 2021 e contém 19.179 famílias.

Usos

O objetivo geral do banco de dados Pfam é fornecer uma classificação completa e precisa de famílias e domínios de proteínas. Originalmente, a lógica por trás da criação do banco de dados era ter um método semiautomático de curar informações sobre famílias de proteínas conhecidas para melhorar a eficiência da anotação de genomas. A classificação Pfam de famílias de proteínas foi amplamente adotada por biólogos devido à sua ampla cobertura de proteínas e convenções de nomenclatura sensíveis.

É usado por biólogos experimentais pesquisando proteínas específicas, por biólogos estruturais para identificar novos alvos para determinação de estrutura, por biólogos computacionais para organizar sequências e por biólogos evolucionistas rastreando as origens das proteínas. Os primeiros projetos de genoma, como o humano e a mosca, usaram o Pfam extensivamente para a anotação funcional de dados genômicos.

O site da Pfam permite que os usuários enviem sequências de proteínas ou DNA para procurar correspondências para famílias no banco de dados. Se o DNA for enviado, uma tradução de seis quadros será executada e cada quadro será pesquisado. Em vez de realizar uma pesquisa BLAST típica , o Pfam usa modelos de Markov ocultos de perfil , que dão maior peso às correspondências em locais conservados , permitindo uma melhor detecção de homologia remota, tornando-os mais adequados para anotar genomas de organismos sem parentes próximos bem anotados.

O Pfam também tem sido usado na criação de outros recursos, como o iPfam , que cataloga as interações domínio-domínio dentro e entre proteínas, com base em informações em bancos de dados de estrutura e no mapeamento dos domínios Pfam nessas estruturas.

Recursos

Para cada família no Pfam pode-se:

  • Veja uma descrição da família
  • Observe os alinhamentos múltiplos
  • Ver arquiteturas de domínio de proteína
  • Examine a distribuição das espécies
  • Siga os links para outros bancos de dados
  • Ver estruturas de proteínas conhecidas

As inscrições podem ser de vários tipos: família, domínio, repetição ou motivo. Família é a classe padrão, o que simplesmente indica que os membros são parentes. Os domínios são definidos como uma unidade estrutural autônoma ou unidade de sequência reutilizável que pode ser encontrada em múltiplos contextos de proteínas. As repetições geralmente não são estáveis ​​isoladamente, mas geralmente são necessárias para formar repetições tandem a fim de formar um domínio ou estrutura estendida. Os motivos são geralmente unidades de sequência mais curtas encontradas fora dos domínios globulares.

As descrições das famílias Pfam são gerenciadas pelo público em geral usando a Wikipedia (ver História ).

Na liberação 29.0, 76,1% das sequências de proteínas em UniprotKB correspondiam a pelo menos um domínio Pfam.

Criação de novas entradas

Novas famílias vêm de uma variedade de fontes, principalmente do PDB e da análise de proteomas completos para encontrar genes sem nenhum resultado de Pfam.

Para cada família, um subconjunto representativo de sequências é alinhado em um alinhamento de sementes de alta qualidade. As sequências para o alinhamento da semente são retiradas principalmente de pfamseq (um banco de dados não redundante de proteomas de referência) com alguma suplementação de UniprotKB . Este alinhamento inicial é então usado para construir um modelo de Markov oculto de perfil usando HMMER . Esse HMM é então pesquisado em bancos de dados de sequência e todos os resultados que atingem um limite de coleta com curadoria são classificados como membros da família de proteínas. A coleção de membros resultante é então alinhada ao perfil HMM para gerar um alinhamento completo.

Para cada família, um limite de coleta organizado manualmente é atribuído que maximiza o número de correspondências verdadeiras para a família, enquanto exclui quaisquer correspondências falso-positivas. Os falsos positivos são estimados observando sobreposições entre os hits da família Pfam que não são do mesmo clã. Este limite é usado para avaliar se uma correspondência com uma família HMM deve ser incluída na família de proteínas. A cada atualização do Pfam, os limites de coleta são reavaliados para evitar sobreposições entre famílias novas e existentes.

Domínios de função desconhecida

Domínios de função desconhecida (DUFs) representam uma fração crescente do banco de dados Pfam. As famílias recebem esse nome porque foram encontradas conservadas entre as espécies, mas desempenham um papel desconhecido. Cada DUF recém-adicionado é nomeado em ordem de adição. Os nomes dessas entradas são atualizados à medida que suas funções são identificadas. Normalmente, quando a função de pelo menos uma proteína pertencente a um DUF foi determinada, a função de todo o DUF é atualizada e a família é renomeada. Algumas famílias nomeadas ainda são domínios de função desconhecida, que recebem o nome de uma proteína representativa, por exemplo, YbbR. Espera-se que o número de DUFs continue aumentando à medida que sequências conservadas de função desconhecida continuam a ser identificadas nos dados de sequência. Espera-se que os DUFs superem o número de famílias de funções conhecidas.

Clãs

Com o tempo, tanto a sequência quanto a cobertura de resíduos aumentaram e, conforme as famílias cresceram, mais relações evolutivas foram descobertas, permitindo o agrupamento de famílias em clãs. Os clãs foram introduzidos pela primeira vez ao banco de dados Pfam em 2005. Eles são agrupamentos de famílias relacionadas que compartilham uma única origem evolutiva, conforme confirmado por comparações estruturais, funcionais, de sequência e HMM. Na versão 29.0, aproximadamente um terço das famílias de proteínas pertenciam a um clã. Essa parcela aumentou para cerca de três quartos em 2019 (versão 32.0).

Para identificar possíveis relacionamentos entre clãs, os curadores do Pfam usam o Programa de Comparação Simples de Saídas (SCOOP), bem como informações do banco de dados ECOD. ECOD é um banco de dados hierárquico semi-automatizado de famílias de proteínas com estruturas conhecidas, com famílias que mapeiam prontamente para entradas Pfam e níveis de homologia que geralmente são mapeados para clãs Pfam.

História

A Pfam foi fundada em 1995 por Erik Sonhammer, Sean Eddy e Richard Durbin como uma coleção de domínios de proteínas de ocorrência comum que poderiam ser usados ​​para anotar os genes que codificam proteínas de animais multicelulares. Um de seus principais objetivos no início foi ajudar na anotação do genoma de C. elegans . O projeto foi parcialmente impulsionado pela afirmação em 'Mil famílias para o biólogo molecular' por Cyrus Chothia de que havia cerca de 1500 famílias diferentes de proteínas e que a maioria das proteínas se enquadrava em apenas 1000 delas. Contra esta afirmação, o banco de dados Pfam contém atualmente 16.306 entradas correspondentes a domínios e famílias de proteínas únicas. No entanto, muitas dessas famílias contêm semelhanças estruturais e funcionais, indicando uma origem evolutiva compartilhada (ver Clãs ).

Um grande ponto de diferença entre o Pfam e outros bancos de dados no momento de seu início era o uso de dois tipos de alinhamento para as entradas: um alinhamento inicial menor e verificado manualmente, bem como um alinhamento completo construído alinhando sequências a um modelo de Markov oculto de perfil construído a partir do alinhamento da semente. Esse alinhamento de sementes menor foi mais fácil de atualizar à medida que novos lançamentos de bancos de dados de sequência surgiram e, portanto, representou uma solução promissora para o dilema de como manter o banco de dados atualizado conforme o sequenciamento do genoma se tornava mais eficiente e mais dados precisavam ser processados ​​ao longo do tempo . Uma melhoria adicional na velocidade de atualização do banco de dados veio na versão 24.0, com a introdução do HMMER3, que é aproximadamente 100 vezes mais rápido do que o HMMER2 e mais sensível.

Como as entradas em Pfam-A não cobrem todas as proteínas conhecidas, um suplemento gerado automaticamente foi fornecido, denominado Pfam-B. Pfam-B continha um grande número de pequenas famílias derivadas de clusters produzidos por um algoritmo chamado ADDA. Embora de qualidade inferior, as famílias Pfam-B podem ser úteis quando nenhuma família Pfam-A foi encontrada. O Pfam-B foi descontinuado na versão 28.0 e, em seguida, reintroduzido na versão 33.1 usando um novo algoritmo de agrupamento, MMSeqs2.

O Pfam foi originalmente hospedado em três sites espelho ao redor do mundo para preservar a redundância. No entanto, entre 2012 e 2014, o recurso Pfam foi transferido para o EMBL-EBI , o que permitiu a hospedagem do site a partir de um domínio (xfam.org), usando datacenters independentes duplicados. Isso permitiu uma melhor centralização de atualizações e agrupamento com outros projetos Xfam, como Rfam , TreeFam , iPfam e outros, mantendo a resiliência crítica fornecida pela hospedagem de vários centros.

O Pfam passou por uma reorganização substancial nos últimos dois anos para reduzir ainda mais o esforço manual envolvido na curadoria e permitir atualizações mais frequentes.

Curadoria de comunidade

A curadoria de um banco de dados tão grande apresentou problemas em termos de acompanhar o volume de novas famílias e informações atualizadas que precisavam ser adicionadas. Para acelerar os lançamentos do banco de dados, os desenvolvedores iniciaram uma série de iniciativas para permitir um maior envolvimento da comunidade no gerenciamento do banco de dados.

Uma etapa crítica para melhorar o ritmo de atualização e melhoria das entradas foi abrir a anotação funcional dos domínios Pfam para a comunidade da Wikipedia na versão 26.0. Para os verbetes que já tinham um verbete da Wikipedia, este estava vinculado à página do Pfam, e para aqueles que não tinham, a comunidade foi convidada a criar um e informar os curadores, a fim de ser vinculado. Prevê-se que, enquanto o envolvimento da comunidade melhorará muito o nível de anotação dessas famílias, algumas permanecerão insuficientemente notáveis ​​para inclusão na Wikipedia, caso em que manterão sua descrição Pfam original. Alguns artigos da Wikipedia cobrem várias famílias, como o artigo dedo de zinco . Um procedimento automatizado para gerar artigos com base em dados InterPro e Pfam também foi implementado, o que preenche uma página com informações e links para bancos de dados, bem como imagens disponíveis, em seguida, uma vez que um artigo foi revisado por um curador, ele é movido do Sandbox para Wikipedia propriamente dito. Para evitar o vandalismo de artigos, cada revisão da Wikipedia é revisada por curadores antes de ser exibida no site da Pfam. Quase todos os casos de vandalismo foram corrigidos pela comunidade antes de chegarem aos curadores.

A Pfam é administrada por um consórcio internacional de três grupos. Nas versões anteriores do Pfam, as entradas da família só podiam ser modificadas no site de Cambridge, no Reino Unido, limitando a capacidade dos membros do consórcio de contribuir para a curadoria do site. Na versão 26.0, os desenvolvedores mudaram para um novo sistema que permitia que usuários registrados em qualquer lugar do mundo adicionassem ou modificassem famílias Pfam.

Veja também

  • Lista de bancos de dados biológicos
  • PANDIT , um banco de dados biológico que cobre domínios de proteínas
  • Banco de dados Rfam para famílias de RNA não codificantes conservadas
  • TreeFam Banco de dados de árvores filogenéticas de genes animais
  • Banco de dados TrEMBL realizando uma anotação automática de sequência de proteínas
  • Integração InterPro de bancos de dados de domínio de proteína e família de proteínas
  • PDBfam - atribuição completa de domínios Pfam a sequências no Protein Data Bank (PDB)

Referências

links externos

  • Pfam - Banco de dados da família de proteínas na EBI UK
  • iPfam - Interações de domínios Pfam no PDB
  • PDBfam - Atribuições de domínios Pfam a sequências no PDB no Fox Chase Cancer Center USA
  • PlantTFDB - As regras de atribuição de família para fatores de transcrição de plantas com base em domínios Pfam