Algoritmo fonético - Phonetic algorithm
Um algoritmo fonético é um algoritmo de indexação de palavras por sua pronúncia . A maioria dos algoritmos fonéticos foi desenvolvida para o inglês e não são úteis para indexar palavras em outros idiomas. Como a grafia do inglês varia significativamente, dependendo de vários fatores, como a origem e o uso da palavra ao longo do tempo e o empréstimo de outras línguas, os algoritmos fonéticos necessariamente levam em consideração várias regras e exceções.
Algoritmos
Entre os algoritmos fonéticos mais conhecidos estão:
- Soundex , que foi desenvolvido para codificar sobrenomes para uso em censos. Os códigos Soundex são cadeias de quatro caracteres compostas por uma única letra seguida por três números.
- Daitch – Mokotoff Soundex , que é um refinamento do Soundex projetado para combinar melhor os sobrenomes de origem eslava e germânica. Os códigos Daitch – Mokotoff Soundex são strings compostas por seis dígitos numéricos.
- Fonética de Colônia : semelhante ao Soundex, mas mais adequado para palavras alemãs.
- Metaphone e Double Metaphone que são adequados para uso com a maioria das palavras em inglês, não apenas com nomes. Os algoritmos de metafone são a base de muitos corretores ortográficos populares .
- Sistema de Identificação e Inteligência do Estado de Nova York (NYSIIS), que mapeia fonemas semelhantes para a mesma letra. O resultado é uma string que pode ser pronunciada pelo leitor sem decodificação.
- Abordagem de classificação de correspondência desenvolvida pela Western Airlines em 1977 - esse algoritmo possui uma técnica de codificação e comparação de faixa.
- Caverphone , criado para ajudar na correspondência de dados entre os cadernos eleitorais do final do século 19 e início do século 20, otimizado para sotaques presentes em partes da Nova Zelândia.
Usos comuns
- Os corretores ortográficos geralmente podem conter algoritmos fonéticos. O algoritmo Metaphone , por exemplo, pode pegar uma palavra digitada incorretamente e criar um código. O código é então procurado no diretório por palavras com o mesmo Metaphone ou similar. Palavras que têm a mesma Metaphone ou similar tornam-se possíveis grafias alternativas.
- A funcionalidade de pesquisa geralmente usa algoritmos fonéticos para encontrar resultados que não correspondem exatamente aos termos usados na pesquisa. Pesquisar nomes pode ser difícil, pois geralmente há várias grafias alternativas para os nomes. Um exemplo é o nome Claire . Ele tem duas alternativas, Clare / Clair, que são pronunciadas da mesma forma. Procurar uma grafia não mostraria resultados para as outras duas. Usando Soundex, todas as três variações produzem o mesmo código Soundex, C460. Ao pesquisar nomes com base no código Soundex, todas as três variações serão retornadas.
Veja também
- Correspondência aproximada de string
- Distância de Hamming
- Distância de Levenshtein
- Distância Damerau-Levenshtein
Referências
- Este artigo incorpora material de domínio público do documento NIST : Black, Paul E. "codificação fonética" . Dicionário de Algoritmos e Estruturas de Dados .
links externos
- Algoritmo para converter palavras em fonemas e vice-versa.
- StringMetric projeta uma biblioteca Scala de algoritmos fonéticos.
- clj-fuzzy projeta uma biblioteca Clojure de algoritmos fonéticos.
- SoundexBR biblioteca de algoritmo fonético implementado em R .
- Talisman é uma biblioteca JavaScript que coleta vários algoritmos fonéticos que podem ser experimentados online.