String metric - String metric

Em matemática e ciência da computação , uma métrica de string (também conhecida como métrica de similaridade de string ou função de distância de string ) é uma métrica que mede a distância ("similaridade inversa") entre duas strings de texto para correspondência ou comparação aproximada de string e na pesquisa de string difusa . Um requisito para uma métrica de string (por exemplo, em contraste com a correspondência de string ) é o cumprimento da desigualdade do triângulo . Por exemplo, as cadeias de caracteres "Sam" e "Samuel" podem ser consideradas próximas. Uma métrica de string fornece um número que indica uma indicação de distância específica do algoritmo.

A métrica de cordas mais conhecida é uma rudimentar chamada distância de Levenshtein (também conhecida como distância de edição). Ele opera entre duas strings de entrada, retornando um número equivalente ao número de substituições e exclusões necessárias para transformar uma string de entrada em outra. Métricas de string simplistas, como distância de Levenshtein, foram expandidas para incluir métodos fonéticos, de token , gramaticais e baseados em caracteres de comparações estatísticas.

As métricas de string são amplamente utilizadas na integração de informações e atualmente são utilizadas em áreas como detecção de fraude , análise de impressão digital , detecção de plágio , fusão de ontologia , análise de DNA , análise de RNA, análise de imagem , aprendizado de máquina baseado em evidências , deduplicação de dados de banco de dados , mineração de dados , incremental pesquisa , integração de dados , detecção de malware e integração de conhecimento semântico .

Lista de métricas de string

Exemplos de medidas de string selecionadas

Nome Exemplo
Distância de Hamming " ka rol in " e " ka thr in " são 3.
Distância de Levenshtein e distância Damerau – Levenshtein k itt e n e s itt i n g têm uma distância de 3.
  1. k itten s itten (substituição de "s" por "k")
  2. sitt e n sitt i n (substituição de "i" por "e")
  3. sentado sentado g (inserção de "g" no final).
Distância Jaro – Winkler JaroWinklerDist ("MARTHA", "MARHTA") =
  • é o número de caracteres correspondentes ;
  • é a metade do número de transposições ( "MARTHA"[3]!=H, "MARHTA"[3]!=T ).
Caracteres k mais frequentes MostFreqKeySimilarity (' r e s e a r ch', 's ee king', 2) = 2


Referências


links externos