Lingüística comparativa quantitativa - Quantitative comparative linguistics

A lingüística comparativa quantitativa é o uso da análise quantitativa aplicada à lingüística comparativa . Os exemplos incluem os campos estatísticos da lexicoestatística e glotocronologia , e o empréstimo da filogenética da biologia.

História

Os métodos estatísticos têm sido usados ​​para fins de análise quantitativa em linguística comparada por mais de um século. Durante a década de 1950, a lista Swadesh surgiu: um conjunto padronizado de conceitos lexicais encontrados na maioria das línguas, como palavras ou frases, que permitem que duas ou mais línguas sejam comparadas e contrastadas empiricamente.

Provavelmente, o primeiro estudo de linguística histórica quantitativa publicado foi por Sapir em 1916, enquanto Kroeber e Chretien em 1937 investigaram nove línguas indo-europeias (IE) usando 74 características morfológicas e fonológicas (estendidas em 1939 pela inclusão de hitita). Ross, em 1950, realizou uma investigação sobre a base teórica de tais estudos. Swadesh, usando listas de palavras, desenvolveu lexicoestatística e glotocronologia em uma série de artigos publicados no início dos anos 1950, mas esses métodos foram amplamente criticados, embora algumas das críticas tenham sido vistas como injustificadas por outros estudiosos. Embleton publicou um livro sobre "Statistics in Historical Linguistics" em 1986, que revisou trabalhos anteriores e estendeu o método glotocronológico. Dyen, Kruskal e Black realizaram um estudo do método léxico-estatístico em um grande banco de dados do IE em 1992.

Durante a década de 1990, houve um interesse renovado pelo tema, com base na aplicação de métodos de filogenética e cladística computacional . Esses projetos frequentemente envolviam a colaboração de acadêmicos lingüísticos e colegas com experiência em ciência da informação e / ou antropologia biológica . Esses projetos frequentemente buscavam chegar a uma árvore (ou rede) filogenética ótima , para representar uma hipótese sobre a ancestralidade evolutiva e talvez seus contatos de linguagem. Os pioneiros nestes métodos incluíram os fundadores do CPHL: filogenética computacional em linguística histórica (projeto CPHL): Donald Ringe , Tandy Warnow , Luay Nakhleh e Steven N. Evans .

Em meados da década de 1990, um grupo da Universidade da Pensilvânia computadorizou o método comparativo e usou um banco de dados diferente do IE com 20 línguas antigas. Na área biológica, vários programas de software foram desenvolvidos, os quais podem ter aplicação na lingüística histórica. Em particular, um grupo da Universidade de Auckland desenvolveu um método que forneceu datas controversamente antigas para idiomas de IE. Uma conferência sobre "Profundidade no tempo em linguística histórica" ​​foi realizada em agosto de 1999, na qual muitas aplicações de métodos quantitativos foram discutidas. Posteriormente, muitos artigos foram publicados em estudos de vários grupos linguísticos, bem como comparações dos métodos.

Maior atenção da mídia foi gerada em 2003 após a publicação pelos antropólogos Russell Gray e Quentin Atkinson de um breve estudo sobre línguas indo-europeias na Natureza . Gray e Atkinson tentaram quantificar, em um sentido probabilístico, a idade e o parentesco das línguas indo-europeias modernas e, às vezes, das protolínguas precedentes.

As atas de uma influente conferência de 2004, Phylogenetic Methods and the Prehistory of Languages, foram publicadas em 2006, editadas por Peter Forster e Colin Renfrew .

Famílias de línguas estudadas

Análises filogenéticas computacionais foram realizadas para:

Fundo

O método padrão para avaliar as relações de linguagem tem sido o método comparativo . No entanto, isso tem uma série de limitações. Nem todo material linguístico é adequado como entrada e existem questões de níveis linguísticos em que o método opera. As linguagens reconstruídas são idealizadas e diferentes estudiosos podem produzir resultados diferentes. As árvores genealógicas da linguagem são freqüentemente usadas em conjunto com o método e os "empréstimos" devem ser excluídos dos dados, o que é difícil quando o empréstimo é feito dentro de uma família. Freqüentemente, afirma-se que o método é limitado na profundidade de tempo em que pode operar. O método é difícil de aplicar e não existe um teste independente. Assim, foram buscados métodos alternativos que tenham um método formalizado, quantifiquem as relações e possam ser testados.

Um objetivo da lingüística histórica comparativa é identificar instâncias de parentesco genético entre as línguas. As etapas da análise quantitativa são (i) conceber um procedimento baseado em fundamentos teóricos, em um modelo específico ou em experiências anteriores, etc. (ii) verificar o procedimento aplicando-o a alguns dados onde existe um grande corpo de linguística parecer para comparação (isso pode levar a uma revisão do procedimento da etapa (i) ou no extremo de seu abandono total) (iii) para aplicar o procedimento a dados onde as opiniões linguísticas ainda não foram produzidas, ainda não foram firmemente estabelecidas ou talvez até estejam em conflito.

A aplicação de métodos filogenéticos a linguagens é um processo de múltiplos estágios: (a) o estágio de codificação - passando de linguagens reais a alguma expressão das relações entre elas na forma de dados numéricos ou de estado, de modo que esses dados possam ser usados ​​como entrada aos métodos filogenéticos (b) o estágio de representação - aplicando métodos filogenéticos para extrair desses dados numéricos e / ou de estado um sinal que é convertido em alguma forma útil de representação, geralmente gráficos bidimensionais, como árvores ou redes, que sintetizam e " colapsar "o que muitas vezes são relacionamentos multidimensionais altamente complexos no sinal (c) o estágio de interpretação - avaliando essas representações de árvore e rede para extrair delas o que elas realmente significam para as línguas reais e seus relacionamentos ao longo do tempo.

Tipos de árvores e redes

Uma saída de uma análise linguística histórica quantitativa é normalmente uma árvore ou um diagrama de rede. Isso permite a visualização resumida dos dados de saída, mas não é o resultado completo. Uma árvore é um grafo acíclico conectado , consistindo de um conjunto de vértices (também conhecidos como "nós") e um conjunto de arestas ("ramos"), cada um dos quais conectando um par de vértices. Um nó interno representa um ancestral linguístico em uma árvore filogênica ou rede. Cada idioma é representado por um caminho, os caminhos mostrando os diferentes estados à medida que evolui. Existe apenas um caminho entre cada par de vértices. Árvores não enraizadas representam a relação entre os dados de entrada sem suposições sobre sua descida. Uma árvore enraizada identifica explicitamente um ancestral comum, freqüentemente especificando uma direção de evolução ou incluindo um "grupo externo" que é conhecido por estar apenas remotamente relacionado ao conjunto de línguas sendo classificadas. A maioria das árvores são binárias, ou seja, um pai tem dois filhos. Uma árvore sempre pode ser produzida, embora nem sempre seja apropriada. Um tipo diferente de árvore é aquele baseado apenas nas semelhanças / diferenças de idioma. Neste caso, os nós internos do gráfico não representam ancestrais, mas são introduzidos para representar o conflito entre as diferentes divisões ("bipartições") na análise de dados. A "distância fenética" é a soma dos pesos (frequentemente representados como comprimentos) ao longo do caminho entre os idiomas. Às vezes, uma suposição adicional é feita de que esses nós internos representam ancestrais.

Quando os idiomas convergem, geralmente com a adoção de palavras ("empréstimo"), um modelo de rede é mais apropriado. Haverá arestas adicionais para refletir o duplo parentesco de um idioma. Essas arestas serão bidirecionais se ambas as línguas emprestarem uma da outra. Uma árvore é, portanto, uma rede simples; no entanto, existem muitos outros tipos de rede. Uma rede filogênica é aquela em que os táxons são representados por nós e suas relações evolutivas são representadas por ramos. Outro tipo é aquele baseado em divisões e é uma generalização combinatória da árvore dividida. Um determinado conjunto de divisões pode ter mais de uma representação, portanto os nós internos podem não ser ancestrais e são apenas uma representação "implícita" da história evolutiva, distinta da representação "explícita" de redes filogenéticas. Em uma rede de divisões, a distância frenética é a do caminho mais curto entre duas línguas. Um outro tipo é a rede reticular, que mostra incompatibilidades (devido, por exemplo, ao contato), pois as reticulações e seus nós internos representam ancestrais. Uma rede também pode ser construída adicionando bordas de contato a uma árvore. O último tipo principal é a rede de consenso formada por árvores. Essas árvores podem ser resultado de análises bootstrap ou amostras de uma distribuição posterior.

Mudança de idioma

A mudança ocorre continuamente nas línguas, mas geralmente não a uma taxa constante, com seu efeito cumulativo produzindo divisões em dialetos, línguas e famílias de línguas. Em geral, pensa-se que a morfologia muda mais lentamente e a fonologia, mais rapidamente. À medida que a mudança acontece, cada vez menos evidências do idioma original permanecem. Finalmente, pode haver perda de qualquer evidência de parentesco. Mudanças de um tipo podem não afetar outros tipos, por exemplo, mudanças de som não afetam a cognição. Ao contrário da biologia, não se pode presumir que todas as línguas têm uma origem comum e é necessário estabelecer parentesco. Na modelagem, muitas vezes, para simplificar, presume-se que os personagens mudam independentemente, mas pode não ser o caso. Além do empréstimo, também pode haver mudanças semânticas e polimorfismo.

Entrada de análise

Dados

A análise pode ser realizada sobre os "caracteres" das línguas ou sobre as "distâncias" das línguas. No primeiro caso, a entrada para uma classificação de idioma geralmente assume a forma de uma matriz de dados onde as linhas correspondem aos vários idiomas sendo analisados ​​e as colunas correspondem a diferentes características ou caracteres pelos quais cada idioma pode ser descrito. Essas características são de dois tipos cognatos ou dados tipológicos. Os caracteres podem assumir uma ou mais formas (homoplasia) e podem ser lexicais, morfológicos ou fonológicos. Cognatos são morfemas (lexicais ou gramaticais) ou construções maiores. Os caracteres tipológicos podem vir de qualquer parte da gramática ou do léxico. Se houver lacunas nos dados, eles deverão ser codificados.

Além do banco de dados original de dados (não rastreados), em muitos estudos, subconjuntos são formados para fins específicos (dados rastreados).

Na léxico-estatística, as características são os significados das palavras, ou melhor, slots semânticos. Portanto, as entradas da matriz são uma série de glosas. Conforme originalmente planejado por Swadesh, a palavra mais comum para um slot deveria ser escolhida, o que pode ser difícil e subjetivo devido à mudança semântica. Métodos posteriores podem permitir que mais de um significado seja incorporado.

Restrições

Alguns métodos permitem que restrições sejam colocadas na geografia de contato do idioma (isolamento por distância) e nos tempos de divisão do subgrupo.

Bancos de dados

Swadesh publicou originalmente uma lista de 200 palavras, mas depois a refinou para uma lista de 100 palavras. Um banco de dados do IE comumente usado é o de Dyen, Kruskal e Black, que contém dados para 95 idiomas, embora o original seja conhecido por conter alguns erros. Além dos dados brutos, ele também contém julgamentos de cognacia. Isso está disponível online. O banco de dados de Ringe, Warnow e Taylor tem informações sobre 24 idiomas IE, com 22 caracteres fonológicos, 15 caracteres morfológicos e 333 caracteres lexicais. Gray e Atkinson usaram um banco de dados de 87 línguas com 2449 itens lexicais, com base no conjunto Dyen com a adição de três línguas antigas. Eles incorporaram os julgamentos de cognacia de vários estudiosos. Outras bases de dados foram elaboradas para famílias de línguas africanas, australianas e andinas, entre outras.

A codificação dos dados pode estar na forma binária ou em vários estados. O primeiro é freqüentemente usado, mas resulta em um viés. Tem sido afirmado que existe um fator de escala constante entre os dois métodos de codificação, e que isso pode ser permitido. No entanto, outro estudo sugere que a topologia pode mudar

Listas de palavras

As faixas de palavras são escolhidas para serem o mais isentas de cultura e empréstimos possível. As listas originais de Swadesh são mais comumente usadas, mas muitas outras foram elaboradas para fins específicos. Freqüentemente, eles são menores do que a lista de 100 itens preferidos de Swadesh. Kessler escreveu um livro sobre "The Significance of Word Lists, enquanto McMahon e McMahon realizaram estudos sobre os efeitos da reconstrutibilidade e retentividade. O efeito do aumento do número de slots foi estudado e uma lei dos rendimentos decrescentes foi encontrada, com cerca de 80 sendo considerado satisfatório, porém alguns estudos utilizaram menos da metade desse número.

Geralmente, cada conjunto cognato é representado como um personagem diferente, mas as diferenças entre as palavras também podem ser medidas como uma medida de distância por mudanças de som. As distâncias também podem ser medidas letra a letra.

Características morfológicas

Tradicionalmente, eles têm sido vistos como mais importantes do que os lexicais e, portanto, alguns estudos têm dado peso adicional a esse tipo de caractere. Esses recursos foram incluídos no banco de dados Ringe, Warnow e Taylor IE, por exemplo. No entanto, outros estudos os omitiram.

Características tipológicas

Exemplos dessas características incluem constantes glotalizadas, sistemas de tons, alinhamento acusativo em substantivos, número dual, correspondência de número de caso, ordem objeto-verbo e pronomes de primeira pessoa do singular. Eles serão listados no banco de dados WALS, embora ainda seja apenas esparsamente preenchido para muitos idiomas.

Modelos probabilísticos

Alguns métodos de análise incorporam um modelo estatístico de evolução da linguagem e usam as propriedades do modelo para estimar a história da evolução. Modelos estatísticos também são usados ​​para simulação de dados para fins de teste. Um processo estocástico pode ser usado para descrever como um conjunto de caracteres evolui em um idioma. A probabilidade de mudança de um personagem pode depender do ramo, mas nem todos os personagens evoluem juntos, nem a taxa é idêntica em todos os ramos. Freqüentemente, presume-se que cada personagem evolui independentemente, mas nem sempre é esse o caso. Dentro de um modelo, o empréstimo e o desenvolvimento paralelo (homoplasia) também podem ser modelados, assim como polimorfismos.

Efeitos do acaso

As semelhanças casuais produzem um nível de ruído contra o qual o sinal necessário de parentesco deve ser encontrado. Um estudo foi realizado por Ringe sobre os efeitos do acaso no método de comparação de massa . Isso mostrou que as semelhanças casuais eram críticas para a técnica e que as conclusões de Greenberg não podiam ser justificadas, embora o procedimento matemático usado por Rimge tenha sido criticado posteriormente.

Com pequenos bancos de dados, os erros de amostragem podem ser importantes.

Em alguns casos, com um grande banco de dados e a pesquisa exaustiva de todas as árvores ou redes possíveis não é viável devido às limitações de tempo de execução. Portanto, há uma chance de que a solução ótima não seja encontrada por métodos heurísticos de busca no espaço de soluções.

Detecção de empréstimo

Os empréstimos podem afetar gravemente a topologia de uma árvore, portanto, esforços são feitos para excluir empréstimos. No entanto, às vezes ainda existem alguns não detectados. McMahon e McMahon mostraram que cerca de 5% do empréstimo pode afetar a topologia, enquanto 10% tem efeitos significativos. Nas redes, o empréstimo produz reticulações. Minett e Wang examinaram maneiras de detectar empréstimos automaticamente.

Namoro dividido

A datação das divisões de idioma pode ser determinada se for conhecido como os personagens evoluem ao longo de cada galho de uma árvore. A suposição mais simples é que todos os personagens evoluem a uma única taxa constante com o tempo e que isso independe do galho da árvore. Essa foi a suposição feita na glotocronologia. No entanto, estudos logo mostraram que havia variação entre as línguas, algumas provavelmente devido à presença de empréstimos não reconhecidos. Uma abordagem melhor é permitir a variação da taxa, e a distribuição gama é geralmente usada por causa de sua conveniência matemática. Também foram realizados estudos que mostram que a taxa de substituição de caracteres depende da frequência de uso. O empréstimo generalizado pode distorcer as estimativas de tempo de divergência, fazendo com que as línguas pareçam mais semelhantes e, portanto, mais jovens. No entanto, isso também torna o comprimento do ramo do ancestral mais longo, de modo que a raiz não é afetada.

Esse aspecto é a parte mais controversa da lingüística comparativa quantitativa.

Tipos de análise

É necessário entender como funciona um método de classificação de linguagem para determinar suas suposições e limitações. Só pode ser válido sob certas condições ou ser adequado para pequenas bases de dados. Os métodos diferem em seus requisitos de dados, sua complexidade e tempo de execução. Os métodos também diferem em seus critérios de otimização.

Modelos baseados em personagens

Parcimônia máxima e compatibilidade máxima

Esses dois métodos são semelhantes, mas o objetivo do método de máxima parcimônia é encontrar a árvore (ou rede) em que ocorre o número mínimo de mudanças evolutivas. Em algumas implementações, os personagens podem receber pesos e, então, o objetivo é minimizar a soma total ponderada das alterações. A análise produz árvores sem raiz, a menos que um grupo externo seja usado ou personagens direcionados. As heurísticas são usadas para encontrar a melhor árvore, mas a otimização não é garantida. O método é frequentemente implementado usando os programas PAUP ou TNT .

A compatibilidade máxima também usa caracteres, com o objetivo de encontrar a árvore na qual o número máximo de caracteres evolui sem homoplasia. Novamente os caracteres podem ser ponderados e quando isso ocorrer o objetivo é maximizar a soma dos pesos dos caracteres compatíveis. Ele também produz árvores sem raiz, a menos que informações adicionais sejam incorporadas. Não há heurísticas prontamente disponíveis disponíveis que sejam precisas com grandes bancos de dados. Este método só foi usado pelo grupo de Ringe.

Nestes dois métodos, muitas vezes são encontradas várias árvores com a mesma pontuação, portanto, a prática usual é encontrar uma árvore de consenso por meio de um algoritmo. Um consenso da maioria tem bipartições em mais da metade das árvores de entrada, enquanto um consenso ganancioso adiciona bipartições à árvore da maioria. A árvore de consenso estrito é a menos resolvida e contém as divisões que estão em cada árvore.

Bootstrapping (uma estratégia de reamostragem estatística) é usado para fornecer valores de suporte de ramificação. A técnica escolhe aleatoriamente os caracteres da matriz de dados de entrada e, em seguida, a mesma análise é usada. O valor de suporte é a fração das execuções com essa bipartição na árvore observada. No entanto, a inicialização é muito demorada.

Máxima verossimilhança e análise bayesiana

Ambos os métodos usam modelos de evolução explícitos. O método de máxima verossimilhança otimiza a probabilidade de produzir os dados observados, enquanto a análise bayesiana estima a probabilidade de cada árvore e, portanto, produz uma distribuição de probabilidade. Um passeio aleatório é feito através do "espaço da árvore modelo". Ambos levam um tempo indeterminado para serem executados e parar pode ser arbitrário, portanto, uma decisão é um problema. No entanto, ambos produzem informações de suporte para cada filial.

As premissas desses métodos são evidentes e verificáveis. A complexidade do modelo pode ser aumentada, se necessário. Os parâmetros do modelo são estimados diretamente a partir dos dados de entrada, de modo que as suposições sobre a taxa evolutiva são evitadas.

Redes Filogenéticas Perfeitas

Este método produz uma rede filogênica explícita com uma árvore subjacente com bordas de contato adicionais. Personagens podem ser emprestados, mas evoluem sem homoplasia. Para produzir tais redes, um algoritmo teórico de grafos foi usado.

Método de Gray e Atkinson

Os dados lexicais de entrada são codificados em forma binária, com um caractere para cada estado do caractere multiestado original. O método permite homoplasia e restrições de tempos parciais. É utilizado um método de análise baseado em verossimilhança, com a evolução expressa como uma matriz de taxas. O ganho e a perda cognata são modelados com uma distribuição gama para permitir a variação da taxa e com suavização da taxa. Por causa do grande número de árvores possíveis com muitas linguagens, a inferência bayesiana é usada para pesquisar a árvore ótima. Um algoritmo Markov Chain Monte Carlo gera uma amostra de árvores como uma aproximação à distribuição de probabilidade posterior. Um resumo dessa distribuição pode ser fornecido como uma árvore de consenso gananciosa ou rede com valores de suporte. O método também fornece estimativas de datas.

O método é preciso quando os caracteres originais são binários e evoluem de forma idêntica e independente uns dos outros em um modelo de taxas entre sites com taxas distribuídas por gama; as datas são precisas quando a taxa de variação é constante. Entender o desempenho do método quando os caracteres originais são multiestados é mais complicado, uma vez que a codificação binária produz caracteres que não são independentes, enquanto o método assume independência.

Método de Nicholls e Gray

Este método é uma conseqüência de Gray e Atkinson. Em vez de ter dois parâmetros para um personagem, este método usa três. A taxa de natalidade, taxa de mortalidade de um cognato são especificadas e sua taxa de empréstimo. A taxa de natalidade é uma variável aleatória de Poisson com um único nascimento de uma classe cognata, mas mortes separadas de ramos são permitidas (parcimônia Dollo). O método não permite homoplasia, mas permite polimorfismo e restrições. Seu principal problema é que ele não pode lidar com dados ausentes (este problema foi resolvido por Ryder e Nicholls. Técnicas estatísticas são usadas para ajustar o modelo aos dados. Informações prévias podem ser incorporadas e uma pesquisa MCMC é feita de possíveis reconstruções. método foi aplicado ao banco de dados de Gray e Nichol e parece fornecer resultados semelhantes.

Modelos baseados em distância

Eles usam uma matriz triangular de comparações de linguagem entre pares. A matriz de caracteres de entrada é usada para calcular a matriz de distâncias usando a distância de Hamming ou a distância de Levenshtein . O primeiro mede a proporção de caracteres correspondentes, enquanto o último permite que os custos das várias transformações possíveis sejam incluídos. Esses métodos são rápidos em comparação com os totalmente baseados em caracteres. No entanto, esses métodos resultam em perda de informações.

UPGMA

O "Método de grupo pareado não ponderado com média aritmética" ( UPGMA ) é uma técnica de agrupamento que opera juntando repetidamente as duas línguas que têm a menor distância entre elas. Ele opera com precisão com evolução semelhante a um relógio, mas, do contrário, pode estar errado. Este é o método usado na léxicoestatística original de Swadesh.

Decomposição Dividida

Esta é uma técnica para dividir dados em grupos naturais. Os dados podem ser caracteres, mas geralmente são medidas de distância. As contagens de caracteres ou distâncias são usadas para gerar as divisões e calcular os pesos (comprimentos dos ramos) para as divisões. As divisões ponderadas são então representadas em uma árvore ou rede com base na minimização do número de mudanças entre cada par de taxa. Existem algoritmos rápidos para gerar a coleção de divisões. Os pesos são determinados a partir das distâncias do táxon para o táxon. A decomposição dividida é eficaz quando o número de taxa é pequeno ou quando o sinal não é muito complicado.

Vizinho se juntando

Este método opera em dados de distância, calcula uma transformação da matriz de entrada e então calcula a distância mínima dos pares de linguagens. Funciona corretamente mesmo que as línguas não evoluam com um relógio lexical. Uma versão ponderada do método também pode ser usada. O método produz uma árvore de saída. É considerado o método mais próximo das técnicas manuais de construção de árvores.

Rede de Vizinhança

Ele usa um algoritmo semelhante para a junção de vizinhos. Ao contrário da decomposição dividida, ele não funde os nós imediatamente, mas espera até que um nó seja emparelhado pela segunda vez. Os nós da árvore são então substituídos por dois e a matriz de distância reduzida. Ele pode lidar com conjuntos de dados grandes e complicados. No entanto, a saída é um fenograma em vez de um filograma. Este é o método de rede mais popular.

Rede

Este foi um método de rede antigo que foi usado para algumas análises de linguagem. Ele foi originalmente desenvolvido para sequências genéticas com mais de uma origem possível. A rede reduz as árvores alternativas em uma única rede. Onde há várias histórias, uma reticulação (uma forma de caixa) é desenhada. Ele gera uma lista de personagens incompatíveis com uma árvore.

ASP

Isso usa um formalismo de representação de conhecimento declarativo e os métodos de Programação de Conjunto de Respostas. Um desses solucionadores é o CMODELS, que pode ser usado para pequenos problemas, mas os maiores requerem heurísticas. O pré-processamento é usado para determinar os caracteres informativos. O CMODELS os transforma em uma teoria proposicional que usa um solucionador SAT para calcular os modelos dessa teoria.

Fitch / Kitch

Fitch e Kitch são programas baseados em máxima verossimilhança no PHYLIP que permitem que uma árvore seja reorganizada após cada adição, ao contrário de NJ. Kitch difere de Fitch ao assumir uma taxa constante de mudança em toda a árvore, enquanto a Fitch permite taxas diferentes em cada ramo.

Método de nível de separação

Holm introduziu um método em 2000 para lidar com alguns problemas conhecidos de análise léxico-estatística. Estas são a "armadilha simplisiomorfia", onde arcaísmos compartilhados são difíceis de distinguir de inovações compartilhadas, e a "armadilha da proporcionalidade" quando mudanças posteriores podem obscurecer as primeiras. Mais tarde, ele introduziu um método refinado, chamado SLD, para levar em conta a variável distribuição de palavras entre os idiomas. O método não pressupõe uma taxa de variação constante.

Métodos de convergência rápida

Vários métodos de análise de convergência rápida foram desenvolvidos para uso com grandes bancos de dados (> 200 idiomas). Um deles é o Método de Cobertura de Disco (DCM). Isso foi combinado com os métodos existentes para fornecer um desempenho aprimorado. Um artigo sobre o método DCM-NJ + MP é fornecido pelos mesmos autores em "O desempenho de métodos filogenéticos em árvores de diâmetro limitado", onde é comparado com o método NJ.

Modelos baseados em semelhança

Esses modelos comparam as letras das palavras em vez de sua fonética. Dunn et al. estudou 125 caracteres tipológicos em 16 línguas austronésicas e 15 línguas papuanas. Eles compararam seus resultados com uma árvore MP e outra construída pela análise tradicional. Diferenças significativas foram encontradas. Da mesma forma, Wichmann e Saunders usaram 96 caracteres para estudar 63 línguas americanas.

Comparação de massa computadorizada

Um método que foi sugerido para a inspeção inicial de um conjunto de idiomas para ver se eles estão relacionados foi a comparação em massa . No entanto, isso foi severamente criticado e caiu em desuso. Recentemente, Kessler ressuscitou uma versão computadorizada do método, mas usando testes de hipótese rigorosos. O objetivo é fazer uso de semelhanças em mais de dois idiomas ao mesmo tempo. Em outro artigo, vários critérios para comparar listas de palavras são avaliados. Verificou-se que as famílias IE e Uralic podiam ser reconstruídas, mas não havia evidências de uma superfamília conjunta.

Método de Nichol

Este método usa campos lexicais estáveis, como verbos de postura, para tentar estabelecer relacionamentos de longa distância. A convergência e as mudanças semânticas são levadas em consideração para a pesquisa de cognatos antigos. Um modelo é delineado e os resultados de um estudo piloto são apresentados.

ASJP

O Programa de Julgamento de Similaridade Automatizado (ASJP) é semelhante à lexicoestatística , mas o julgamento de similaridades é feito por um programa de computador seguindo um conjunto consistente de regras. As árvores são geradas usando métodos filogenéticos padrão. ASJP usa 7 símbolos vocálicos e 34 símbolos consonantais. Existem também vários modificadores. Duas palavras são consideradas semelhantes se pelo menos duas consoantes consecutivas nas respectivas palavras forem idênticas, enquanto as vogais também são levadas em consideração. A proporção de palavras com o mesmo significado julgadas semelhantes para um par de idiomas é a Porcentagem de Similaridade Lexical (LSP). A Porcentagem de Similaridade Fonológica (PSP) também é calculada. PSP é então subtraído do LSP produzindo a Porcentagem de Similaridade Subtraída (SSP) e a distância ASJP é 100-SSP. Atualmente, existem dados sobre mais de 4.500 idiomas e dialetos no banco de dados ASJP, a partir do qual uma árvore de idiomas do mundo foi gerada.

Método de Serva e Petroni

Mede a distância ortográfica entre as palavras para evitar a subjetividade dos julgamentos de cognição. Ele determina o número mínimo de operações necessárias para transformar uma palavra em outra, normalizado pelo comprimento da palavra mais longa. Uma árvore é construída a partir dos dados de distância pela técnica UPGMA.

Métodos de avaliação fonética

Heggarty propôs um meio de fornecer uma medida dos graus de diferença entre os cognatos, em vez de apenas respostas sim / não. Isso se baseia no exame de muitas (> 30) características da fonética das glosas em comparação com a protolinguagem. Isso pode exigir uma grande quantidade de trabalho, mas Heggarty afirma que apenas uma amostra representativa de sons é necessária. Ele também examinou a taxa de mudança da fonética e encontrou uma grande variação de taxa, de modo que era inadequada para a glotocronologia. Uma avaliação semelhante da fonética havia sido realizada anteriormente por Grimes e Agard para as línguas românicas, mas isso usava apenas seis pontos de comparação.

Avaliação de métodos

Métricas

Técnicas matemáticas padrão estão disponíveis para medir a similaridade / diferença de duas árvores. Para árvores de consenso, o Índice de Consistência (IC) é uma medida de homoplasia. Para um caractere, é a proporção do número mínimo concebível de etapas em qualquer árvore (= 1 para árvores binárias) dividido pelo número de etapas reconstruídas na árvore. O IC de uma árvore é a soma dos ICs de caracteres dividida pelo número de caracteres. Representa a proporção de padrões atribuídos corretamente.

O índice de retenção (RI) mede a quantidade de semelhança em um personagem. É a razão (g - s) / (g - m) onde g é o maior número de passos de um personagem em qualquer árvore, m é o número mínimo de passos em qualquer árvore e s é o número mínimo de passos em uma determinada árvore árvore. Há também um IC Reescalonado, que é o produto do IC e do RI.

Para árvores binárias, a maneira padrão de comparar sua topologia é usar a métrica Robinson-Foulds . Essa distância é a média do número de falsos positivos e falsos negativos em termos de ocorrência de ramificação. Taxas de RF acima de 10% são consideradas correspondências ruins. Para outros tipos de árvores e redes, ainda não existe um método padrão de comparação.

Listas de caracteres incompatíveis são produzidas por alguns métodos de produção de árvore. Isso pode ser extremamente útil na análise da saída. Onde métodos heurísticos são usados, a repetibilidade é um problema. No entanto, técnicas matemáticas padrão são usadas para superar esse problema.

Comparação com análises anteriores

Para avaliar os métodos, é escolhida uma família de linguagens bem compreendida, com um conjunto de dados confiável. Esta família é frequentemente a do IE, mas outras foram usadas. Depois de aplicar os métodos a serem comparados ao banco de dados, as árvores resultantes são comparadas com a árvore de referência determinada pelos métodos linguísticos tradicionais. O objetivo é não haver conflitos na topologia, por exemplo, sem subgrupos ausentes e datas compatíveis. As famílias sugeridas para esta análise por Nichols e Warnow são germânica, românica, eslava, turca comum, chinesa e Mixe Zoque, bem como grupos mais antigos, como Oceanic e IE.

Uso de simulações

Embora o uso de linguagens reais adicione realismo e forneça problemas reais, o método de validação acima sofre do fato de que a verdadeira evolução das linguagens é desconhecida. Ao gerar um conjunto de dados de uma evolução simulada, a árvore correta é conhecida. No entanto, será uma versão simplificada da realidade. Portanto, ambas as técnicas de avaliação devem ser utilizadas.

Análise sensitiva

Para avaliar a robustez de uma solução, é desejável variar os dados de entrada e as restrições e observar a saída. Cada variável é ligeiramente alterada por vez. Esta análise foi realizada em vários casos e os métodos considerados robustos, por exemplo, por Atkinson e Gray.

Estudos comparando métodos

Durante o início da década de 1990, o linguista Donald Ringe , com os cientistas da computação Luay Nakhleh e Tandy Warnow , o estatístico Steven N. Evans e outros, começou a colaborar na pesquisa em projetos linguísticos comparativos quantitativos. Mais tarde, eles fundaram o projeto CHPL , cujos objetivos incluem: "produzir e manter conjuntos de dados linguísticos reais, em particular de línguas indo-europeias", "formular modelos estatísticos que capturem a evolução dos dados linguísticos históricos", "projetar ferramentas de simulação e precisão medidas para gerar dados sintéticos para estudar o desempenho dos métodos de reconstrução ", e" desenvolver e implementar métodos baseados em estatísticas, bem como métodos combinatórios para reconstruir filogenias de linguagem, incluindo redes filogenéticas ".

Uma comparação dos métodos de codificação foi realizada por Rexova et al. (2003). Eles criaram um conjunto de dados reduzido a partir do banco de dados Dyen, mas com a adição de Hittite. Eles produziram uma matriz multiestado padrão onde os 141 estados de caracteres correspondem a classes cognatas individuais, permitindo o polimorfismo. Eles também ingressaram em algumas classes cognatas, para reduzir a subjetividade e os estados polimórficos não eram permitidos. Por último, eles produziram uma matriz binária em que cada classe de palavras foi tratada como um caractere separado. As matrizes foram analisadas pelo PAUP. Verificou-se que o uso da matriz binária produziu mudanças próximas à raiz da árvore.

McMahon e McMahon (2003) usaram três programas PHYLIP (NJ, Fitch e Kitch) no conjunto de dados DKB. Eles descobriram que os resultados produzidos foram muito semelhantes. Bootstrapping foi usado para testar a robustez de qualquer parte da árvore. Mais tarde, eles usaram subconjuntos de dados para avaliar sua capacidade de retenção e reconstrução. Os resultados mostraram diferenças topológicas que foram atribuídas ao empréstimo. Eles também usaram Network, Split Decomposition, Neighbour-net e SplitsTree em vários conjuntos de dados. Diferenças significativas foram encontradas entre os dois últimos métodos. A vizinhança era considerada ótima para discernir o contato linguístico.

Em 2005, Nakhleh, Warnow, Ringe e Evans fizeram uma comparação de seis métodos de análise usando um banco de dados indo-europeu. Os métodos comparados foram UPGMA, NJ MP, MC, WMC e GA. O pacote de software PAUP foi usado para UPGMA, NJ e MC, bem como para calcular a maioria das árvores de consenso. O banco de dados RWT foi usado, mas 40 caracteres foram removidos devido a evidências de polimorfismo. Em seguida, um banco de dados rastreado foi produzido excluindo todos os personagens que exibiam claramente o desenvolvimento paralelo, eliminando assim 38 recursos. As árvores foram avaliadas com base no número de caracteres incompatíveis e de acordo com os resultados do subgrupo estabelecido. Eles descobriram que o UPGMA era claramente o pior, mas não havia muita diferença entre os outros métodos. Os resultados dependeram do conjunto de dados usado. Verificou-se que a ponderação dos caracteres é importante, o que requer julgamento linguístico.

Saunders (2005) comparou NJ, MP, GA e Neighbour-Net em uma combinação de dados lexicais e tipológicos. Ele recomendou o uso do método GA, mas Nichols e Warnow têm algumas preocupações sobre a metodologia de estudo.

Cysouw et al. (2006) comparou o método original de Holm com NJ, Fitch, MP e SD. Eles descobriram que o método de Holm era menos preciso do que os outros.

Em 2013, François Barbancon, Warnow, Evans, Ringe e Nakleh (2013) estudaram vários métodos de reconstrução de árvores usando dados simulados. Seus dados simulados variavam no número de bordas de contato, o grau de homoplasia, o desvio de um relógio lexical e o desvio da suposição de taxas entre locais. Verificou-se que a acurácia dos métodos não ponderados (MP, NJ, UPGMA e GA) foi consistente em todas as condições estudadas, sendo MP a melhor. A precisão dos dois métodos ponderados (WMC e WMP) dependeu da adequação do esquema de ponderação. Com baixa homoplasia, os métodos ponderados geralmente produziram os resultados mais precisos, mas uma ponderação inadequada pode torná-los piores do que MP ou GA em níveis moderados ou altos de homoplasia.

Escolhendo o melhor modelo

A escolha de um modelo apropriado é crítica para a produção de boas análises filogenéticas. Ambos os modelos subparametrizados ou excessivamente restritivos podem produzir um comportamento aberrante quando suas suposições subjacentes são violadas, enquanto os modelos excessivamente complexos ou excessivamente parametrizados requerem tempos de execução longos e seus parâmetros podem ser excessivamente ajustados. O método mais comum de seleção de modelo é o "Teste da Razão de Verossimilhança", que produz uma estimativa do ajuste entre o modelo e os dados, mas como alternativa, o Critério de Informação de Akaike ou o Critério de Informação Bayesiano podem ser usados. Programas de computador de seleção de modelo estão disponíveis.

Veja também

Notas

Bibliografia

links externos