Correlação canônica - Canonical correlation

Em estatística , a análise de correlação canônica ( CCA ), também chamada de análise de variáveis ​​canônicas , é uma forma de inferir informações de matrizes de covariância cruzada . Se tivermos dois vetores X  = ( X 1 , ...,  X n ) e Y  = ( Y 1 , ...,  Y m ) de variáveis ​​aleatórias , e houver correlações entre as variáveis, então a análise de correlação canônica encontre combinações lineares de X e Y que tenham correlação máxima entre si. TR Knapp observa que "virtualmente todos os testes paramétricos de significância comumente encontrados podem ser tratados como casos especiais de análise de correlação canônica, que é o procedimento geral para investigar as relações entre dois conjuntos de variáveis." O método foi introduzido pela primeira vez por Harold Hotelling em 1936, embora no contexto de ângulos entre apartamentos o conceito matemático tenha sido publicado por Jordan em 1875.

Definição

Dados dois vetores de coluna e de variáveis ​​aleatórias com segundos momentos finitos , pode-se definir a covariância cruzada como a matriz cuja entrada é a covariância . Na prática, estimaríamos a matriz de covariância com base em dados de amostra de e (ou seja, de um par de matrizes de dados).

Análise canónica-correlação procura vectores ( ) e ( ), tais que as variáveis aleatórias e maximizar a correlação . As variáveis ​​aleatórias e são o primeiro par de variáveis ​​canônicas . Em seguida, buscam-se vetores que maximizem a mesma correlação sujeito à restrição de que eles não devem estar correlacionados com o primeiro par de variáveis ​​canônicas; isso dá o segundo par de variáveis ​​canônicas . Este procedimento pode ser continuado várias vezes.

Computação

Derivação

Let Ser a matriz de covariância cruzada para quaisquer variáveis ​​aleatórias e . A função de destino para maximizar é

O primeiro passo é definir uma mudança de base e definir

E assim temos

Pela desigualdade de Cauchy-Schwarz , temos

Há igualdade se os vetores e forem colineares. Além disso, o máximo de correlação é atingido se for o autovetor com o autovalor máximo para a matriz (ver quociente de Rayleigh ). Os pares subsequentes são encontrados usando autovalores de magnitudes decrescentes. A ortogonalidade é garantida pela simetria das matrizes de correlação.

Outra maneira de ver esse cálculo é que e são os vetores singulares esquerdo e direito da matriz de correlação de X e Y correspondendo ao valor singular mais alto.

Solução

A solução é, portanto:

  • é um autovetor de
  • é proporcional a

Reciprocamente, também há:

  • é um autovetor de
  • é proporcional a

Invertendo a mudança de coordenadas, temos que

  • é um autovetor de ,
  • é proporcional a
  • é um autovetor de
  • é proporcional a .

As variáveis ​​canônicas são definidas por:

Implementação

O CCA pode ser calculado usando decomposição de valor singular em uma matriz de correlação. Está disponível como uma função em

O cálculo de CCA usando decomposição de valor singular em uma matriz de correlação está relacionado ao cosseno dos ângulos entre planos . A função cosseno é mal condicionada para ângulos pequenos, levando a cálculos muito imprecisos de vetores principais altamente correlacionados em aritmética computacional de precisão finita . Para corrigir esse problema , algoritmos alternativos estão disponíveis em

Testando hipóteses

Cada linha pode ser testada quanto à significância com o seguinte método. Uma vez que as correlações são classificadas, dizer que a linha é zero implica que todas as correlações adicionais também são zero. Se tivermos observações independentes em uma amostra e for a correlação estimada para . Para a terceira linha, a estatística de teste é:

que é distribuído assintoticamente como um qui-quadrado com graus de liberdade para grande . Como todas as correlações de a são logicamente zero (e também estimadas dessa forma), o produto para os termos após esse ponto é irrelevante.

Observe que, no limite de tamanho pequeno da amostra com então, temos a garantia de que as correlações superiores serão identicamente 1 e, portanto, o teste não tem sentido.

Usos práticos

Um uso típico para correlação canônica no contexto experimental é pegar dois conjuntos de variáveis ​​e ver o que é comum entre os dois. Por exemplo, em testes psicológicos, pode-se fazer dois testes de personalidade multidimensionais bem estabelecidos , como o Inventário Multifásico de Personalidade de Minnesota (MMPI-2) e o NEO . Ao ver como os fatores MMPI-2 se relacionam com os fatores NEO, pode-se obter uma visão sobre quais dimensões eram comuns entre os testes e quanta variância foi compartilhada. Por exemplo, pode-se descobrir que uma dimensão de extroversão ou neuroticismo foi responsável por uma quantidade substancial de variância compartilhada entre os dois testes.

Também se pode usar a análise de correlação canônica para produzir uma equação modelo que relaciona dois conjuntos de variáveis, por exemplo, um conjunto de medidas de desempenho e um conjunto de variáveis ​​explicativas, ou um conjunto de saídas e um conjunto de entradas. Restrições de restrição podem ser impostas a tal modelo para garantir que ele reflita requisitos teóricos ou condições intuitivamente óbvias. Esse tipo de modelo é conhecido como modelo de correlação máxima.

A visualização dos resultados da correlação canônica geralmente é feita por meio de gráficos de barras dos coeficientes dos dois conjuntos de variáveis ​​para os pares de variáveis ​​canônicas que mostram correlação significativa. Alguns autores sugerem que são mais bem visualizados traçando-os como heliografias, um formato circular com barras semelhantes a raios, com cada metade representando os dois conjuntos de variáveis.

Exemplos

Deixe com valor esperado zero , ou seja ,. Se , isto é, e estão perfeitamente correlacionados, então, por exemplo, e , de modo que o primeiro (e apenas neste exemplo) par de variáveis ​​canônicas é e . Se , isto é, e são perfeitamente anticorrelacionados, então, por exemplo, e , de modo que o primeiro (e apenas neste exemplo) par de variáveis ​​canônicas é e . Notamos isso em ambos os casos , o que ilustra que a análise de correlação canônica trata as variáveis ​​correlacionadas e anticorrelacionadas de forma semelhante.

Conexão com ângulos principais

Assumindo que e têm valores esperados zero , ou seja, suas matrizes de covariância e podem ser visualizadas como matrizes de Gram em um produto interno para as entradas de e , correspondentemente. Nessa interpretação, as variáveis ​​aleatórias, entradas de e de são tratadas como elementos de um espaço vetorial com um produto interno dado pela covariância ; consulte Covariância # Relacionamento com produtos internos .

A definição das variáveis ​​canônicas e é então equivalente à definição dos vetores principais para o par de subespaços abrangidos pelas entradas de e em relação a este produto interno . As correlações canônicas são iguais ao cosseno dos ângulos principais .

Análise de clareamento e correlação canônica probabilística

O CCA também pode ser visto como uma transformação especial de branqueamento onde os vetores aleatórios e são simultaneamente transformados de tal forma que a correlação cruzada entre os vetores branqueados e diagonal. As correlações canónicas são então interpretados como coeficientes de regressão que liga e e podem também ser negativo. A visão de regressão do CCA também fornece uma maneira de construir um modelo gerador probabilístico de variável latente para CCA, com variáveis ​​ocultas não correlacionadas representando variabilidade compartilhada e não compartilhada.

Veja também

Referências

links externos

  1. ^ Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). "Análise de Correlação Discriminante: Fusão de Nível de Característica em Tempo Real para Reconhecimento Biométrico Multimodal" . IEEE Transactions on Information Forensics and Security . 11 (9): 1984–1996. doi : 10.1109 / TIFS.2016.2569061 .