Correlação canônica - Canonical correlation
Parte de uma série sobre |
Aprendizado de máquina e mineração de dados |
---|
Em estatística , a análise de correlação canônica ( CCA ), também chamada de análise de variáveis canônicas , é uma forma de inferir informações de matrizes de covariância cruzada . Se tivermos dois vetores X = ( X 1 , ..., X n ) e Y = ( Y 1 , ..., Y m ) de variáveis aleatórias , e houver correlações entre as variáveis, então a análise de correlação canônica encontre combinações lineares de X e Y que tenham correlação máxima entre si. TR Knapp observa que "virtualmente todos os testes paramétricos de significância comumente encontrados podem ser tratados como casos especiais de análise de correlação canônica, que é o procedimento geral para investigar as relações entre dois conjuntos de variáveis." O método foi introduzido pela primeira vez por Harold Hotelling em 1936, embora no contexto de ângulos entre apartamentos o conceito matemático tenha sido publicado por Jordan em 1875.
Definição
Dados dois vetores de coluna e de variáveis aleatórias com segundos momentos finitos , pode-se definir a covariância cruzada como a matriz cuja entrada é a covariância . Na prática, estimaríamos a matriz de covariância com base em dados de amostra de e (ou seja, de um par de matrizes de dados).
Análise canónica-correlação procura vectores ( ) e ( ), tais que as variáveis aleatórias e maximizar a correlação . As variáveis aleatórias e são o primeiro par de variáveis canônicas . Em seguida, buscam-se vetores que maximizem a mesma correlação sujeito à restrição de que eles não devem estar correlacionados com o primeiro par de variáveis canônicas; isso dá o segundo par de variáveis canônicas . Este procedimento pode ser continuado várias vezes.
Computação
Derivação
Let Ser a matriz de covariância cruzada para quaisquer variáveis aleatórias e . A função de destino para maximizar é
O primeiro passo é definir uma mudança de base e definir
E assim temos
Pela desigualdade de Cauchy-Schwarz , temos
Há igualdade se os vetores e forem colineares. Além disso, o máximo de correlação é atingido se for o autovetor com o autovalor máximo para a matriz (ver quociente de Rayleigh ). Os pares subsequentes são encontrados usando autovalores de magnitudes decrescentes. A ortogonalidade é garantida pela simetria das matrizes de correlação.
Outra maneira de ver esse cálculo é que e são os vetores singulares esquerdo e direito da matriz de correlação de X e Y correspondendo ao valor singular mais alto.
Solução
A solução é, portanto:
- é um autovetor de
- é proporcional a
Reciprocamente, também há:
- é um autovetor de
- é proporcional a
Invertendo a mudança de coordenadas, temos que
- é um autovetor de ,
- é proporcional a
- é um autovetor de
- é proporcional a .
As variáveis canônicas são definidas por:
Implementação
O CCA pode ser calculado usando decomposição de valor singular em uma matriz de correlação. Está disponível como uma função em
- MATLAB como canoncorr ( também em Octave )
- R como o cancelador de função padrão e vários outros pacotes, incluindo CCA e vegan . CCP para teste de hipótese estatística em análise de correlação canônica.
- SAS como proc cancorr
- Python na biblioteca scikit-learn , como Cross decomposition e em statsmodels , como CanCorr .
- SPSS como macro CanCorr enviado com o software principal
- Julia (linguagem de programação) no pacote MultivariateStats.jl .
O cálculo de CCA usando decomposição de valor singular em uma matriz de correlação está relacionado ao cosseno dos ângulos entre planos . A função cosseno é mal condicionada para ângulos pequenos, levando a cálculos muito imprecisos de vetores principais altamente correlacionados em aritmética computacional de precisão finita . Para corrigir esse problema , algoritmos alternativos estão disponíveis em
Testando hipóteses
Cada linha pode ser testada quanto à significância com o seguinte método. Uma vez que as correlações são classificadas, dizer que a linha é zero implica que todas as correlações adicionais também são zero. Se tivermos observações independentes em uma amostra e for a correlação estimada para . Para a terceira linha, a estatística de teste é:
que é distribuído assintoticamente como um qui-quadrado com graus de liberdade para grande . Como todas as correlações de a são logicamente zero (e também estimadas dessa forma), o produto para os termos após esse ponto é irrelevante.
Observe que, no limite de tamanho pequeno da amostra com então, temos a garantia de que as correlações superiores serão identicamente 1 e, portanto, o teste não tem sentido.
Usos práticos
Um uso típico para correlação canônica no contexto experimental é pegar dois conjuntos de variáveis e ver o que é comum entre os dois. Por exemplo, em testes psicológicos, pode-se fazer dois testes de personalidade multidimensionais bem estabelecidos , como o Inventário Multifásico de Personalidade de Minnesota (MMPI-2) e o NEO . Ao ver como os fatores MMPI-2 se relacionam com os fatores NEO, pode-se obter uma visão sobre quais dimensões eram comuns entre os testes e quanta variância foi compartilhada. Por exemplo, pode-se descobrir que uma dimensão de extroversão ou neuroticismo foi responsável por uma quantidade substancial de variância compartilhada entre os dois testes.
Também se pode usar a análise de correlação canônica para produzir uma equação modelo que relaciona dois conjuntos de variáveis, por exemplo, um conjunto de medidas de desempenho e um conjunto de variáveis explicativas, ou um conjunto de saídas e um conjunto de entradas. Restrições de restrição podem ser impostas a tal modelo para garantir que ele reflita requisitos teóricos ou condições intuitivamente óbvias. Esse tipo de modelo é conhecido como modelo de correlação máxima.
A visualização dos resultados da correlação canônica geralmente é feita por meio de gráficos de barras dos coeficientes dos dois conjuntos de variáveis para os pares de variáveis canônicas que mostram correlação significativa. Alguns autores sugerem que são mais bem visualizados traçando-os como heliografias, um formato circular com barras semelhantes a raios, com cada metade representando os dois conjuntos de variáveis.
Exemplos
Deixe com valor esperado zero , ou seja ,. Se , isto é, e estão perfeitamente correlacionados, então, por exemplo, e , de modo que o primeiro (e apenas neste exemplo) par de variáveis canônicas é e . Se , isto é, e são perfeitamente anticorrelacionados, então, por exemplo, e , de modo que o primeiro (e apenas neste exemplo) par de variáveis canônicas é e . Notamos isso em ambos os casos , o que ilustra que a análise de correlação canônica trata as variáveis correlacionadas e anticorrelacionadas de forma semelhante.
Conexão com ângulos principais
Assumindo que e têm valores esperados zero , ou seja, suas matrizes de covariância e podem ser visualizadas como matrizes de Gram em um produto interno para as entradas de e , correspondentemente. Nessa interpretação, as variáveis aleatórias, entradas de e de são tratadas como elementos de um espaço vetorial com um produto interno dado pela covariância ; consulte Covariância # Relacionamento com produtos internos .
A definição das variáveis canônicas e é então equivalente à definição dos vetores principais para o par de subespaços abrangidos pelas entradas de e em relação a este produto interno . As correlações canônicas são iguais ao cosseno dos ângulos principais .
Análise de clareamento e correlação canônica probabilística
O CCA também pode ser visto como uma transformação especial de branqueamento onde os vetores aleatórios e são simultaneamente transformados de tal forma que a correlação cruzada entre os vetores branqueados e diagonal. As correlações canónicas são então interpretados como coeficientes de regressão que liga e e podem também ser negativo. A visão de regressão do CCA também fornece uma maneira de construir um modelo gerador probabilístico de variável latente para CCA, com variáveis ocultas não correlacionadas representando variabilidade compartilhada e não compartilhada.
Veja também
- Correlação canônica generalizada
- Aprendizagem subespaço multilinear
- Coeficiente RV
- Ângulos entre apartamentos
- Análise do componente principal
- Análise discriminante linear
- Análise de correlação canônica regularizada
- Decomposição de valor singular
- Regressão de mínimos quadrados parciais
Referências
links externos
- Análise de Correlação Discriminante (DCA) ( MATLAB )
- Hardoon, DR; Szedmak, S .; Shawe-Taylor, J. (2004). "Análise de correlação canônica: uma visão geral com aplicação a métodos de aprendizagem". Computação Neural . 16 (12): 2639–2664. CiteSeerX 10.1.1.14.6452 . doi : 10.1162 / 0899766042321814 . PMID 15516276 .
- Uma nota sobre a análise de correlação canônica ordinal de dois conjuntos de pontuações de classificação (também fornece um programa FORTRAN ) - no Journal of Quantitative Economics 7 (2), 2009, pp. 173–199
- Análise de correlação canônica com restrição de representação: uma hibridização de correlação canônica e análises de componentes principais (também fornece um programa FORTRAN ) - in Journal of Applied Economic Sciences 4 (1), 2009, pp. 115-124
- ^ Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). "Análise de Correlação Discriminante: Fusão de Nível de Característica em Tempo Real para Reconhecimento Biométrico Multimodal" . IEEE Transactions on Information Forensics and Security . 11 (9): 1984–1996. doi : 10.1109 / TIFS.2016.2569061 .