Cálculo matricial - Matrix calculus

Em matemática , cálculo de matriz é uma notação especializada para fazer cálculos multivariados , especialmente sobre espaços de matrizes . Ele coleta as várias derivadas parciais de uma única função em relação a muitas variáveis , e / ou de uma função multivariada em relação a uma única variável, em vetores e matrizes que podem ser tratados como entidades únicas. Isso simplifica muito as operações, como encontrar o máximo ou mínimo de uma função multivariada e resolver sistemas de equações diferenciais . A notação usada aqui é comumente usada em estatística e engenharia , enquanto a notação de índice de tensor é preferida em física .

Duas convenções notacionais concorrentes dividem o campo do cálculo matricial em dois grupos separados. Os dois grupos podem ser distinguidos pelo fato de escreverem a derivada de um escalar em relação a um vetor como um vetor coluna ou um vetor linha . Ambas as convenções são possíveis mesmo quando a suposição comum é feita de que os vetores devem ser tratados como vetores de coluna quando combinados com matrizes (em vez de vetores de linha). Uma única convenção pode ser um tanto padrão em um único campo que normalmente usa cálculo matricial (por exemplo , econometria , estatística, teoria de estimativa e aprendizado de máquina ). No entanto, mesmo dentro de um determinado campo, autores diferentes podem ser encontrados usando convenções concorrentes. Autores de ambos os grupos freqüentemente escrevem como se suas convenções específicas fossem padronizadas. Erros graves podem ocorrer ao combinar resultados de diferentes autores sem verificar cuidadosamente se as notações compatíveis foram usadas. As definições dessas duas convenções e comparações entre elas são coletadas na seção de convenções de layout .

Alcance

O cálculo de matriz se refere a uma série de notações diferentes que usam matrizes e vetores para coletar a derivada de cada componente da variável dependente com relação a cada componente da variável independente. Em geral, a variável independente pode ser um escalar, um vetor ou uma matriz, enquanto a variável dependente também pode ser qualquer um deles. Cada situação diferente levará a um conjunto diferente de regras, ou um cálculo separado , usando o sentido mais amplo do termo. A notação de matriz serve como uma maneira conveniente de coletar as muitas derivadas de uma maneira organizada.

Como primeiro exemplo, considere o gradiente do cálculo vetorial . Para uma função escalar de três variáveis ​​independentes , o gradiente é dado pela equação vetorial

,

onde representa um vetor unitário na direção de . Este tipo de derivada generalizada pode ser vista como a derivada de um escalar, f , em relação a um vetor , e seu resultado pode ser facilmente coletado na forma vetorial.

Exemplos mais complicados incluem a derivada de uma função escalar em relação a uma matriz, conhecida como matriz de gradiente , que coleta a derivada em relação a cada elemento da matriz na posição correspondente na matriz resultante. Nesse caso, o escalar deve ser uma função de cada uma das variáveis ​​independentes na matriz. Como outro exemplo, se tivermos um n- vetor de variáveis ​​dependentes, ou funções, de m variáveis ​​independentes, podemos considerar a derivada do vetor dependente em relação ao vetor independente. O resultado pode ser coletado em uma matriz m × n consistindo em todas as combinações possíveis de derivadas. Há um total de nove possibilidades usando escalares, vetores e matrizes. Observe que, ao considerarmos um número maior de componentes em cada uma das variáveis ​​independentes e dependentes, podemos ficar com um número muito grande de possibilidades.

Os seis tipos de derivados que podem ser organizados de forma mais organizada em forma de matriz são coletados na tabela a seguir.

Tipos de derivada de matriz
Tipos Escalar Vetor Matriz
Escalar
Vetor
Matriz

Aqui, usamos o termo "matriz" em seu sentido mais geral, reconhecendo que vetores e escalares são simplesmente matrizes com uma coluna e uma linha, respectivamente. Além disso, usamos letras em negrito para indicar vetores e letras maiúsculas em negrito para matrizes. Essa notação é usada por toda parte.

Observe que também podemos falar sobre a derivada de um vetor em relação a uma matriz, ou qualquer uma das outras células não preenchidas em nossa tabela. No entanto, essas derivadas são mais naturalmente organizadas em um tensor de classificação superior a 2, de modo que não se encaixam perfeitamente em uma matriz. Nas três seções seguintes, definiremos cada uma dessas derivadas e as relacionaremos a outros ramos da matemática. Consulte a seção de convenções de layout para uma tabela mais detalhada.

Relação com outros derivados

A derivada de matriz é uma notação conveniente para manter o controle de derivadas parciais para fazer cálculos. A derivada de Fréchet é a forma padrão na configuração da análise funcional para obter derivadas com respeito a vetores. No caso de uma função de matriz de uma matriz ser Fréchet diferenciável, as duas derivadas concordarão até a tradução das notações. Como é o caso em geral para derivadas parciais , algumas fórmulas podem se estender sob condições analíticas mais fracas do que a existência da derivada como mapeamento linear aproximado.

Usos

O cálculo matricial é usado para derivar estimadores estocásticos ótimos, frequentemente envolvendo o uso de multiplicadores de Lagrange . Isso inclui a derivação de:

Notação

Os derivados vetoriais e matriciais apresentados nas seções a seguir tiram total vantagem da notação matricial , usando uma única variável para representar um grande número de variáveis. A seguir, distinguiremos escalares, vetores e matrizes por seu tipo de letra. Vamos deixá- M ( n , m ) representar o espaço das reais n × m matrizes com n linhas e m colunas. Essas matrizes serão denotadas com letras maiúsculas em negrito: A , X , Y , etc. Um elemento de M ( n , 1), ou seja, um vetor de coluna , é denotado com uma letra minúscula em negrito: a , x , y , etc. .Um elemento de M (1,1) é um escalar, denotado com fonte em itálico minúsculo: a , t , x , etc. X T denota a transposta da matriz , tr ( X ) é o traço e det ( X ) ou | X | é o determinante . Todas as funções são consideradas de classe de diferenciabilidade C 1, a menos que indicado de outra forma. Geralmente letras da primeira metade do alfabeto (a, b, c, ...) serão usadas para denotar constantes, e da segunda metade (t, x, y, ...) para denotar variáveis.

NOTA : Como mencionado acima, existem notações concorrentes para esquematizar sistemas de derivadas parciais em vetores e matrizes, e nenhum padrão parece estar surgindo ainda. As próximas duas seções introdutórias usam a convenção de layout do numerador simplesmente para fins de conveniência, para evitar complicar demais a discussão. A seção seguinte discute as convenções de layout com mais detalhes. É importante perceber o seguinte:

  1. Apesar do uso dos termos "layout do numerador" e "layout do denominador", na verdade existem mais de duas opções notacionais possíveis envolvidas. A razão é que a escolha de numerador vs. denominador (ou em algumas situações, numerador vs. misto) pode ser feita independentemente para escalar por vetor, vetor por escalar, vetor por vetor e escalar por derivados de matriz e vários autores misturam e combinam suas escolhas de layout de várias maneiras.
  2. A escolha do layout do numerador nas seções introdutórias abaixo não implica que esta seja a escolha "correta" ou "superior". Existem vantagens e desvantagens nos vários tipos de layout. Erros graves podem resultar da combinação descuidada de fórmulas escritas em layouts diferentes, e a conversão de um layout para outro requer cuidado para evitar erros. Como resultado, ao trabalhar com fórmulas existentes, a melhor política provavelmente é identificar qualquer layout usado e manter a consistência com ele, em vez de tentar usar o mesmo layout em todas as situações.

Alternativas

A notação do índice tensorial com sua convenção de soma de Einstein é muito semelhante ao cálculo da matriz, exceto que se escreve apenas um único componente por vez. Tem a vantagem de poder manipular facilmente tensores de classificação alta arbitrariamente, enquanto tensores de classificação superior a dois são bastante complicados com a notação de matriz. Todo o trabalho aqui pode ser feito nesta notação sem o uso da notação de matriz de variável única. No entanto, muitos problemas na teoria da estimativa e em outras áreas da matemática aplicada resultariam em muitos índices para controlar adequadamente, apontando a favor do cálculo matricial nessas áreas. Além disso, a notação de Einstein pode ser muito útil para provar as identidades apresentadas aqui (consulte a seção sobre diferenciação ) como uma alternativa à notação de elemento típica, que pode se tornar complicada quando as somas explícitas são transportadas. Observe que uma matriz pode ser considerada um tensor de classificação dois.

Derivados com vetores

Como os vetores são matrizes com apenas uma coluna, as derivadas de matriz mais simples são derivadas de vetores.

As notações desenvolvido aqui pode acomodar as operações usuais de cálculo vectorial por meio da identificação do espaço M ( n , 1) de n -vectors com o espaço euclidiano R n , e o escalar M (1,1) é identificado com R . O conceito correspondente do cálculo vetorial é indicado no final de cada subseção.

NOTA : A discussão nesta seção assume a convenção de layout do numerador para fins pedagógicos. Alguns autores usam convenções diferentes. A seção sobre convenções de layout discute esse problema com mais detalhes. As identidades fornecidas mais abaixo são apresentadas em formulários que podem ser usados ​​em conjunto com todas as convenções de layout comuns.

Vetor por escalar

A derivada de um vetor , por um escalar x é escrita (na notação de layout do numerador ) como

No vector de cálculo da derivada de um vector y em relação a um escalar x é conhecida como o vector tangente do vector y , . Observe aqui que y : R 1R m .

Exemplo Simples exemplos deste incluem a velocidade do vector em espaço euclidiano , que é o vector tangente da posição vector (considerado como uma função do tempo). Além disso, a aceleração é o vetor tangente da velocidade.

Escalar por vetor

A derivada de um escalar y por um vetor , é escrita (na notação de layout do numerador ) como

No cálculo vetorial , o gradiente de um campo escalar f no espaço R n (cujas coordenadas independentes são as componentes de x ) é a transposta da derivada de um escalar por um vetor.

Por exemplo, em física, o campo elétrico é o gradiente vetorial negativo do potencial elétrico .

A derivada direcional de uma função escalar f ( x ) do vetor espacial x na direção do vetor unitário u (representado neste caso como um vetor coluna) é definida usando o gradiente como segue.

Usando a notação recém-definida para a derivada de um escalar em relação a um vetor, podemos reescrever a derivada direcional como Este tipo de notação será bom ao provar regras de produto e regras de cadeia que parecem semelhantes ao que estamos familiarizados para a derivada escalar .

Vetor por vetor

Cada um dos dois casos anteriores pode ser considerado como uma aplicação da derivada de um vetor em relação a um vetor, usando um vetor de tamanho um apropriadamente. Da mesma forma, descobriremos que as derivadas envolvendo matrizes se reduzirão a derivadas envolvendo vetores de uma maneira correspondente.

A derivada de uma função vetorial (um vetor cujos componentes são funções) , com relação a um vetor de entrada,, é escrita (em notação de layout de numerador ) como

No cálculo vetorial , a derivada de uma função vetorial y em relação a um vetor x cujas componentes representam um espaço é conhecida como pushforward (ou diferencial) ou matriz Jacobiana .

O pushforward ao longo de uma função vetorial f em relação ao vetor v em R n é dado por

Derivados com matrizes

Existem dois tipos de derivadas com matrizes que podem ser organizadas em uma matriz do mesmo tamanho. Estas são a derivada de uma matriz por um escalar e a derivada de um escalar por uma matriz. Eles podem ser úteis em problemas de minimização encontrados em muitas áreas da matemática aplicada e adotaram os nomes matriz tangente e matriz gradiente, respectivamente, após seus análogos para vetores.

Observação : a discussão nesta seção assume a convenção de layout do numerador para fins pedagógicos. Alguns autores usam convenções diferentes. A seção sobre convenções de layout discute esse problema com mais detalhes. As identidades fornecidas mais abaixo são apresentadas em formulários que podem ser usados ​​em conjunto com todas as convenções de layout comuns.

Matriz por escalar

A derivada de uma função de matriz Y por um escalar x é conhecida como a matriz tangente e é dada (na notação de layout do numerador ) por

Escalar por matriz

A derivada de uma função escalar y de uma matriz p × q X de variáveis ​​independentes, em relação à matriz X , é dada (na notação de layout do numerador ) por

Exemplos importantes de funções escalares de matrizes incluem o traço de uma matriz e o determinante .

Em analogia com cálculo vetorial, essa derivada é freqüentemente escrita da seguinte forma.

Também em analogia ao cálculo vetorial , a derivada direcional de um escalar f ( X ) de uma matriz X na direção da matriz Y é dada por

É a matriz gradiente, em particular, que encontra muitos usos em problemas de minimização na teoria de estimação , particularmente na derivação do algoritmo de filtro de Kalman , que é de grande importância na área.

Outros derivados de matriz

Os três tipos de derivados que não foram considerados são aqueles que envolvem vetores por matrizes, matrizes por vetores e matrizes por matrizes. Estes não são amplamente considerados e uma notação não é amplamente aceita.

Convenções de layout

Esta seção discute as semelhanças e diferenças entre as convenções de notação usadas nos vários campos que aproveitam o cálculo matricial. Embora existam basicamente duas convenções consistentes, alguns autores acham conveniente misturar as duas convenções nas formas que são discutidas abaixo. Após esta seção, as equações serão listadas em ambas as formas concorrentes separadamente.

A questão fundamental é que a derivada de um vetor em relação a um vetor, ou seja , muitas vezes é escrita de duas maneiras concorrentes. Se o numerador y for de tamanho m e o denominador x de tamanho n , então o resultado pode ser apresentado como uma matriz m × n ou matriz n × m , ou seja, os elementos de y dispostos em colunas e os elementos de x dispostos em linhas ou vice-versa. Isso leva às seguintes possibilidades:

  1. Layout do numerador , ou seja, layout de acordo com y e x T (ou seja, ao contrário de x ). Isso às vezes é conhecido como a formulação Jacobiana . Isso corresponde ao layout m × n no exemplo anterior.
  2. Layout do denominador , ou seja, layout de acordo com y T e x (ou seja, ao contrário de y ). Isso às vezes é conhecido como a formulação de Hessian . Alguns autores chamam esse layout de gradiente , em distinção ao jacobiano (layout do numerador), que é sua transposição. (No entanto, gradiente significa mais comumente a derivada, independentemente do layout.). Isso corresponde ao layout n × m no exemplo anterior.
  3. Uma terceira possibilidade às vezes vista é insistir em escrever a derivada como (isto é, a derivada é tomada em relação à transposta de x ) e seguir o layout do numerador. Isso torna possível afirmar que a matriz é apresentada de acordo com o numerador e o denominador. Na prática, isso produz resultados iguais aos do layout do numerador.

Ao lidar com o gradiente e o caso oposto , temos os mesmos problemas. Para sermos consistentes, devemos fazer o seguinte:

  1. Se escolhermos o layout do numerador para , devemos definir o gradiente como um vetor de linha e como um vetor de coluna.
  2. Se escolhermos o layout do denominador para , devemos definir o gradiente como um vetor de coluna e como um vetor de linha.
  3. Na terceira possibilidade acima, podemos escrever e e layout uso numerador.

Nem todos os livros e artigos de matemática são consistentes nesse aspecto. Ou seja, às vezes convenções diferentes são usadas em contextos diferentes dentro do mesmo livro ou papel. Por exemplo, alguns escolhem o layout do denominador para gradientes (colocando-os como vetores de coluna), mas o layout do numerador para a derivada vetor a vetor

Da mesma forma, quando se trata de derivados escalar-por-matriz e derivados matriz-por-escalar então disposição consistente numerador estabelece de acordo com Y e X T , enquanto disposição denominador consistente estabelece de acordo com Y T e X . Na prática, no entanto, seguir um layout de denominador e definir o resultado de acordo com Y T raramente é visto porque torna as fórmulas feias que não correspondem às fórmulas escalares. Como resultado, os seguintes layouts podem frequentemente ser encontrados:

  1. Disposição numerador consistente , que define de acordo com Y e de acordo com a X t .
  2. Disposição mista , a qual estabelece de acordo com Y e de acordo com a X .
  3. Use a notação com resultados iguais ao layout de numerador consistente.

Nas fórmulas a seguir, lidamos com as cinco combinações possíveis e separadamente. Também lidamos com casos de derivadas escalar por escalar que envolvem um vetor ou matriz intermediária. (Isso pode surgir, por exemplo, se uma curva paramétrica multidimensional for definida em termos de uma variável escalar e, em seguida, uma derivada de uma função escalar da curva for obtida em relação ao escalar que parametriza a curva.) Para cada das várias combinações, fornecemos os resultados do layout do numerador e do layout do denominador, exceto nos casos acima em que o layout do denominador raramente ocorre. Em casos envolvendo matrizes onde faz sentido, fornecemos resultados de layout de numerador e layout misto. Conforme observado acima, os casos em que os denominadores vetoriais e de matriz são escritos na notação de transposição são equivalentes ao layout do numerador com os denominadores escritos sem a transposição.

Lembre-se de que vários autores usam combinações diferentes de layouts de numerador e denominador para diferentes tipos de derivadas, e não há garantia de que um autor usará consistentemente o layout de numerador ou denominador para todos os tipos. Compare as fórmulas abaixo com as citadas na fonte para determinar o layout usado para aquele tipo específico de derivada, mas tome cuidado para não presumir que derivados de outros tipos necessariamente sigam o mesmo tipo de layout.

Ao tomar derivadas com um denominador agregado (vetor ou matriz) para encontrar um máximo ou mínimo do agregado, deve-se ter em mente que o uso do layout do numerador produzirá resultados que são transpostos em relação ao agregado. Por exemplo, ao tentar encontrar a estimativa de máxima verossimilhança de uma distribuição normal multivariada usando cálculo de matriz, se o domínio for um vetor coluna k × 1, então o resultado usando o layout do numerador será na forma de um vetor linha 1 × k . Assim, ou os resultados devem ser transpostos no final ou o layout do denominador (ou layout misto) deve ser usado.

Resultado da diferenciação de vários tipos de agregados com outros tipos de agregados
Escalar y Vetor de coluna y (tamanho m × 1 ) Matriz Y (tamanho m × n )
Notação Modelo Notação Modelo Notação Modelo
Escalar x Numerador Escalar Tamanho- vetor coluna m matriz m × n
Denominador Tamanho- vetor linha m
Vetor de coluna x
(tamanho n × 1 )
Numerador Vetor de tamanho n linha matriz m × n
Denominador Vetor de coluna de tamanho n matriz n × m
Matriz X
(tamanho p × q )
Numerador matriz q × p
Denominador matriz p × q

Os resultados das operações serão transpostos ao alternar entre o layout do numerador e a notação do layout do denominador.

Notação de layout de numerador

Usando a notação de layout do numerador, temos:

As seguintes definições são fornecidas apenas em notação de layout de numerador:

Notação de layout do denominador

Usando a notação de layout do denominador, temos:

Identidades

Conforme observado acima, em geral, os resultados das operações serão transpostos ao alternar entre o layout do numerador e a notação do layout do denominador.

Para ajudar a compreender todas as identidades abaixo, tenha em mente as regras mais importantes: a regra da cadeia , regra do produto e regra da soma . A regra da soma aplica-se universalmente, e a regra do produto aplica-se na maioria dos casos abaixo, desde que a ordem dos produtos da matriz seja mantida, uma vez que os produtos da matriz não são comutativos. A regra da cadeia se aplica em alguns dos casos, mas infelizmente não se aplica em derivadas matriz por escalar ou derivadas escalar por matriz (no último caso, envolvendo principalmente o operador de rastreamento aplicado a matrizes). No último caso, a regra do produto também não pode ser aplicada diretamente, mas o equivalente pode ser feito com um pouco mais de trabalho usando as identidades diferenciais.

As seguintes identidades adotam as seguintes convenções:

  • os escalares, a, b, c, d e e são constantes em relação a, e os escalares, u, e v são funções de um de x, x ou X ;
  • os vetores, a , b , c , d e e são constantes em relação a, e os vetores, u , e v são funções de um de x, x ou X ;
  • as matrizes, A , B , C , D , e E são constante no que diz respeito, e as matrizes, U e V são funções de um de x, x , ou X .

Identidades vetor a vetor

Isso é apresentado primeiro porque todas as operações que se aplicam à diferenciação vetor por vetor se aplicam diretamente à diferenciação vetor por escalar ou escalar por vetor simplesmente reduzindo o vetor apropriado no numerador ou denominador a um escalar.

Identidades: vetor a vetor
Doença Expressão Layout do numerador, ou seja, por y e x T Layout do denominador, ou seja, por y T e x
a não é uma função de x
A não é uma função de x
A não é uma função de x
a não é uma função de x ,
u = u ( x )
v = v ( x ),
a não é uma função de x
v = v ( x ), u = u ( x )
A não é uma função de x ,
u = u ( x )
u = u ( x ), v = v ( x )
u = u ( x )
u = u ( x )

Identidades escalar por vetor

As identidades fundamentais são colocadas acima da linha preta espessa.

Identidades: escalar por vetor
Doença Expressão Layout do numerador,
ou seja , por x T ; o resultado é vetor linha
Layout do denominador,
ou seja , por x ; resultado é vetor de coluna
a não é uma função de x
a não é uma função de x ,
u = u ( x )
u = u ( x ), v = v ( x )
u = u ( x ), v = v ( x )
u = u ( x )
u = u ( x )
u = u ( x ), v = v ( x )

no layout do numerador

no layout do denominador

u = u ( x ), v = v ( x ),
A não é uma função de x

no layout do numerador

no layout do denominador

, a matriz hessiana
a não é uma função de x

A não é uma função de x
b não é uma função de x
A não é uma função de x
A não é uma função de x
A é simétrica
A não é uma função de x
A não é uma função de x
A é simétrica
a não é uma função de x ,
u = u ( x )

no layout do numerador

no layout do denominador

a , b não são funções de x
A , b , C , D , e não são funções de x
a não é uma função de x

Identidades vetor por escalar

Identidades: vetor por escalar
Doença Expressão Layout do numerador, ou seja, por y , o
resultado é o vetor da coluna
Layout do denominador, ou seja, por y T , o
resultado é o vetor linha
a não é uma função de x
a não é uma função de x ,
u = u ( x )
A não é uma função de x ,
u = u ( x )
u = u ( x )
u = u ( x ), v = v ( x )
u = u ( x ), v = v ( x )
u = u ( x )
Assume um layout de matriz consistente; Veja abaixo.
u = u ( x )
Assume um layout de matriz consistente; Veja abaixo.
U = U ( x ), v = v ( x )

NOTA : As fórmulas envolvendo as derivadas vetor a vetor e (cujas saídas são matrizes) assumem que as matrizes são dispostas consistentemente com o layout vetorial, ou seja, matriz de layout de numerador quando vetor de layout de numerador e vice-versa; caso contrário, transponha os derivados vetor a vetor.

Identidades escalar por matriz

Observe que os equivalentes exatos da regra do produto escalar e da regra da cadeia não existem quando aplicados a funções com valor de matriz de matrizes. No entanto, a regra de produto desse tipo se aplica à forma diferencial (veja abaixo), e esta é a maneira de derivar muitas das identidades abaixo envolvendo a função de rastreamento , combinada com o fato de que a função de rastreamento permite transposição e permutação cíclica, ie:

Por exemplo, para calcular

Portanto,

(Para a última etapa, consulte a seção Conversão da forma diferencial para a forma derivada .)

Identidades: escalar por matriz
Doença Expressão Layout do numerador, ou seja, por X T Layout do denominador, ou seja, por X
a não é uma função de X
a não é uma função de X , u = u ( X )
u = u ( X ), v = v ( X )
u = u ( X ), v = v ( X )
u = u ( X )
u = u ( X )
U = U ( X )     
Ambas as formas assumem o layout do numerador para

ou seja, layout misto se o layout do denominador para X estiver sendo usado.

um e b não são funções de X
um e b não são funções de X
a , b e C não são funções de X
a , b e C não são funções de X
U = U ( X ), V = V ( X )
a não é uma função de X ,
U = U ( X )
g ( X ) é qualquer polinômio com coeficientes escalares, ou qualquer função de matriz definida por uma série polinomial infinita (por exemplo, e X , sin ( X ), cos ( X ), ln ( X ), etc. usando uma série de Taylor ); g ( x ) é a função escalar equivalente, g ( x ) é sua derivada e g ( X ) é a função de matriz correspondente
A não é uma função de X     
A não é uma função de X     
A não é uma função de X     
A não é uma função de X     
A , B não são funções de X
A , B , C não são funções de X
n é um número inteiro positivo     
A não é uma função de X ,
n é um número inteiro positivo
    
    
    
    
a não é uma função de X
A , B não são funções de X     
n é um número inteiro positivo     
(ver pseudo-inverso )     
(ver pseudo-inverso )     
A não é uma função de X ,
X é quadrado e invertível
A não é uma função de X ,
X não é quadrado,
A é simétrico
A não é uma função de X ,
X não é quadrado,
A é não simétrico

Identidades matriz por escalar

Identidades: matriz por escalar
Doença Expressão Layout do numerador, ou seja, por Y
U = U ( x )
A , B não são funções de x ,
U = U ( x )
U = U ( x ), V = V ( x )
U = U ( x ), V = V ( x )
U = U ( x ), V = V ( x )
U = U ( x ), V = V ( x )
U = U ( x )
U = U ( x, y )
A não é uma função de x , g ( X ) é qualquer polinômio com coeficientes escalares ou qualquer função de matriz definida por uma série polinomial infinita (por exemplo, e X , sin ( X ), cos ( X ), ln ( X ), etc. .); g ( x ) é a função escalar equivalente, g ( x ) é sua derivada e g ( X ) é a função de matriz correspondente
A não é uma função de x

Além disso, consulte Derivada do mapa exponencial .

Identidades escalar por escalar

Com vetores envolvidos

Identidades: escalar a escalar, com vetores envolvidos
Doença Expressão Qualquer layout (assume que o produto escalar ignora o layout de linha vs. coluna)
u = u ( x )
u = u ( x ), v = v ( x )

Com matrizes envolvidas

Identidades: escalar a escalar, com matrizes envolvidas
Doença Expressão Layout de numerador consistente,
ou seja , por Y e X T
Layout misto,
ou seja , por Y e X
U = U ( x )
U = U ( x )
U = U ( x )
U = U ( x )
A não é uma função de x , g ( X ) é qualquer polinômio com coeficientes escalares ou qualquer função de matriz definida por uma série polinomial infinita (por exemplo, e X , sin ( X ), cos ( X ), ln ( X ), etc. .); g ( x ) é a função escalar equivalente, g ( x ) é sua derivada e g ( X ) é a função de matriz correspondente.
A não é uma função de x

Identidades em forma diferencial

Freqüentemente, é mais fácil trabalhar na forma diferencial e depois converter de volta para as derivadas normais. Isso só funciona bem usando o layout do numerador. Nessas regras, "a" é um escalar.

Identidades diferenciais: escalar envolvendo matriz
Doença Expressão Resultado (layout do numerador)
Identidades diferenciais: matriz
Doença Expressão Resultado (layout do numerador)
A não é uma função de X
a não é uma função de X
( Produto Kronecker )
( Produto Hadamard )
( transpor conjugado )
n é um número inteiro positivo
é diagonalizável


f é diferenciável a cada autovalor

Na última linha, é o delta de Kronecker e é o conjunto de operadores de projecção ortogonal que projeto para o k -ésimo vector próprio de X . Q é a matriz dos autovetores de e são os autovalores. A função de matriz é definida em termos da função escalar para matrizes diagonalizáveis ​​por onde com .

Para converter para a forma derivada normal, primeiro converta-a para uma das seguintes formas canônicas e, em seguida, use estas identidades:

Conversão da forma diferencial para a forma derivada
Forma diferencial canônica Forma derivada equivalente

Formulários

O cálculo diferencial matricial é usado em estatística, particularmente para a análise estatística de distribuições multivariadas , especialmente a distribuição normal multivariada e outras distribuições elípticas .

É usado na análise de regressão para calcular, por exemplo, a fórmula de regressão de mínimos quadrados ordinários para o caso de múltiplas variáveis ​​explicativas .

Veja também

Notas

Referências

  • Fang, Kai-Tai ; Zhang, Yao-Ting (1990). Análise multivariada generalizada . Science Press (Pequim) e Springer-Verlag (Berlim). ISBN 3540176519. 9783540176510.
  • Kollo, Tõnu; von Rosen, Dietrich (2005). Estatística multivariada avançada com matrizes . Dordrecht: Springer. ISBN 978-1-4020-3418-3.
  • Pan, Jianxin; Fang, Kaitai (2007). Modelos de curvas de crescimento e diagnósticos estatísticos . Pequim: Science Press. ISBN 9780387950532.

Leitura adicional

  • Lax, Peter D. (2007). "9. Cálculo de funções com valores vetoriais e matriciais". Álgebra linear e suas aplicações (2ª ed.). Hoboken, NJ: Wiley-Interscience. ISBN 978-0-471-75156-4.
  • Magnus, Jan R. (outubro de 2010). "Sobre o conceito de derivada de matriz" . Journal of Multivariate Analysis . 101 (9): 2200–2206. doi : 10.1016 / j.jmva.2010.05.005 .. Observe que este artigo da Wikipedia foi quase completamente revisado da versão criticada neste artigo.
  • Magnus, Jan R. (1999). Cálculo diferencial matricial com aplicações em estatística e econometria . Neudecker, Heinz. (Rev. ed.). Nova York: John Wiley. ISBN 0-471-98632-1. OCLC  40467399 .
  • Abadir, Karim M., 1964- (2005). Álgebra matricial . Magnus, Jan R. Cambridge: Cambridge University Press. ISBN 978-0-511-64796-3. OCLC  569411497 .CS1 maint: vários nomes: lista de autores ( link )

links externos

Programas

  • MatrixCalculus.org , um site para avaliar expressões de cálculo de matriz simbolicamente
  • NCAlgebra , um pacote de código aberto do Mathematica que possui algumas funcionalidades de cálculo de matriz

Em formação