Método Kaczmarz - Kaczmarz method

O método de Kaczmarz ou algoritmo de Kaczmarz é um algoritmo iterativo para resolver sistemas de equações lineares . Foi descoberto pela primeira vez pelo matemático polonês Stefan Kaczmarz e foi redescoberto no campo da reconstrução de imagens a partir de projeções de Richard Gordon , Robert Bender e Gabor Herman em 1970, onde é chamado de Técnica de Reconstrução Algébrica (ART). O ART inclui a restrição de positividade, tornando-o não linear.

O método de Kaczmarz é aplicável a qualquer sistema linear de equações, mas sua vantagem computacional em relação a outros métodos depende do sistema ser esparso . Foi demonstrado que é superior, em algumas aplicações de imagem biomédica, a outros métodos, como o método de retroprojeção filtrada .

Ele tem muitas aplicações, desde tomografia computadorizada (TC) até processamento de sinais . Pode ser obtido também aplicando aos hiperplanos, descritos pelo sistema linear, o método das projeções sucessivas sobre conjuntos convexos (POCS).

Algoritmo 1: algoritmo de Kaczmarz

Seja um sistema de equações lineares , seja o número de linhas de A , seja a ésima linha da matriz de valor complexo , e seja uma aproximação inicial arbitrária de valor complexo para a solução de . Para computação:

 

 

 

 

( 1 )

onde e denota a conjugação complexa de .

Se o sistema for consistente, converge para a solução da norma mínima , desde que as iterações comecem com o vetor zero.

Um algoritmo mais geral pode ser definido usando um parâmetro de relaxamento

Existem versões do método que convergem para uma solução regularizada de mínimos quadrados ponderados quando aplicada a um sistema de equações inconsistentes e, pelo menos no que diz respeito ao comportamento inicial, a um custo menor do que outros métodos iterativos, como o método do gradiente conjugado .

Algoritmo 2: algoritmo de Kaczmarz aleatório

Em 2009, uma versão aleatória do método de Kaczmarz para sistemas lineares sobredeterminados foi introduzida por Thomas Strohmer e Roman Vershynin em que a i- ésima equação é selecionada aleatoriamente com probabilidade proporcional a

Este método pode ser visto como um caso particular de descida gradiente estocástica .

Sob tais circunstâncias converge exponencialmente rápido para a solução de e a taxa de convergência depende apenas do número da condição em escala .

Teorema. Seja a solução de Então o Algoritmo 2 converge para na expectativa, com o erro médio:

Prova

Nós temos

 

 

 

 

( 2 )

Usando

podemos escrever ( 2 ) como

 

 

 

 

( 3 )

O ponto principal da prova é ver o lado esquerdo em ( 3 ) como uma expectativa de alguma variável aleatória. Ou seja, lembre-se de que o espaço de solução da equação de é o hiperplano

cujo normal é Defina um vetor aleatório Z cujos valores são os normais para todas as equações de , com probabilidades como em nosso algoritmo:

com probabilidade

Então ( 3 ) diz que

 

 

 

 

( 4 )

A projeção ortogonal no espaço de solução de uma equação aleatória de é dada por

Agora estamos prontos para analisar nosso algoritmo. Queremos mostrar que o erro diminui em cada etapa média (condicionado nas etapas anteriores) por, pelo menos, o factor de A seguinte aproximação é calculado a partir de onde são realizações independentes da projecção aleatória O vector é no núcleo de É ortogonal ao espaço de solução da equação na qual se projeta, que contém o vetor (lembre-se de que é a solução para todas as equações). A ortogonalidade desses dois vetores, então, produz

Para completar a prova, temos que limitar a partir de baixo. Pela definição de , temos

onde estão realizações independentes do vetor aleatório

Desse modo

Agora consideramos a expectativa de ambos os lados condicional à escolha dos vetores aleatórios (portanto, fixamos a escolha das projeções aleatórias e, portanto, dos vetores aleatórios e fazemos a média sobre o vetor aleatório ). Então

Por ( 4 ) e pela independência,

Tomando toda a expectativa de ambos os lados, concluímos que

A superioridade dessa seleção foi ilustrada com a reconstrução de uma função limitada em banda a partir de seus valores de amostragem não uniformemente espaçados. No entanto, foi apontado que o sucesso relatado por Strohmer e Vershynin depende das escolhas específicas que foram feitas lá na tradução do problema subjacente, cuja natureza geométrica é encontrar um ponto comum de um conjunto de hiperplanos , em um sistema algébrico equações. Sempre haverá representações algébricas legítimas do problema subjacente para o qual o método de seleção em terá um desempenho inferior.

A iteração de Kaczmarz ( 1 ) tem uma interpretação puramente geométrica: o algoritmo projeta sucessivamente a iteração atual no hiperplano definido pela próxima equação. Portanto, qualquer escala das equações é irrelevante; também pode ser visto em ( 1 ) que qualquer escala (diferente de zero) das equações se cancela. Assim, em RK, pode-se usar ou quaisquer outros pesos que possam ser relevantes. Especificamente, no exemplo de reconstrução mencionado acima, as equações foram escolhidas com probabilidade proporcional à distância média de cada ponto de amostra de seus dois vizinhos mais próximos - um conceito introduzido por Feichtinger e Gröchenig . Para obter mais informações sobre o progresso neste tópico, consulte e as referências nele contidas.

Algoritmo 3: algoritmo de Gower-Richtarik

Em 2015, Robert M. Gower e Peter Richtarik desenvolveram um método iterativo aleatório versátil para resolver um sistema consistente de equações lineares que inclui o algoritmo de Kaczmarz aleatório como um caso especial. Outros casos especiais incluem descida coordenada aleatória, descida gaussiana aleatória e método de Newton aleatório. Versões em bloco e versões com amostragem de importância de todos esses métodos também surgem como casos especiais. O método é mostrado para desfrutar de decaimento da taxa exponencial (na expectativa) - também conhecido como convergência linear, sob condições muito suaves na forma como a aleatoriedade entra no algoritmo. O método Gower-Richtarik é o primeiro algoritmo a descobrir uma relação de "irmãos" entre esses métodos, alguns dos quais foram propostos independentemente antes, enquanto muitos dos quais eram novos.

Insights sobre Randomized Kaczmarz

Novos insights interessantes sobre o método de Kaczmarz aleatório que podem ser obtidos a partir da análise do método incluem:

  • A taxa geral do algoritmo de Gower-Richtarik recupera com precisão a taxa do método de Kaczmarz aleatório no caso especial quando se reduz a ele.
  • A escolha das probabilidades para as quais o algoritmo de Kaczmarz aleatório foi originalmente formulado e analisado (probabilidades proporcionais aos quadrados das normas da linha) não é ótima. Probabilidades ótimas são a solução de um determinado programa semidefinido. A complexidade teórica de Kaczmarz randomizado com as probabilidades ótimas pode ser arbitrariamente melhor do que a complexidade para as probabilidades padrão. No entanto, o quanto ele é melhor depende da matriz . Existem problemas para os quais as probabilidades padrão são ótimas.
  • Quando aplicado a um sistema com matriz que é definida positiva, o método de Kaczmarz Randomizado é equivalente ao método Stochastic Gradient Descent (SGD) (com um tamanho de passo muito especial) para minimizar a função quadrática fortemente convexa. Observe que, como é convexo, os minimizadores de devem satisfazer , que é equivalente a O "tamanho do passo especial" é o tamanho do passo que leva a um ponto que, na linha unidimensional percorrida pelo gradiente estocástico, minimiza a distância euclidiana do minimizador desconhecido (!) de , a saber, de Este insight é obtido a partir de uma visão dupla do processo iterativo (descrito abaixo como "Ponto de vista da otimização: restrição e aproximação").

Seis Formulações Equivalentes

O método Gower-Richtarik goza de seis formulações aparentemente diferentes, mas equivalentes, lançando luz adicional sobre como interpretá-lo (e, como consequência, como interpretar suas muitas variantes, incluindo Kaczmarz randomizado):

  • 1. Ponto de vista do esboço: esboço e projeto
  • 2. Ponto de vista de otimização: Restringir e aproximar
  • 3. Ponto de vista geométrico: intersecção aleatória
  • 4. Ponto de vista algébrico 1: solução linear aleatória
  • 5. Ponto de vista algébrico 2: atualização aleatória
  • 6. Ponto de vista analítico: Ponto Fixo Aleatório

Descrevemos agora alguns desses pontos de vista. O método depende de 2 parâmetros:

  • uma matriz definida positiva dando origem a um produto interno euclidiano ponderado e a norma induzida
  • e uma matriz aleatória com tantas linhas quanto (e possivelmente um número aleatório de colunas).

1. Esboço e Projeto

Dada a iteração anterior, o novo ponto é calculado desenhando uma matriz aleatória (de uma forma iid a partir de alguma distribuição fixa) e definindo

Ou seja, é obtido como a projeção de no sistema esboçado aleatoriamente . A ideia por trás deste método é escolher de forma que uma projeção no sistema esboçado seja substancialmente mais simples do que a solução do sistema original . O método de Kaczmarz randomizado é obtido escolhendo- se ser a matriz de identidade e o vetor de coordenadas unitárias com probabilidade. Diferentes escolhas e levar a diferentes variantes do método.

2. Restringir e aproximar

Uma formulação do método aparentemente diferente, mas totalmente equivalente (obtida por meio da dualidade de Lagrange) é

onde também pode variar, e onde está qualquer solução do sistema Portanto, é obtido primeiro restringindo a atualização para o subespaço linear estendido pelas colunas da matriz aleatória , ou seja, para

e então escolher o ponto deste subespaço que melhor se aproxima . Esta formulação pode parecer surpreendente, pois parece impossível realizar a etapa de aproximação devido ao fato de que não é conhecido (afinal, é isso que estamos tentando calcular!). No entanto, ainda é possível fazer isso, simplesmente porque computado desta forma é o mesmo que computado via esboço e formulação do projeto e já que não aparece lá.

5. Atualização aleatória

A atualização também pode ser escrita explicitamente como

onde por denotamos a pseudo-inversa de Moore-Penrose da matriz . Portanto, o método pode ser escrito na forma , onde é um vetor de atualização aleatório .

Deixando que se mostre que o sistema sempre tem uma solução , e que para todas essas soluções o vetor é o mesmo. Portanto, não importa qual dessas soluções é escolhida, e o método também pode ser escrito como . O pseudo-inverso leva apenas a uma solução particular. O papel do pseudo-inverso é duplo:

  • Ele permite que o método seja escrito na forma explícita de "atualização aleatória" como acima,
  • Isso torna a análise simples por meio da sexta formulação final.

6. Ponto Fixo Aleatório

Se subtrairmos de ambos os lados da fórmula de atualização aleatória, denote

e usar o fato de que chegamos à última formulação:

onde está a matriz de identidade. A matriz de iteração, é aleatória, daí o nome desta formulação.

Convergência

Ao tomar as expectativas condicionais na 6ª formulação (condicional em ), obtemos

Tomando a expectativa novamente e usando a propriedade da torre das expectativas, obtemos

Gower e Richtarik mostram que

onde a norma da matriz é definida por

Além disso, sem quaisquer suposições sobre alguém, tomando as normas e desenrolando a recorrência, obtemos

Teorema [Gower & Richtarik 2015]

Observação . Uma condição suficiente para os resíduos esperados convergirem para 0 é Isso pode ser alcançado se tiver uma classificação de coluna completa e sob condições muito suaves A convergência do método pode ser estabelecida também sem a suposição de classificação de coluna completa de uma maneira diferente.

Também é possível mostrar um resultado mais forte:

Teorema [Gower & Richtarik 2015]

As normas quadradas esperadas (em vez de normas de expectativas) convergem na mesma taxa:

Observação . Este segundo tipo de convergência é mais forte devido à seguinte identidade que vale para qualquer vetor aleatório e qualquer vetor fixo :

Convergência de Kaczmarz Randomizado

Vimos que o método de Kaczmarz aleatório aparece como um caso especial do método de Gower-Richtarik para e sendo o vetor de coordenadas unitárias com probabilidade onde está a linha de Pode ser verificado por cálculo direto que

Outros Casos Especiais

Notas

Referências

links externos

  • [1] Um algoritmo de Kaczmarz aleatório com convergência exponencial
  • [2] Comentários sobre o método de Kaczmarz randomizado