Matriz ortogonal - Orthogonal matrix

Na álgebra linear , uma matriz ortogonal , ou matriz ortonormal , é uma matriz quadrada real cujas colunas e linhas são vetores ortonormais .

Uma maneira de expressar isso é

onde Q T é a transposta de Q e I é a matriz identidade .

Isso leva à caracterização equivalente: uma matriz Q é ortogonal se sua transposta é igual a sua inversa :

onde Q -1 é o inverso de Q .

Uma matriz ortogonal Q é necessariamente invertível (com inverso Q −1 = Q T ), unitária ( Q −1 = Q ), onde Q é o adjunto Hermitiano ( transposta conjugada ) de Q e, portanto, normal ( Q Q = QQ ) sobre os números reais . O determinante de qualquer matriz ortogonal é +1 ou -1. Como uma transformação linear , uma matriz ortogonal preserva o produto interno dos vetores e, portanto, atua como uma isometria do espaço euclidiano , como uma rotação , reflexão ou rotorreflexão . Em outras palavras, é uma transformação unitária .

O conjunto de n x n matrizes ortogonais forma um grupo , S ( n ) , conhecido como o grupo ortogonal . O subgrupo SO ( n ) consistindo de matrizes ortogonais com determinante +1 é chamado de grupo ortogonal especial , e cada um de seus elementos é uma matriz ortogonal especial . Como uma transformação linear, cada matriz ortogonal especial atua como uma rotação.

Visão geral

Uma matriz ortogonal é a especialização real de uma matriz unitária e, portanto, sempre uma matriz normal . Embora consideremos apenas matrizes reais aqui, a definição pode ser usada para matrizes com entradas de qualquer campo . No entanto, as matrizes ortogonais surgem naturalmente de produtos escalares e, para matrizes de números complexos, isso leva ao requisito unitário. Matrizes ortogonais preservar o produto escalar, então, para vetores u e v em uma n verdadeira dimensional espaço euclidiano

onde Q é uma matriz ortogonal. Para ver a conexão interna do produto, considere um vetor v em um espaço euclidiano real n- dimensional . Escrito com respeito a uma base ortonormal, o comprimento ao quadrado de v é v T v . Se uma transformação linear, na forma de matriz Q v , preserva os comprimentos do vetor, então

Assim, isometrias lineares de dimensão finita - rotações, reflexos e suas combinações - produzem matrizes ortogonais. O inverso também é verdadeiro: matrizes ortogonais implicam transformações ortogonais. No entanto, a álgebra linear inclui transformações ortogonais entre espaços que podem não ser de dimensão finita nem da mesma dimensão, e estes não têm equivalente de matriz ortogonal.

As matrizes ortogonais são importantes por uma série de razões, tanto teóricas quanto práticas. A n × n matrizes ortogonais formar um grupo sob a multiplicação de matrizes, o grupo ortogonal indicado por S ( n ) , que, com os seus subgrupos-é amplamente usado em matemática e as ciências físicas. Por exemplo, o grupo de pontos de uma molécula é um subgrupo de O (3). Como as versões de ponto flutuante de matrizes ortogonais têm propriedades vantajosas, elas são essenciais para muitos algoritmos em álgebra linear numérica, como a decomposição QR . Como outro exemplo, com normalização apropriada, a transformação discreta do cosseno (usada na compressão MP3 ) é representada por uma matriz ortogonal.

Exemplos

Abaixo estão alguns exemplos de pequenas matrizes ortogonais e possíveis interpretações.

  •    (transformação de identidade)
  •   
  • (rotação de 16,26 °)
  •    (reflexão através do eixo x )
  •    (permutação de eixos coordenados)

Construções elementares

Dimensões inferiores

As matrizes ortogonais mais simples são as matrizes 1 × 1 [1] e [−1], que podemos interpretar como a identidade e um reflexo da linha real na origem.

As matrizes 2 × 2 têm a forma

que exige a ortogonalidade para satisfazer as três equações

Em consideração à primeira equação, sem perda de generalidade, seja p = cos θ , q = sin θ ; então t = - q , u = p ou t = q , u = - p . Podemos interpretar o primeiro caso como uma rotação de θ (onde θ = 0 é a identidade), e o segundo como um reflexo através de uma linha em um ângulo de θ/2.

O caso especial da matriz de reflexão com θ = 90 ° gera uma reflexão sobre a linha a 45 ° dada por y = x e, portanto, troca x e y ; é uma matriz de permutação , com um único 1 em cada coluna e linha (e caso contrário 0):

A identidade também é uma matriz de permutação.

Uma reflexão é seu próprio inverso , o que implica que uma matriz de reflexão é simétrica (igual à sua transposta), bem como ortogonal. O produto de duas matrizes de rotação é uma matriz de rotação e o produto de duas matrizes de reflexão também é uma matriz de rotação.

Dimensões superiores

Independentemente da dimensão, sempre é possível classificar matrizes ortogonais como puramente rotacionais ou não, mas para matrizes 3 × 3 e maiores as matrizes não rotacionais podem ser mais complicadas do que reflexões. Por exemplo,

representam uma inversão pela origem e uma rotoinversão , respectivamente, em torno do eixo z .

As rotações tornam-se mais complicadas em dimensões superiores; eles não podem mais ser completamente caracterizados por um ângulo e podem afetar mais de um subespaço plano. É comum descrever uma matriz de rotação 3 × 3 em termos de eixo e ângulo , mas isso só funciona em três dimensões. Acima de três dimensões, dois ou mais ângulos são necessários, cada um associado a um plano de rotação .

No entanto, temos blocos de construção elementares para permutações, reflexões e rotações que se aplicam em geral.

Primitivos

A permutação mais elementar é uma transposição, obtida da matriz de identidade por meio da troca de duas linhas. Qualquer n × n matriz de permutação pode ser construído como um produto de não mais do que n - 1 transposições.

Uma reflexão de Householder é construída a partir de um vetor não nulo v como

Aqui, o numerador é uma matriz simétrica, enquanto o denominador é um número, a magnitude quadrada de v . Esta é uma reflexão no hiperplano perpendicular av (negando qualquer componente vetorial paralelo av ). Se v é um vetor unitário, então Q = I - 2 vv T é suficiente. Uma reflexão de Householder é normalmente usada para zerar simultaneamente a parte inferior de uma coluna. Qualquer matriz ortogonal de tamanho n × n pode ser construída como um produto de no máximo n de tais reflexões.

Uma rotação de Givens atua em um subespaço bidimensional (planar) estendido por dois eixos de coordenadas, girando por um ângulo escolhido. Normalmente é usado para zerar uma única entrada subdiagonal. Qualquer matriz de rotação de tamanho n × n pode ser construída como um produto de no máximon ( n - 1)/2tais rotações. No caso de matrizes 3 × 3 , três dessas rotações são suficientes; e, fixando a sequência, podemos descrever todas as matrizes de rotação 3 × 3 (embora não exclusivamente) em termos dos três ângulos usados, freqüentemente chamados de ângulos de Euler .

Uma rotação Jacobi tem a mesma forma que uma rotação Givens, mas é usada para zerar ambas as entradas fora da diagonal de uma submatriz simétrica 2 × 2 .

Propriedades

Propriedades da matriz

Uma matriz quadrada real é ortogonal se e somente se suas colunas formarem uma base ortonormal do espaço euclidiano n com o produto escalar euclidiano ordinário , que é o caso se e somente se suas linhas formarem uma base ortonormal de n . Pode ser tentador supor que uma matriz com colunas ortogonais (não ortonormais) seria chamada de matriz ortogonal, mas tais matrizes não têm nenhum interesse especial e nenhum nome especial; eles apenas satisfazem M T M = D , com D uma matriz diagonal .

O determinante de qualquer matriz ortogonal é +1 ou -1. Isso decorre de fatos básicos sobre determinantes, como segue:

O inverso não é verdadeiro; ter um determinante de ± 1 não é garantia de ortogonalidade, mesmo com colunas ortogonais, como mostrado pelo seguinte contra-exemplo.

Com matrizes de permutação, o determinante casa com a assinatura , sendo +1 ou −1 já que a paridade da permutação é par ou ímpar, pois o determinante é uma função alternada das linhas.

Mais forte do que a restrição determinante é o fato de que uma matriz ortogonal pode sempre ser diagonalizada sobre os números complexos para exibir um conjunto completo de autovalores , todos os quais devem ter módulo  1 (complexo) .

Propriedades do grupo

O inverso de cada matriz ortogonal é novamente ortogonal, assim como o produto da matriz de duas matrizes ortogonais. Na verdade, o conjunto de todos n × n matrizes satisfaz ortogonais todos os axiomas de um grupo . É um grupo compacto de dimensões Lien ( n - 1)/2, chamado de grupo ortogonal e denotado por O ( n ) .

As matrizes ortogonais cujo determinante é +1 formam um subgrupo normal conectado por caminho de O ( n ) do índice 2, o grupo ortogonal especial SO ( n ) de rotações. O grupo quociente O ( n ) / SO ( n ) é isomorfo a O (1) , com o mapa de projeção escolhendo [+1] ou [−1] de acordo com o determinante. Matrizes ortogonais com determinante −1 não incluem a identidade e, portanto, não formam um subgrupo, mas apenas um coset ; ele também está (separadamente) conectado. Assim, cada grupo ortogonal se divide em duas partes; e porque o mapa de projeção se divide , O ( n ) é um produto semidireto de SO ( n ) por O (1) . Em termos práticos, uma afirmação comparável é que qualquer matriz ortogonal pode ser produzida tomando uma matriz de rotação e possivelmente negando uma de suas colunas, como vimos com matrizes 2 × 2 . Se n for ímpar, então o produto semidireto é de fato um produto direto e qualquer matriz ortogonal pode ser produzida tomando uma matriz de rotação e possivelmente negando todas as suas colunas. Isso decorre da propriedade dos determinantes de que negar uma coluna nega o determinante e, portanto, negar um número ímpar (mas não par) de colunas nega o determinante.

Agora considere ( n + 1) × ( n + 1) matrizes ortogonais com entrada inferior direita igual a 1. O restante da última coluna (e última linha) deve ser zeros, e o produto de quaisquer duas dessas matrizes tem a mesma forma . O resto da matriz é um n × n matriz ortogonal; assim, O ( n ) é um subgrupo de O ( n + 1) (e de todos os grupos superiores).

Visto que uma reflexão elementar na forma de uma matriz de Householder pode reduzir qualquer matriz ortogonal a esta forma restrita, uma série de tais reflexões pode trazer qualquer matriz ortogonal à identidade; assim, um grupo ortogonal é um grupo de reflexão . A última coluna pode ser fixada em qualquer vetor unitário, e cada escolha fornece uma cópia diferente de O ( n ) em O ( n + 1) ; desta forma, O ( n + 1) é um feixe sobre a esfera unitária S n com fibra O ( n ) .

Da mesma forma, SO ( n ) é um subgrupo de SO ( n + 1) ; e qualquer matriz ortogonal especial pode ser gerada por rotações no plano de Givens usando um procedimento análogo. A estrutura do pacote persiste: SO ( n ) ↪ SO ( n + 1) → S n . Uma única rotação pode produzir um zero na primeira linha da última coluna, e uma série de n - 1 rotações será zero mas toda a última linha da última coluna de um n × n matriz de rotação. Como os planos são fixos, cada rotação tem apenas um grau de liberdade, seu ângulo. Por indução, SO ( n ), portanto, tem

graus de liberdade, e o mesmo acontece com O ( n ) .

As matrizes de permutação são ainda mais simples; eles formam, não um grupo de Lie, mas apenas um grupo finito, a ordem n ! grupo simétrico S n . Pelo mesmo tipo de argumento, S n é um subgrupo de S n + 1 . As permutações pares produzem o subgrupo de matrizes de permutação do determinante +1, a ordemn !/2 grupo alternado .

Forma canônica

Mais amplamente, o efeito de qualquer matriz ortogonal se separa em ações independentes em subespaços bidimensionais ortogonais. Ou seja, se Q é ortogonal especial, então sempre se pode encontrar uma matriz ortogonal P , uma mudança (rotacional) de base , que traz Q na forma diagonal de bloco:

onde as matrizes R 1 , ..., R k são matrizes de rotação 2 × 2 e com as entradas restantes zero. Excepcionalmente, um bloco de rotação pode ser diagonal, ± I . Assim, negando uma coluna, se necessário, e observando que uma reflexão 2 × 2 diagonaliza para +1 e -1, qualquer matriz ortogonal pode ser trazida para a forma

As matrizes R 1 , ..., R k fornecem pares conjugados de autovalores situados no círculo unitário no plano complexo ; portanto, essa decomposição confirma que todos os autovalores têm valor absoluto 1. Se n for ímpar, há pelo menos um autovalor real, +1 ou -1; para uma rotação 3 × 3 , o autovetor associado a +1 é o eixo de rotação.

Álgebra de mentira

Suponha que as entradas de Q são funções diferenciáveis de t , e que t = 0Q = I . Diferenciando a condição de ortogonalidade

rendimentos

Avaliação em t = 0 ( Q = I ), então, implica

Em termos de grupo de Lie, isso significa que a álgebra de Lie de um grupo de matrizes ortogonais consiste em matrizes assimétricas . Indo na outra direção, a matriz exponencial de qualquer matriz assimétrica simétrica é uma matriz ortogonal (na verdade, ortogonal especial).

Por exemplo, a física tridimensional do objeto chamada de velocidade angular é uma rotação diferencial, portanto, um vetor na álgebra de Lie (3) tangente a SO (3) . Dado ω = ( , , ) , com v = ( x , y , z ) sendo um vetor unitário, a forma correta de matriz simétrica de inclinação de ω é

O exponencial disso é a matriz ortogonal para rotação em torno do eixo v pelo ângulo θ ; definindo c = cosθ/2, s = pecadoθ/2,

Álgebra linear numérica

Benefícios

A análise numérica tira proveito de muitas das propriedades de matrizes ortogonais para álgebra linear numérica e elas surgem naturalmente. Por exemplo, muitas vezes é desejável calcular uma base ortonormal para um espaço ou uma mudança ortogonal de bases; ambos assumem a forma de matrizes ortogonais. Ter o determinante ± 1 e todos os valores próprios de magnitude 1 é de grande benefício para a estabilidade numérica . Uma implicação é que o número da condição é 1 (que é o mínimo), portanto, os erros não são ampliados ao multiplicar com uma matriz ortogonal. Muitos algoritmos usam matrizes ortogonais como reflexões de Householder e rotações de Givens por esse motivo. Também é útil que, não apenas uma matriz ortogonal seja invertível, mas sua inversa esteja disponível essencialmente de graça, por meio da troca de índices.

As permutações são essenciais para o sucesso de muitos algoritmos, incluindo o burro de carga de eliminação gaussiana com pivotamento parcial (onde as permutações fazem o pivotamento). No entanto, eles raramente aparecem explicitamente como matrizes; sua forma especial permite uma representação mais eficiente, como uma lista de n índices.

Da mesma forma, algoritmos que usam matrizes de Householder e Givens geralmente usam métodos especializados de multiplicação e armazenamento. Por exemplo, uma rotação de Givens afeta apenas duas linhas de uma matriz que ela multiplica, mudando uma multiplicação completa de ordem n 3 para uma ordem n muito mais eficiente . Quando os usos dessas reflexões e rotações introduzem zeros em uma matriz, o espaço desocupado é suficiente para armazenar dados suficientes para reproduzir a transformação e fazê-lo de forma robusta. (Seguindo Stewart (1976) , não armazenamos um ângulo de rotação, que é caro e malcomportado.)

Decomposições

Uma série de decomposições de matriz importantes ( Golub & Van Loan 1996 ) envolvem matrizes ortogonais, incluindo especialmente:

Decomposição QR
M = QR , Q ortogonal, R triangular superior
Decomposição de valor singular
M = U Σ V T , U e V ortogonal, Σ matriz diagonal
Eigendecomposition de uma matriz simétrica (decomposição de acordo com o teorema espectral )
S = Q Λ Q T , S simétrico, Q ortogonal, Λ diagonal
Decomposição polar
M = QS , Q ortogonal, S simétrico semidefinido positivo

Exemplos

Considere um sistema sobredeterminado de equações lineares , como pode ocorrer com medições repetidas de um fenômeno físico para compensar erros experimentais. Escreva A x = b , onde A é m × n , m > n . Uma decomposição QR reduz A a R triangular superior . Por exemplo, se A é 5 × 3, então R tem a forma

O problema dos mínimos quadrados lineares é encontrar ax que minimiza || A x - b || , Que é equivalente ao que se projecta b para o subespaço gerado por as colunas de um . Supondo que as colunas de A (e, portanto, R ) sejam independentes, a solução da projeção é encontrada em A T A x = A T b . Agora A T A é quadrada ( n × n ) e invertida, e também igual a R T R . Mas as linhas inferiores de zeros em R são supérfluas no produto, que, portanto, já está na forma fatorada triangular inferior triangular superior, como na eliminação gaussiana ( decomposição de Cholesky ). Aqui a ortogonalidade é importante não apenas para reduzir A T A = ( R T Q T ) QR a R T R , mas também para permitir a solução sem aumentar os problemas numéricos.

No caso de um sistema linear subdeterminado ou de uma matriz não invertível , a decomposição de valor singular (SVD) é igualmente útil. Com A fatorado como U Σ V T , uma solução satisfatória usa o pseudoinverso de Moore-Penrose , V Σ + U T , onde Σ + simplesmente substitui cada entrada diagonal diferente de zero por sua recíproca. Defina x como V Σ + U T b .

O caso de uma matriz quadrada invertível também tem interesse. Suponha, por exemplo, que A é uma matriz de rotação 3 × 3 que foi calculada como a composição de várias voltas e reviravoltas. O ponto flutuante não corresponde ao ideal matemático de números reais, então A perdeu gradualmente sua verdadeira ortogonalidade. Um processo de Gram-Schmidt poderia ortogonalizar as colunas, mas não é o método mais confiável, nem o mais eficiente, nem o mais invariável. A decomposição polar fatora uma matriz em um par, um dos quais é a única matriz ortogonal mais próxima da matriz fornecida, ou um dos mais próximos se a matriz fornecida for singular. (A proximidade pode ser medida por qualquer invariante de norma de matriz sob uma mudança ortogonal de base, como a norma espectral ou a norma de Frobenius.) Para uma matriz quase ortogonal, a convergência rápida para o fator ortogonal pode ser alcançada por um " método de Newton " abordagem devido a Higham (1986) ( 1990 ), repetidamente calculando a média da matriz com sua transposta inversa. Dubrulle (1994) publicou um método acelerado com um teste de convergência conveniente.

Por exemplo, considere uma matriz não ortogonal para a qual o algoritmo de média simples leva sete etapas

e cuja aceleração diminui para duas etapas (com γ = 0,353553, 0,565685).

Gram-Schmidt produz uma solução inferior, mostrada por uma distância de Frobenius de 8,28659 em vez do mínimo de 8,12404.

Randomization

Algumas aplicações numéricas, como métodos de Monte Carlo e exploração de espaços de dados de alta dimensão, requerem a geração de matrizes ortogonais aleatórias uniformemente distribuídas . Neste contexto, "uniforme" é definido em termos da medida de Haar , que essencialmente requer que a distribuição não mude se multiplicada por qualquer matriz ortogonal livremente escolhida. Matrizes ortogonais com entradas aleatórias distribuídas uniformemente independentes não resultam em matrizes ortogonais distribuídas uniformemente, mas a decomposição QR de entradas aleatórias normalmente distribuídas independentes sim, desde que a diagonal de R contenha apenas entradas positivas ( Mezzadri 2006 ). Stewart (1980) substituiu isso por uma ideia mais eficiente que Diaconis & Shahshahani (1987) posteriormente generalizaram como o "algoritmo de subgrupo" (em cuja forma funciona tão bem para permutações e rotações). Para gerar uma matriz ortogonal ( n + 1) × ( n + 1) , tome um n × n um e um vetor unitário uniformemente distribuído de dimensão n + 1 . Construa uma reflexão Householder a partir do vetor e, em seguida, aplique-a à matriz menor (embutida no tamanho maior com um 1 no canto inferior direito).

Matriz ortogonal mais próxima

O problema de encontrar a matriz ortogonal Q mais próxima de uma dada matriz M está relacionado ao problema de Procrustes ortogonal . Existem várias maneiras de obter a solução única, a mais simples das quais é pegar a decomposição de valor singular de M e substituir os valores singulares por uns. Outro método expressa o R explicitamente, mas requer o uso de uma raiz quadrada de matriz :

Isso pode ser combinado com o método babilônico para extrair a raiz quadrada de uma matriz para dar uma recorrência que converge para uma matriz ortogonal quadraticamente:

onde Q 0 = H .

Essas iterações são estáveis ​​desde que o número de condição de M seja menor que três.

Usando uma aproximação de primeira ordem do inverso e os mesmos resultados de inicialização na iteração modificada:

Gire e fixe

Um problema técnico sutil afeta alguns usos de matrizes ortogonais. Não apenas os componentes do grupo com determinante +1 e −1 não estão conectados entre si, mesmo o componente +1, SO ( n ) , não está simplesmente conectado (exceto para SO (1), que é trivial). Assim, às vezes é vantajoso, ou mesmo necessário, trabalhar com um grupo de cobertura de SO ( n ), o grupo de spin , Spin ( n ) . Da mesma forma, O ( n ) tem grupos de cobertura, os grupos de pinos , Pin ( n ). Para n > 2 , Spin ( n ) é simplesmente conectado e, portanto, o grupo de cobertura universal para SO ( n ) . De longe, o exemplo mais famoso de um grupo de spin é Spin (3) , que nada mais é do que SU (2) , ou o grupo de quatérnios unitários .

Os grupos Pin e Spin são encontrados nas álgebras de Clifford , que podem ser construídas a partir de matrizes ortogonais.

Matrizes retangulares

Se Q não for uma matriz quadrada, então as condições Q T Q = I e QQ T = I não são equivalentes. A condição Q T Q = I diz que as colunas de Q são ortonormais. Isso só pode acontecer se Q for uma matriz m × n com nm (devido à dependência linear). Da mesma forma, QQ T = I diz que as linhas de Q são ortonormais, o que requer nm .

Não existe uma terminologia padrão para essas matrizes. Eles são chamados de "matrizes semi-ortogonais", "matrizes ortonormais", "matrizes ortogonais" e, às vezes, simplesmente "matrizes com linhas / colunas ortonormais".

Veja também

Notas

Referências

  • Diaconis, Persi ; Shahshahani, Mehrdad (1987), "O algoritmo de subgrupo para gerar variáveis ​​aleatórias uniformes", Prob. In Eng. E informações. Sci. , 1 : 15-32, doi : 10.1017 / S0269964800000255 , ISSN  0269-9648
  • Dubrulle, Augustin A. (1999), "An Optimum Iteration for the Matrix Polar Decomposition" , Electron. Trans. Numer. Anal. , 8 : 21-25
  • Golub, Gene H .; Van Loan, Charles F. (1996), Matrix Computations (3 / e ed.), Baltimore: Johns Hopkins University Press, ISBN 978-0-8018-5414-9
  • Higham, Nicholas (1986), "Computing the Polar Decomposition — with Applications" (PDF) , SIAM Journal on Scientific and Statistical Computing , 7 (4): 1160-1174, doi : 10.1137 / 0907079 , ISSN  0196-5204
  • Higham, Nicholas ; Schreiber, Robert (julho de 1990), "Fast polar decomposition of an arbitrary matrix", SIAM Journal on Scientific and Statistical Computing , 11 (4): 648-655, CiteSeerX  10.1.1.230.4322 , doi : 10.1137 / 0911038 , ISSN  0196 -5204 [1]
  • Stewart, GW (1976), "The Economical Storage of Plane Rotations", Numerische Mathematik , 25 (2): 137–138, doi : 10.1007 / BF01462266 , ISSN  0029-599X
  • Stewart, GW (1980), "The Efficient Generation of Random Orthogonal Matrices with an Application to Condition Estimators", SIAM J. Numer. Anal. , 17 (3): 403-409, doi : 10.1137 / 0717034 , ISSN  0036-1429
  • Mezzadri, Francesco (2006), "Como gerar matrizes aleatórias a partir dos grupos compactos clássicos", Notices of the American Mathematical Society , 54

links externos