Teorema de Cayley-Hamilton - Cayley–Hamilton theorem

Arthur Cayley , FRS (1821-1895) é amplamente considerado o principal matemático puro da Grã-Bretanha do século XIX. Cayley em 1848 foi a Dublin para assistir a palestras sobre quatérnios de Hamilton, seu descobridor. Mais tarde, Cayley o impressionou por ser o segundo a publicar um trabalho sobre eles. Cayley provou o teorema para matrizes de dimensão 3 e menos, publicando a prova para o caso bidimensional. Quanto

n \times n

matrizes, Cayley afirmou: “..., eu não considerou necessário para realizar o trabalho de uma prova formal do teorema no caso geral de uma matriz de qualquer grau”.

William Rowan Hamilton (1805–1865), físico irlandês, astrônomo e matemático, primeiro membro estrangeiro da American National Academy of Sciences . Embora mantendo uma posição oposta sobre como a geometria deve ser estudada, Hamilton sempre manteve as melhores relações com Cayley.

Hamilton provou que para uma função linear de quatérnios existe uma certa equação, dependendo da função linear, que é satisfeita pela própria função linear.

Na álgebra linear , o teorema de Cayley-Hamilton (em homenagem aos matemáticos Arthur Cayley e William Rowan Hamilton ) afirma que toda matriz quadrada sobre um anel comutativo (como o campo real ou complexo ) satisfaz sua própria equação característica .

Se $A$ é um dado $n \times n$ matriz e $eu n$ é o $n x n$ matriz de identidade , em seguida, o polinómio característico de $um$ é definido como , onde $Det$ é o determinante operação e $λ$ é uma variável para um escalar elemento do anel de base. Uma vez que as entradas da matriz são polinómios em (linear ou constante) $λ$ , o determinante também é um $n$ ordem -ésimo mônico polinomial em $λ$ , pode-se criar um polinómio análogo na matriz $A$ em vez da variável escalar $λ$ , definidos como A O teorema de Cayley-Hamilton afirma que esta expressão polinomial é igual à matriz zero , o que significa isso . O teorema permite que $um$ ^$n$ para ser expresso como uma combinação linear das competências da matriz inferior de $um$ . Quando o anel é um campo, o teorema de Cayley-Hamilton é equivalente à afirmação de que o polinômio mínimo de uma matriz quadrada divide seu polinômio característico. O teorema foi provado pela primeira vez em 1853 em termos de inversos de funções lineares de quatérnios , um anel não comutativo , por Hamilton. Isso corresponde ao caso especial de certas matrizes $4 \times 4$ reais ou $2 \times 2$ complexas. O teorema é válido para matrizes quaterniônicas gerais. Cayley em 1858 declarou isso para matrizes $3 \times 3$ e menores, mas publicou apenas uma prova para o caso $2 \times 2$ . O caso geral foi provado pela primeira vez por Ferdinand Frobenius em 1878. ${\ displaystyle p_ {A} (\ lambda) = \ det (\ lambda I_ {n} -A)}$ ${\ displaystyle (\ lambda I_ {n} -A)}$ ${\ displaystyle p_ {A} (\ lambda) = \ lambda ^ {n} + c_ {n-1} \ lambda ^ {n-1} + \ cdots + c_ {1} \ lambda + c_ {0} ~. }$ ${\ displaystyle p_ {A} (A)}$ ${\ displaystyle p_ {A} (A) = A ^ {n} + c_ {n-1} A ^ {n-1} + \ cdots + c_ {1} A + c_ {0} I_ {n} ~. }$ ${\ displaystyle p_ {A} (A) = \ mathbf {0}}$

Exemplos

Matrizes $1 \times 1$

Para uma matriz $1 \times 1$ $A = (a 1,1)$ , o polinômio característico é dado por $p (λ) = λ - a$ , e então $p (A) = (a) - a 1,1 = 0$ é trivial.

Matrizes $2 \times 2$

Como um exemplo concreto, vamos

{\ displaystyle A = {\ begin {pmatrix} 1 e 2 \\ 3 e 4 \ end {pmatrix}}.}

Seu polinômio característico é dado por

{\ displaystyle p (\ lambda) = \ det (\ lambda I_ {2} -A) = \ det {\ begin {pmatrix} \ lambda -1 & -2 \\ - 3 & \ lambda -4 \ end {pmatrix}} = (\ lambda -1) (\ lambda -4) - (- 2) (- 3) = \ lambda ^ {2} -5 \ lambda -2.}

O teorema de Cayley-Hamilton afirma que, se definirmos

{\ displaystyle p (X) = X ^ {2} -5X-2I_ {2},}

então

{\ displaystyle p (A) = A ^ {2} -5A-2I_ {2} = {\ begin {pmatrix} 0 & 0 \\ 0 & 0 \\\ end {pmatrix}}.}

Podemos verificar por computação que, de fato,

{\ displaystyle A ^ {2} -5A-2I_ {2} = {\ begin {pmatrix} 7 e 10 \\ 15 & 22 \\\ end {pmatrix}} - {\ begin {pmatrix} 5 & 10 \\ 15 & 20 \\\ end { pmatriz}} - {\ begin {pmatrix} 2 & 0 \\ 0 & 2 \\\ end {pmatrix}} = {\ begin {pmatrix} 0 & 0 \\ 0 & 0 \\\ end {pmatrix}}.}

Para uma matriz $2 \times 2$ genérica ,

{\ displaystyle A = {\ begin {pmatrix} a & b \\ c & d \\\ end {pmatrix}},}

o polinômio característico é dado por $p$ $($ $λ$ $) =$ $λ$ $2$ $- ($ $a$ $+$ $d$ $)$ $λ$ $+ ($ $ad$ $-$ $bc$ $)$ , então o teorema de Cayley-Hamilton afirma que

{\ displaystyle p (A) = A ^ {2} - (a + d) A + (ad-bc) I_ {2} = {\ begin {pmatrix} 0 & 0 \\ 0 & 0 \\\ end {pmatrix}};}

o que de fato é sempre o caso, evidente pela elaboração das entradas de $A$ ² .

Prova

${\ displaystyle A ^ {2} - (a + d) A + (ad-bc) I_ {2}}$

${\ displaystyle = {\ begin {pmatrix} a ^ {2} + bc & ab + bd \\ ac + cd & bc + d ^ {2} \\\ end {pmatrix}} - {\ begin {pmatrix} a (a + d ) & b (a + d) \\ c (a + d) & d (a + d) \\\ end {pmatriz}} + (ad-bc) I_ {2}}$

${\ displaystyle = {\ begin {pmatrix} bc-ad & 0 \\ 0 & bc-ad \\\ end {pmatrix}} + (ad-bc) I_ {2}}$

${\ displaystyle = {\ begin {pmatrix} 0 & 0 \\ 0 & 0 \\\ end {pmatrix}}}$

Formulários

Matriz determinante e inversa

Para uma matriz invertível $n$ $\times$ $n$ geral $A$ , ou seja, uma com determinante diferente de zero, $A$ ⁻¹ pode, portanto, ser escrita como uma expressão polinomial de $($ $n$ $- 1)$ -ésima ordem em $A$ : Como indicado, o teorema de Cayley-Hamilton equivale ao identidade

${\ displaystyle p (A) = A ^ {n} + c_ {n-1} A ^ {n-1} + \ cdots + c_ {1} A + (- 1) ^ {n} \ det (A) I_ {n} = 0.}$

Os coeficientes $c i$ são dadas por os polinómios simétricos elementares dos valores próprios de $uma$ . Usando identidades de Newton , os polinômios simétricos elementares podem, por sua vez, ser expressos em termos de polinômios simétricos de soma de potência dos autovalores:

{\ displaystyle s_ {k} = \ sum _ {i = 1} ^ {n} \ lambda _ {i} ^ {k} = \ operatorname {tr} (A ^ {k}),}

onde $tr (A k)$ é o traço da matriz $A k$ . Assim, podemos expressar $c i$ em termos do traço de poderes $A$ .

Em geral, a fórmula para os coeficientes $c i$ é dada em termos de polinômios de Bell exponenciais completos como

{\ displaystyle c_ {nk} = {\ frac {(-1) ^ {k}} {k!}} B_ {k} (s_ {1}, - 1! s_ {2}, 2! s_ {3} , \ ldots, (- 1) ^ {k-1} (k-1)! s_ {k}).}

Em particular, o determinante de $A$ é igual a $(-1) n c 0$ . Assim, o determinante pode ser escrito como a identidade do rastreamento :

{\ displaystyle \ det (A) = {\ frac {1} {n!}} B_ {n} (s_ {1}, - 1! s_ {2}, 2! s_ {3}, \ ldots, (- 1) ^ {n-1} (n-1)! S_ {n}).}

Da mesma forma, o polinômio característico pode ser escrito como

{\ displaystyle - (- 1) ^ {n} \ det (A) I_ {n} = A (A ^ {n-1} + c_ {n-1} A ^ {n-2} + \ cdots + c_ {1} I_ {n}),}

e, multiplicando ambos os lados por $A -1$ (note $- (- 1) n = (-1) n -1$ ), alguém é levado a uma expressão para o inverso de $A$ como uma identidade de traço,

{\ displaystyle {\ begin {alinhados} A ^ {- 1} & = {\ frac {(-1) ^ {n-1}} {\ det A}} (A ^ {n-1} + c_ {n -1} A ^ {n-2} + \ cdots + c_ {1} I_ {n}), \\ [5pt] & = {\ frac {1} {\ det A}} \ sum _ {k = 0 } ^ {n-1} (- 1) ^ {n + k-1} {\ frac {A ^ {nk-1}} {k!}} B_ {k} (s_ {1}, - 1! s_ {2}, 2! S_ {3}, \ ldots, (- 1) ^ {k-1} (k-1)! S_ {k}). \ End {alinhado}}}

Outro método para obter esses coeficientes $c k$ para uma matriz $n$ $\times$ $n$ geral , desde que nenhuma raiz seja zero, depende da seguinte expressão alternativa para o determinante ,

{\ displaystyle p (\ lambda) = \ det (\ lambda I_ {n} -A) = \ lambda ^ {n} \ exp (\ operatorname {tr} (\ log (I_ {n} -A / \ lambda) )).}

Portanto, em virtude da série Mercator ,

{\ displaystyle p (\ lambda) = \ lambda ^ {n} \ exp \ left (- \ operatorname {tr} \ sum _ {m = 1} ^ {\ infty} {({A \ over \ lambda}) ^ {m} \ over m} \ right),}

onde o exponencial só precisa ser expandido para a ordem $λ - n$ , uma vez que $p (λ)$ é da ordem $n$ , as potências negativas líquidas de $λ$ desaparecem automaticamente pelo teorema C – H. (Mais uma vez, isso exige um anel contendo os números racionais.) Diferenciação desta expressão relativamente à $λ$ permite expressar os coeficientes do polinómio característica geral para $n$ como determinantes de $m x m$ matrizes,

{\ displaystyle c_ {nm} = {\ frac {(-1) ^ {m}} {m!}} {\ begin {vmatrix} \ operatorname {tr} A & m-1 & 0 & \ cdots \\\ operatorname {tr} A ^ {2} & \ operatorname {tr} A & m-2 & \ cdots \\\ vdots & \ vdots &&& \ vdots \\\ operatorname {tr} A ^ {m-1} & \ operatorname {tr} A ^ {m- 2} & \ cdots & \ cdots & 1 \\\ operatorname {tr} A ^ {m} & \ operatorname {tr} A ^ {m-1} & \ cdots & \ cdots & \ operatorname {tr} A \ end { vmatrix}} ~.}

Exemplos

Por exemplo, os primeiros polinômios de Bell são $B 0$ = 1, $B 1 (x 1) = x 1$ , $B 2 (x 1, x 2) = x 21 + x 2$ e $B 3 (x 1, x 2, x 3) = x 31 + 3 x 1 x 2 + x 3$ .

Usando-os para especificar os coeficientes $c i$ do polinômio característico de uma matriz $2 \times 2$ , resulta

{\ displaystyle {\ begin {alinhados} c_ {2} = B_ {0} = 1, \\ [4pt] c_ {1} = {\ frac {-1} {1!}} B_ {1} (s_ { 1}) = - s_ {1} = - \ operatorname {tr} (A), \\ [4pt] c_ {0} = {\ frac {1} {2!}} B_ {2} (s_ {1} , -1! S_ {2}) = {\ frac {1} {2}} (s_ {1} ^ {2} -s_ {2}) = {\ frac {1} {2}} ((\ operatorname {tr} (A)) ^ {2} - \ operatorname {tr} (A ^ {2})). \ end {alinhado}}}

O coeficiente $c 0$ dá o determinante da matriz $2 \times 2$ , $c 1$ menos seu traço, enquanto seu inverso é dado por

{\ displaystyle A ^ {- 1} = {\ frac {-1} {\ det A}} (A + c_ {1} I_ {2}) = {\ frac {-2 (A- \ operatorname {tr} (A) I_ {2})} {(\ operatorname {tr} (A)) ^ {2} - \ operatorname {tr} (A ^ {2})}}.}

É evidente a partir da fórmula geral para c _n-k , expressa em termos de polinômios de Bell, que as expressões

{\ displaystyle - \ operatorname {tr} (A) \ quad {\ text {and}} \ quad {\ tfrac {1} {2}} (\ operatorname {tr} (A) ^ {2} - \ operatorname { tr} (A ^ {2}))}

sempre dar os coeficientes $c n -1$ de $λ n -1$ e $c n -2$ de $λ n -2$ no polinomial característica de qualquer $n \times n$ matriz, respectivamente. Assim, para uma matriz $A$ $3 \times 3$ , a declaração do teorema de Cayley-Hamilton também pode ser escrita como

{\ displaystyle A ^ {3} - (\ operatorname {tr} A) A ^ {2} + {\ frac {1} {2}} \ left ((\ operatorname {tr} A) ^ {2} - \ operatorname {tr} (A ^ {2}) \ right) A- \ det (A) I_ {3} = O,}

onde o lado direito designa uma matriz $3 \times 3$ com todas as entradas reduzidas a zero. Da mesma forma, este determinante no caso $n = 3$ , é agora

{\ displaystyle {\ begin {align} \ det (A) & = {\ frac {1} {3!}} B_ {3} (s_ {1}, - 1! s_ {2}, 2! s_ {3 }) = {\ frac {1} {6}} (s_ {1} ^ {3} + 3s_ {1} (- s_ {2}) + 2s_ {3}) \\ [5pt] & = {\ tfrac {1} {6}} \ left ((\ operatorname {tr} A) ^ {3} -3 \ operatorname {tr} (A ^ {2}) (\ operatorname {tr} A) +2 \ operatorname {tr} } (A ^ {3}) \ right). \ End {alinhado}}}

Essa expressão fornece o negativo do coeficiente $c n -3$ de $λ n -3$ no caso geral, conforme visto abaixo.

Da mesma forma, pode-se escrever para uma matriz $A$ $4 \times 4$ ,

{\ displaystyle A ^ {4} - (\ operatorname {tr} A) A ^ {3} + {\ tfrac {1} {2}} {\ bigl (} (\ operatorname {tr} A) ^ {2} - \ operatorname {tr} (A ^ {2}) {\ bigr)} A ^ {2} - {\ tfrac {1} {6}} {\ bigl (} (\ operatorname {tr} A) ^ {3 } -3 \ operatorname {tr} (A ^ {2}) (\ operatorname {tr} A) +2 \ operatorname {tr} (A ^ {3}) {\ bigr)} A + \ det (A) I_ { 4} = O,}

onde, agora, o determinante é $c n -4$ ,

{\ displaystyle {\ tfrac {1} {24}} \ left ((\ operatorname {tr} A) ^ {4} -6 \ operatorname {tr} (A ^ {2}) (\ operatorname {tr} A) ^ {2} +3 (\ operatorname {tr} (A ^ {2})) ^ {2} +8 \ operatorname {tr} (A ^ {3}) \ operatorname {tr} (A) -6 \ operatorname {tr} (A ^ {4}) \ direita),}

e assim por diante para matrizes maiores. As expressões cada vez mais complexas para os coeficientes $c k podem$ ser deduzidas das identidades de Newton ou do algoritmo Faddeev-LeVerrier .

n poder -ésimo de matriz

O teorema de Cayley-Hamilton sempre fornece uma relação entre as potências de $A$ (embora nem sempre a mais simples), o que permite simplificar expressões envolvendo tais potências e avaliá-las sem ter que calcular a potência $A n$ ou quaisquer potências superiores de $A$ .

Como exemplo, para o teorema dá ${\ displaystyle A = {\ begin {pmatrix} 1 e 2 \\ 3 e 4 \ end {pmatrix}}}$

{\ displaystyle A ^ {2} = 5A + 2I_ {2} \ ,.}

Então, para calcular $A 4$ , observe

{\ displaystyle A ^ {3} = (5A + 2I_ {2}) A = 5A ^ {2} + 2A = 5 (5A + 2I_ {2}) + 2A = 27A + 10I_ {2},}

{\ displaystyle A ^ {4} = A ^ {3} A = (27A + 10I_ {2}) A = 27A ^ {2} + 10A = 27 (5A + 2I_ {2}) + 10A = 145A + 54I_ { 2} \ ,.}

Da mesma forma,

{\ displaystyle A ^ {- 1} = {\ frac {A-5I_ {2}} {2}} ~.}

{\ displaystyle A ^ {- 2} = A ^ {- 1} A ^ {- 1} = {\ frac {A ^ {2} -10A + 25I_ {2}} {4}} = {\ frac {( 5A + 2I_ {2}) - 10A + 25I_ {2}} {4}} = {\ frac {-5A + 27I_ {2}} {4}} ~.}

Observe que conseguimos escrever a potência da matriz como a soma de dois termos. Na verdade, a potência da matriz de qualquer ordem $k$ pode ser escrita como uma matriz polinomial de grau no máximo $n - 1$ , onde $n$ é o tamanho de uma matriz quadrada. Este é um caso em que o teorema de Cayley-Hamilton pode ser usado para expressar uma função de matriz, que discutiremos a seguir de forma sistemática.

Funções de matriz

Dada uma função analítica

{\ displaystyle f (x) = \ sum _ {k = 0} ^ {\ infty} a_ {k} x ^ {k}}

e o polinômio característico $p (x)$ de grau $n$ de uma matriz $A$ $n \times n$ , a função pode ser expressa usando divisão longa como

{\ displaystyle f (x) = q (x) p (x) + r (x),}

onde $q (x)$ é algum polinômio quociente $er (x)$ é um polinômio remanescente tal que $0 \leq deg r (x) < n$ .

Pelo teorema de Cayley-Hamilton, substituindo $x$ pela matriz $A$ dá $p (A) = 0$ , então temos

{\ displaystyle f (A) = r (A).}

Assim, a função analítica da matriz $A$ pode ser expressa como um polinômio da matriz de grau menor que $n$ .

Deixe o polinômio restante ser

{\ displaystyle r (x) = c_ {0} + c_ {1} x + \ cdots + c_ {n-1} x ^ {n-1}.}

Uma vez que $p (λ) = 0$ , avaliando a função $f (x)$ nos $n$ valores próprios de $A$ , resulta

{\ displaystyle f (\ lambda _ {i}) = r (\ lambda _ {i}) = c_ {0} + c_ {1} \ lambda _ {i} + \ cdots + c_ {n-1} \ lambda _ {i} ^ {n-1}, \ qquad \ mathrm {para} \ qquad i = 1,2, ..., n.}

Isso equivale a um sistema de $n$ equações lineares, que podem ser resolvidas para determinar os coeficientes $c i$ . Assim, um tem

{\ displaystyle f (A) = \ sum _ {k = 0} ^ {n-1} c_ {k} A ^ {k}.}

Quando os autovalores são repetidos, ou seja, $λ i = λ j$ para algum $i \neq j$ , duas ou mais equações são idênticas; e, portanto, as equações lineares não podem ser resolvidas exclusivamente. Para tais casos, para um autovalor $λ$ com multiplicidade $m$ , as primeiras $m - 1$ derivadas de $p (x)$ desaparecem no autovalor. Isso leva às soluções adicionais $m - 1$ linearmente independentes

{\ displaystyle {\ frac {\ mathrm {d} ^ {k} f (x)} {\ mathrm {d} x ^ {k}}} {\ Big |} _ {x = \ lambda} = {\ frac {\ mathrm {d} ^ {k} r (x)} {\ mathrm {d} x ^ {k}}} {\ Big |} _ {x = \ lambda} \ qquad {\ text {for}} \ qquad k = 1,2, \ ldots, m-1,}

que, combinada com outras, produz as $n$ equações necessárias para resolver para $c i$ .

Encontrar um polinômio que passa pelos pontos $(λ i, f (λ i))$ é essencialmente um problema de interpolação , e pode ser resolvido usando técnicas de interpolação de Lagrange ou Newton , levando à fórmula de Sylvester .

Por exemplo, suponha que a tarefa seja encontrar a representação polinomial de

{\ displaystyle f (A) = e ^ {At} \ qquad \ mathrm {onde} \ qquad A = {\ begin {pmatrix} 1 e 2 \\ 0 & 3 \ end {pmatrix}}.}

O polinômio característico é $p (x) = (x - 1) (x - 3) = x 2 - 4 x + 3$ , e os valores próprios são $λ = 1, 3$ . Seja $r (x) = c 0 + c 1 x$ . Avaliando $f (λ) = r (λ)$ nos autovalores, obtém-se duas equações lineares, $e t = c 0 + c 1$ e $e 3 t = c 0 + 3 c 1$ .

Resolver as equações resulta em $c 0 = (3 e t - e 3 t) / 2$ e $c 1 = (e 3 t - e t) / 2$ . Assim, segue-se que

{\ displaystyle e ^ {At} = c_ {0} I_ {2} + c_ {1} A = {\ begin {pmatrix} c_ {0} + c_ {1} & 2c_ {1} \\ 0 & c_ {0} + 3c_ {1} \ end {pmatriz}} = {\ begin {pmatriz} e ^ {t} & e ^ {3t} -e ^ {t} \\ 0 & e ^ {3t} \ end {pmatriz}}.}

Se, em vez disso, a função fosse $f (A) = sin At$ , então os coeficientes teriam sido $c 0 = (3 sin t - sin 3 t) / 2$ e $c 1 = (sin 3 t - sin t) / 2$ ; portanto

{\ displaystyle \ sin (At) = c_ {0} I_ {2} + c_ {1} A = {\ begin {pmatrix} \ sin t & \ sin 3t- \ sin t \\ 0 & \ sin 3t \ end {pmatrix }}.}

Como outro exemplo, ao considerar

{\ displaystyle f (A) = e ^ {At} \ qquad \ mathrm {onde} \ qquad A = {\ begin {pmatrix} 0 & 1 \\ - 1 & 0 \ end {pmatrix}},}

então, o polinômio característico é $p (x) = x 2 + 1$ , e os autovalores são $λ = \pm i$ .

Como antes, avaliar a função nos autovalores nos dá as equações lineares $e it = c 0 + ic 1$ e $e - it = c 0 - ic 1$ ; a solução de que dá, $c 0 = (e -la + e - lo) / 2 = cos t$ e $c 1 = (e -la - e - lo) / 2 I = sen t$ . Assim, para este caso,

{\ displaystyle e ^ {At} = (\ cos t) I_ {2} + (\ sin t) A = {\ begin {pmatrix} \ cos t & \ sin t \\ - \ sin t & \ cos t \ end { pmatrix}},}

que é uma matriz de rotação .

Exemplos padrão de tal uso são o mapa exponencial da álgebra de Lie de um grupo de Lie de matriz no grupo. É dado por uma matriz exponencial ,

{\ displaystyle \ exp: {\ mathfrak {g}} \ rightarrow G; \ qquad tX \ mapsto e ^ {tX} = \ sum _ {n = 0} ^ {\ infty} {\ frac {t ^ {n} X ^ {n}} {n!}} = I + tX + {\ frac {t ^ {2} X ^ {2}} {2}} + \ cdots, t \ in \ mathbb {R}, X \ in {\ mathfrak {g}}.}

Essas expressões são conhecidas há muito tempo por $SU (2)$ ,

{\ displaystyle e ^ {i (\ theta / 2) ({\ hat {n}} \ cdot \ sigma)} = I_ {2} \ cos \ theta / 2 + i ({\ hat {n}} \ cdot \ sigma) \ sin \ theta / 2,}

onde os $σ$ são as matrizes de Pauli e para $SO (3)$ ,

{\ displaystyle e ^ {i \ theta ({\ hat {n}} \ cdot \ mathbf {J})} = I_ {3} + i ({\ hat {n}} \ cdot \ mathbf {J}) \ sen \ theta + ({\ hat {n}} \ cdot \ mathbf {J}) ^ {2} (\ cos \ theta -1),}

que é a fórmula de rotação de Rodrigues . Para a notação, consulte o grupo de rotação SO (3) #A nota sobre álgebra de Lie .

Mais recentemente, surgiram expressões para outros grupos, como o grupo de Lorentz $SO (3, 1)$ , $O (4, 2)$ e $SU (2, 2)$ , bem como $GL (n, R)$ . O grupo $O (4, 2)$ é o grupo conforme do espaço-tempo , $SU (2, 2)$ sua tampa simplesmente conectada (para ser mais preciso, a tampa simplesmente conectada do componente conectado $SO + (4, 2)$ de $O (4, 2)$ ). As expressões obtidas aplicam-se à representação padrão desses grupos. Eles exigem conhecimento de (alguns dos) valores próprios da matriz para exponenciar. Para $SU (2)$ (e portanto para $SO (3)$ ), expressões fechadas foram obtidas para todas as representações irredutíveis, ou seja, de qualquer spin.

Ferdinand Georg Frobenius (1849–1917), matemático alemão. Seus principais interesses eram funções elípticas , equações diferenciais e, posteriormente , teoria dos grupos .
Em 1878, ele deu a primeira prova completa do teorema de Cayley-Hamilton.

Teoria dos números algébricos

O teorema de Cayley-Hamilton é uma ferramenta eficaz para calcular o polinômio mínimo de inteiros algébricos. Por exemplo, dada uma extensão finita de e um inteiro algébrico que é uma combinação linear diferente de zero de , podemos calcular o polinômio mínimo de encontrando uma matriz que representa a transformação -linear ${\ displaystyle \ mathbb {Q} [\ alpha _ {1}, \ ldots, \ alpha _ {k}]}$ ${\ displaystyle \ mathbb {Q}}$ ${\ displaystyle \ alpha \ in \ mathbb {Q} [\ alpha _ {1}, \ ldots, \ alpha _ {k}]}$ ${\ displaystyle \ alpha _ {1} ^ {n_ {1}} \ cdots \ alpha _ {k} ^ {n_ {k}}}$ ${\ displaystyle \ alpha}$ ${\ displaystyle \ mathbb {Q}}$

{\ displaystyle \ cdot \ alpha: \ mathbb {Q} [\ alpha _ {1}, \ ldots, \ alpha _ {k}] \ to \ mathbb {Q} [\ alpha _ {1}, \ ldots, \ alfa _ {k}]}

Se chamarmos isso de matriz de transformação , então podemos encontrar o polinômio mínimo aplicando o teorema de Cayley-Hamilton a . ${\ displaystyle A}$ ${\ displaystyle A}$

Provas

O teorema de Cayley-Hamilton é uma consequência imediata da existência da forma normal de Jordan para matrizes sobre campos algebricamente fechados . Nesta seção, as provas diretas são apresentadas.

Como os exemplos acima mostram, a obtenção do mapa do teorema de Cayley-Hamilton para um $n \times n$ matriz

{\ displaystyle A = (a_ {ij}) _ {i, j = 1} ^ {n}}

requer duas etapas: primeiro, os coeficientes $c i$ do polinômio característico são determinados pelo desenvolvimento como um polinômio em $t$ do determinante

{\ displaystyle {\ begin {alinhados} p (t) & = \ det (tI_ {n} -A) = {\ begin {vmatrix} t-a_ {1,1} & - a_ {1,2} & \ cdots & -a_ {1, n} \\ - a_ {2,1} & t-a_ {2,2} & \ cdots & -a_ {2, n} \\\ vdots & \ vdots & \ ddots & \ vdots \\ - a_ {n, 1} & - a_ {n, 2} & \ cdots & t-a_ {n, n} \ end {vmatrix}} \\ [5pt] & = t ^ {n} + c_ {n -1} t ^ {n-1} + \ cdots + c_ {1} t + c_ {0}, \ end {alinhado}}}

e, em seguida, os coeficientes são usados de uma combinação linear das competências de $um$ que é equiparada à $n \times n$ matriz nula:

{\ displaystyle A ^ {n} + c_ {n-1} A ^ {n-1} + \ cdots + c_ {1} A + c_ {0} I_ {n} = {\ begin {pmatrix} 0 & \ cdots & 0 \\\ vdots & \ ddots & \ vdots \\ 0 & \ cdots & 0 \ end {pmatrix}}.}

O lado esquerdo pode ser trabalhado para um $n \times n$ matriz cujas entradas são (enormes) expressões polinomiais no conjunto de entrada de $um i, j$ de $A$ , de modo que o Cayley-Hamilton teorema indica que cada uma destas $N 2$ expressões iguais $0$ . Para qualquer valor fixo de $n$ , essas identidades podem ser obtidas por manipulações algébricas tediosas, mas diretas. Nenhum desses cálculos, entretanto, pode mostrar por que o teorema de Cayley-Hamilton deve ser válido para matrizes de todos os tamanhos possíveis $n$ , então uma prova uniforme para todos os $n$ é necessária.

Preliminares

Se um vetor $v$ de tamanho $n$ é um autovetor de $A$ com autovalor $λ$ , em outras palavras, se $A \cdot v = λv$ , então

{\ displaystyle {\ begin {alinhados} p (A) \ cdot v & = A ^ {n} \ cdot v + c_ {n-1} A ^ {n-1} \ cdot v + \ cdots + c_ {1} A \ cdot v + c_ {0} I_ {n} \ cdot v \\ [6pt] & = \ lambda ^ {n} v + c_ {n-1} \ lambda ^ {n-1} v + \ cdots + c_ { 1} \ lambda v + c_ {0} v = p (\ lambda) v, \ end {alinhado}}}

que é o vetor nulo uma vez que $p (λ) = 0$ (os autovalores de $A$ são precisamente as raízes de $p (t)$ ). Isso vale para todos os autovalores possíveis $λ$ , então as duas matrizes equacionadas pelo teorema certamente fornecem o mesmo resultado (nulo) quando aplicado a qualquer autovetor. Agora, se $A$ admite uma base de autovetores, em outras palavras, se $A$ é diagonalizável , então o teorema de Cayley-Hamilton deve valer para $A$ , uma vez que duas matrizes que fornecem os mesmos valores quando aplicadas a cada elemento de uma base devem ser iguais.

{\ displaystyle A = XDX ^ {- 1}, \ quad D = \ operatorname {diag} (\ lambda _ {i}), \ quad i = 1,2, ..., n}

{\ displaystyle p_ {A} (\ lambda) = | \ lambda IA ​​| =}

produto dos valores próprios de

{\ displaystyle \ lambda IA ​​= \ prod _ {i = 1} ^ {n} (\ lambda - \ lambda _ {i}) \ equiv \ sum _ {k = 0} ^ {n} c_ {k} \ lambda ^ {k}}

{\ displaystyle p_ {A} (A) = \ sum c_ {k} A ^ {k} = Xp_ {A} (D) X ^ {- 1} = XCX ^ {- 1}}

{\ displaystyle C_ {ii} = \ sum _ {k = 0} ^ {n} c_ {k} \ lambda _ {i} ^ {k} = \ prod _ {j = 1} ^ {n} (\ lambda _ {i} - \ lambda _ {j}) = 0, \ qquad C_ {i, j \ neq i} = 0}

{\ displaystyle \ portanto p_ {A} (A) = XCX ^ {- 1} = O.}

Considere agora a função que mapeia matrizes para matrizes dadas pela fórmula , isto é, que pega uma matriz e a conecta em seu próprio polinômio característico. Nem todas as matrizes são diagonalizáveis, mas para matrizes com coeficientes complexos, muitas delas são: o conjunto de matrizes quadradas complexas diagonalizáveis de um determinado tamanho é denso no conjunto de todas essas matrizes quadradas (para uma matriz ser diagonalizável é suficiente, por exemplo, que seu polinômio característico não tem raízes múltiplas). Agora, visto como uma função (uma vez que as matrizes têm entradas), vemos que essa função é contínua . Isso é verdade porque as entradas da imagem de uma matriz são dadas por polinômios nas entradas da matriz. Desde a ${\ displaystyle e \ dois pontos M_ {n} \ a M_ {n}}$ ${\ displaystyle n \ times n}$ ${\ displaystyle n \ times n}$ ${\ displaystyle e (A) = p_ {A} (A)}$ ${\ displaystyle A}$ ${\ displaystyle D}$ ${\ displaystyle e \ dois pontos \ mathbb {C} ^ {n ^ {2}} \ para \ mathbb {C} ^ {n ^ {2}}}$ ${\ displaystyle n ^ {2}}$

${\ displaystyle e (D) = \ left \ {{\ begin {pmatrix} 0 & \ cdots & 0 \\\ vdots & \ ddots & \ vdots \\ 0 & \ cdots & 0 \ end {pmatrix}} \ right \}}$

e como o conjunto é denso, por continuidade essa função deve mapear todo o conjunto de matrizes para a matriz zero. Portanto, o teorema de Cayley-Hamilton é verdadeiro para números complexos e deve, portanto, valer para matrizes - ou - avaliadas. ${\ displaystyle D}$ ${\ displaystyle n \ times n}$ ${\ displaystyle \ mathbb {Q}}$ ${\ displaystyle \ mathbb {R}}$

Embora isso forneça uma prova válida, o argumento não é muito satisfatório, uma vez que as identidades representadas pelo teorema não dependem de forma alguma da natureza da matriz (diagonalizável ou não), nem do tipo de entradas permitidas (para matrizes com entradas reais, as diagonalizáveis não formam um conjunto denso, e parece estranho que alguém teria que considerar matrizes complexas para ver que o teorema de Cayley-Hamilton vale para elas). Devemos, portanto, considerar agora apenas os argumentos que provam o teorema diretamente para qualquer matriz usando apenas manipulações algébricas; estes também têm a vantagem de trabalhar para matrizes com entradas em qualquer anel comutativo .

Há uma grande variedade de tais provas do teorema de Cayley-Hamilton, das quais várias serão apresentadas aqui. Eles variam na quantidade de noções algébricas abstratas necessárias para compreender a prova. As provas mais simples usam apenas as noções necessárias para formular o teorema (matrizes, polinômios com entradas numéricas, determinantes), mas envolvem cálculos técnicos que tornam um tanto misterioso o fato de que levam precisamente à conclusão correta. É possível evitar tais detalhes, mas ao preço de envolver noções algébricas mais sutis: polinômios com coeficientes em um anel não comutativo ou matrizes com tipos incomuns de entradas.

Matrizes de adjugado

Todas as provas abaixo usar a noção do adjugate matriz $adj (M)$ de um $n \times n$ matriz $M$ , a transposta da sua matriz de co-factor .

Esta é uma matriz cujos coeficientes são dados por expressões polinomiais nos coeficientes de $M$ (na verdade, por certos $(n - 1) \times (n - 1)$ determinantes), de tal forma que as seguintes relações fundamentais se mantêm,

{\ displaystyle \ operatorname {adj} (M) \ cdot M = \ det (M) I_ {n} = M \ cdot \ operatorname {adj} (M) ~.}

Essas relações são uma consequência direta das propriedades básicas dos determinantes: a avaliação da entrada $(i, j)$ do produto da matriz à esquerda dá a expansão pela coluna $j$ do determinante da matriz obtido de $M$ substituindo a coluna $i$ por a cópia da coluna $j$ , que é $det (M)$ se $i = j$ e zero em caso contrário; o produto da matriz à direita é semelhante, mas para expansões por linhas.

Sendo uma consequência apenas da manipulação de expressões algébricas, essas relações são válidas para matrizes com entradas em qualquer anel comutativo (a comutatividade deve ser assumida para que os determinantes sejam definidos em primeiro lugar). É importante observar isso aqui, porque essas relações serão aplicadas a seguir para matrizes com entradas não numéricas, como polinômios.

Uma prova algébrica direta

Esta prova usa exatamente o tipo de objetos necessários para formular o teorema de Cayley-Hamilton: matrizes com polinômios como entradas. A matriz $t I n - A$ cujo determinante é o polinômio característico de $A$ é tal matriz, e uma vez que os polinômios formam um anel comutativo, ela tem um adjunto

{\ displaystyle B = \ operatorname {adj} (tI_ {n} -A).}

Então, de acordo com a relação fundamental direita do adjunto, tem-se

{\ displaystyle (tI_ {n} -A) B = \ det (tI_ {n} -A) I_ {n} = p (t) I_ {n} ~.}

Uma vez que $B$ também é uma matriz com polinômios em $t$ como entradas, pode-se, para cada $i$ , coletar os coeficientes de $t i$ em cada entrada para formar uma matriz $B i$ de números, de modo que um tenha

{\ displaystyle B = \ sum _ {i = 0} ^ {n-1} t ^ {i} B_ {i} ~.}

(A forma como as entradas de $B$ são definidas deixa claro que não ocorrem potências superiores a $t n -1$ ). Embora pareça um polinômio com matrizes como coeficientes, não devemos considerar tal noção; é apenas uma maneira de escrever uma matriz com entradas polinomiais como uma combinação linear de $n$ matrizes constantes, e o coeficiente $t i$ foi escrito à esquerda da matriz para enfatizar esse ponto de vista.

Agora, pode-se expandir o produto da matriz em nossa equação por bilinearidade

{\ displaystyle {\ begin {alinhados} p (t) I_ {n} & = (tI_ {n} -A) B \\ & = (tI_ {n} -A) \ sum _ {i = 0} ^ { n-1} t ^ {i} B_ {i} \\ & = \ sum _ {i = 0} ^ {n-1} tI_ {n} \ cdot t ^ {i} B_ {i} - \ sum _ {i = 0} ^ {n-1} A \ cdot t ^ {i} B_ {i} \\ & = \ sum _ {i = 0} ^ {n-1} t ^ {i + 1} B_ { i} - \ sum _ {i = 0} ^ {n-1} t ^ {i} AB_ {i} \\ & = t ^ {n} B_ {n-1} + \ sum _ {i = 1} ^ {n-1} t ^ {i} (B_ {i-1} -AB_ {i}) - AB_ {0} ~. \ end {alinhado}}}

Escrita

{\ displaystyle p (t) I_ {n} = t ^ {n} I_ {n} + t ^ {n-1} c_ {n-1} I_ {n} + \ cdots + tc_ {1} I_ {n } + c_ {0} I_ {n} ~,}

obtém-se uma igualdade de duas matrizes com entradas polinomiais, escritas como combinações lineares de matrizes constantes com potências de $t$ como coeficientes.

Tal igualdade pode ser mantida apenas se em qualquer posição da matriz a entrada que é multiplicada por uma dada potência $t$ $i$ for a mesma em ambos os lados; segue-se que as matrizes constantes com coeficiente $t$ $i$ em ambas as expressões devem ser iguais. Escrevendo essas equações para $i$ de $n$ até 0, encontramos

{\ displaystyle B_ {n-1} = I_ {n}, \ qquad B_ {i-1} -AB_ {i} = c_ {i} I_ {n} \ quad {\ text {for}} 1 \ leq i \ leq n-1, \ qquad -AB_ {0} = c_ {0} I_ {n} ~.}

Finalmente, multiplique a equação dos coeficientes de $t i$ da esquerda por $A i$ e some:

${\ textstyle A ^ {n} B_ {n-1} + \ sum \ limits _ {i = 1} ^ {n-1} \ left (A ^ {i} B_ {i-1} -A ^ {i +1} B_ {i} \ right) -AB_ {0} = A ^ {n} + c_ {n-1} A ^ {n-1} + \ cdots + c_ {1} A + c_ {0} I_ {n} ~.}$

Os lados esquerdos formam uma soma telescópica e se cancelam completamente; os lados direitos somam : ${\ displaystyle p (A)}$

{\ displaystyle 0 = p (A) ~.}

Isso completa a prova.

Uma prova usando polinômios com coeficientes de matriz

Esta prova é semelhante à primeira, mas tenta dar sentido à noção de polinômio com coeficientes de matriz que foi sugerida pelas expressões ocorridas naquela prova. Isso requer um cuidado considerável, uma vez que é um tanto incomum considerar polinômios com coeficientes em um anel não comutativo, e nem todo raciocínio válido para polinômios comutativos pode ser aplicado neste cenário.

Notavelmente, embora a aritmética de polinômios sobre um anel comutativo modele a aritmética de funções polinomiais , este não é o caso sobre um anel não comutativo (na verdade, não há noção óbvia de função polinomial neste caso que é fechada sob multiplicação). Assim, ao considerar polinômios em $t$ com coeficientes de matriz, a variável $t$ não deve ser pensada como uma "desconhecida", mas como um símbolo formal que deve ser manipulado de acordo com determinadas regras; em particular, não se pode simplesmente definir $t$ para um valor específico.

{\ displaystyle (f + g) (x) = \ sum _ {i} \ left (f_ {i} + g_ {i} \ right) x ^ {i} = \ sum _ {i} {f_ {i} x ^ {i}} + \ sum _ {i} {g_ {i} x ^ {i}} = f (x) + g (x).}

Let Ser o anel de matrizes com entradas em algum anel R (como os números reais ou complexos) que tem $A$ como um elemento. Matrizes com polinômios de coeficientes em $t$ , tais como ou seu adjunto B na primeira prova, são elementos de . ${\ displaystyle M (n, R)}$ ${\ displaystyle n \ times n}$ ${\ displaystyle tI_ {n} -A}$ ${\ displaystyle M (n, R [t])}$

Ao coletar potências semelhantes de $t$ , tais matrizes podem ser escritas como "polinômios" em $t$ com matrizes constantes como coeficientes; escreva para o conjunto de tais polinômios. Uma vez que este conjunto está em bijeção com , define-se as operações aritméticas nele correspondentemente, em particular a multiplicação é dada por ${\ displaystyle M (n, R) [t]}$ ${\ displaystyle M (n, R [t])}$

{\ displaystyle \ left (\ sum _ {i} M_ {i} t ^ {i} \ right) \ left (\ sum _ {j} N_ {j} t ^ {j} \ right) = \ sum _ { i, j} (M_ {i} N_ {j}) t ^ {i + j},}

respeitar a ordem das matrizes de coeficientes dos dois operandos; obviamente, isso dá uma multiplicação não comutativa.

Assim, a identidade

{\ displaystyle (tI_ {n} -A) B = p (t) I_ {n}.}

da primeira prova pode ser vista como uma que envolve uma multiplicação de elementos em . ${\ displaystyle M (n, R) [t]}$

Nesse ponto, é tentador simplesmente definir $t$ igual à matriz $A$ , o que torna o primeiro fator à esquerda igual à matriz nula e o lado direito igual a $p (A)$ ; no entanto, esta não é uma operação permitida quando os coeficientes não comutam. É possível definir um "mapa de avaliação à direita" ev _$A$ : M [ t ] → M , que substitui cada t ⁱ pela potência da matriz $A$ ⁱ de $A$ , onde se estipula que a potência deve ser sempre multiplicada à direita ao coeficiente correspondente.

Mas este mapa não é um homomorfismo de anel: a avaliação correta de um produto difere em geral do produto das avaliações corretas. Isto é assim porque a multiplicação de polinómios com coeficientes da matriz faz multiplicação não modelo de expressão contendo incógnitas: um produto é definido supondo que $t$ comuta com $N$ , mas isto pode falhar se $t$ é substituído pela matriz $Uma$ . ${\ displaystyle Mt ^ {i} Nt ^ {j} = (M \ cdot N) t ^ {i + j}}$

Pode-se contornar essa dificuldade na situação particular em questão, uma vez que o mapa de avaliação à direita acima se torna um homomorfismo de anel se a matriz $A$ estiver no centro do anel de coeficientes, de modo que comute com todos os coeficientes dos polinômios (o argumento que prova isso é direto, exatamente porque comutar $t$ com coeficientes agora se justifica após a avaliação).

Agora, $A$ não é sempre no centro de M , mas podemos substituir M com um anel menor desde que contém todos os coeficientes dos polinômios em questão: , $A$ , e os coeficientes do polinômio B . A escolha óbvia para tal subanel é o centralizador Z de $A$ , o subanel de todas as matrizes que comutam com $A$ ; por definição $Um$ está localizado no centro de Z . ${\ displaystyle I_ {n}}$ ${\ displaystyle B_ {i}}$

Esse centralizador obviamente contém , e $A$ , mas é preciso mostrar que ele contém as matrizes . Para fazer isso, combina-se as duas relações fundamentais para adjugados, escrevendo o adjugado B como um polinômio: ${\ displaystyle I_ {n}}$ ${\ displaystyle B_ {i}}$

{\ displaystyle {\ begin {alinhados} \ left (\ sum _ {i = 0} ^ {m} B_ {i} t ^ {i} \ right) (tI_ {n} -A) & = (tI_ {n } -A) \ sum _ {i = 0} ^ {m} B_ {i} t ^ {i} \\\ sum _ {i = 0} ^ {m} B_ {i} t ^ {i + 1} - \ sum _ {i = 0} ^ {m} B_ {i} Em ^ {i} & = \ sum _ {i = 0} ^ {m} B_ {i} t ^ {i + 1} - \ sum _ {i = 0} ^ {m} AB_ {i} t ^ {i} \\\ sum _ {i = 0} ^ {m} B_ {i} Em ^ {i} & = \ sum _ {i = 0} ^ {m} AB_ {i} t ^ {i}. \ End {alinhado}}}

Equacionar os coeficientes mostra que, para cada i , temos $A$ B _i = B _i $A$ conforme desejado. Tendo encontrado a configuração adequada em que ev _$A$ é de fato um homomorfismo de anéis, pode-se completar a prova como sugerido acima:

{\ displaystyle {\ begin {alinhado} \ operatorname {ev} _ {A} {\ bigl (} p (t) I_ {n} {\ bigr)} & = \ operatorname {ev} _ {A} ((tI_ {n} -A) B) \\ [5pt] p (A) & = \ operatorname {ev} _ {A} (tI_ {n} -A) \ cdot \ operatorname {ev} _ {A} (B) \\ [5pt] p (A) & = (AI_ {n} -A) \ cdot \ operatorname {ev} _ {A} (B) = O \ cdot \ operatorname {ev} _ {A} (B) = O. \ end {alinhado}}}

Isso completa a prova.

Uma síntese das duas primeiras provas

Na primeira prova, foi possível determinar os coeficientes $B i$ de $B com$ base na relação fundamental direita apenas para o adjunto. Na verdade, as primeiras $n$ equações derivadas podem ser interpretadas como determinando o quociente $B$ da divisão euclidiana do polinômio $p (t) I n$ à esquerda pelo polinômio mônico $I n t - A$ , enquanto a equação final expressa o fato de que o o resto é zero. Essa divisão é realizada no anel de polinômios com coeficientes da matriz. Com efeito, até mesmo ao longo de um anel não-conmutativo, divisão euclidiana por um mônico polinómio $P$ é definido, e sempre produz um quociente único e restante com a mesma condição grau como no caso conmutativo, desde que seja especificado em que um lado pretende $P$ para ser um fator (aqui isso está à esquerda).

Para ver que o quociente e o resto são únicos (que é a parte importante da afirmação aqui), é suficiente escrever como e observar que, uma vez que $P$ é mônico, $P (Q - Q ')$ não pode ter um grau menor que o de $P$ , a menos que $Q$ $=$ $Q '$ . ${\ displaystyle PQ + r = PQ '+ r'}$ ${\ displaystyle P (Q-Q ') = r'-r}$

Mas o dividendo $p (t) I n$ e o divisor $I n t - A$ usados aqui estão ambos no subanel $(R [A]) [t]$ , onde $R [A]$ é o subanel do anel da matriz $M (n, R)$ gerado por $um$ : o $R$ extensão -linear de todas as potências de $Uma$ . Portanto, a divisão euclidiana pode de fato ser realizada dentro daquele anel polinomial comutativo , e é claro que dá então o mesmo quociente $B$ e resto 0 como no anel maior; em particular, isso mostra que $B$ de fato está em $(R [A]) [t]$ .

Mas, nesta configuração comutativa, é válido definir $t$ para $A$ na equação

{\ displaystyle p (t) I_ {n} = (tI_ {n} -A) B;}

em outras palavras, para aplicar o mapa de avaliação

{\ displaystyle \ operatorname {ev} _ {A} :( R [A]) [t] \ to R [A]}

que é um homomorfismo de anel, dando

{\ displaystyle p (A) = 0 \ cdot \ operatorname {ev} _ {A} (B) = 0}

assim como na segunda prova, conforme desejado.

Além de provar o teorema, o argumento acima nos diz que os coeficientes $B$ $i$ de $B$ são polinômios em $A$ , enquanto a partir da segunda prova sabíamos apenas que eles se encontram no centralizador $Z$ de $A$ ; em geral $Z$ é um subanel maior que $R$ $[$ $A$ $]$ , e não necessariamente comutativo. Em particular, o termo constante $B$ $0$ $= adj (-$ $A$ $)$ reside em $R$ $[$ $A$ $]$ . Como $A$ é uma matriz quadrada arbitrária, isso prova que $adj ($ $A$ $)$ sempre pode ser expresso como um polinômio em $A$ (com coeficientes que dependem de $A$ $)$ .

De fato, as equações encontradas na primeira prova permitem expressar sucessivamente como polinômios em $A$ , o que leva à identidade ${\ displaystyle B_ {n-1}, \ ldots, B_ {1}, B_ {0}}$

${\ displaystyle \ operatorname {adj} (-A) = \ sum _ {i = 1} ^ {n} c_ {i} A ^ {i-1},}$

válidas para todos $n \times n$ matrizes, onde

{\ displaystyle p (t) = t ^ {n} + c_ {n-1} t ^ {n-1} + \ cdots + c_ {1} t + c_ {0}}

É o polinómio característico de $um$ .

Observe que essa identidade também implica a afirmação do teorema de Cayley-Hamilton: pode-se mover $adj (- A)$ para o lado direito, multiplicar a equação resultante (à esquerda ou à direita) por $A$ e usar o fato de que

{\ displaystyle -A \ cdot \ operatorname {adj} (-A) = \ operatorname {adj} (-A) \ cdot (-A) = \ det (-A) I_ {n} = c_ {0} I_ { n}.}

Uma prova usando matrizes de endomorfismos

Como foi mencionado acima, a matriz de p ( A ), em comunicação do teorema é obtido por primeira avaliação do determinante e, em seguida, substituindo a matriz A para T ; fazer essa substituição na matriz antes de avaliar o determinante não é significativo. No entanto, é possível dar uma interpretação onde p ( A ) é obtido diretamente como o valor de um determinado determinante, mas isso requer uma configuração mais complicada, uma de matrizes sobre um anel em que se pode interpretar ambas as entradas de A , e todo o próprio A. Pode-se tomar para isso o anel M ( n , R ) de n × n matrizes sobre R , onde a entrada é realizada como , e A como ele mesmo. Mas considerar matrizes com matrizes como entradas pode causar confusão com matrizes de bloco , o que não é pretendido, pois isso dá a noção errada de determinante (lembre-se de que o determinante de uma matriz é definido como uma soma dos produtos de suas entradas, e no caso de uma matriz de bloco geralmente não é o mesmo que a soma correspondente dos produtos de seus blocos!). É mais claro distinguir A do endomorfismo φ de um espaço vetorial n- dimensional V (ou R- módulo livre se R não for um campo) definido por ele em uma base , e tomar matrizes sobre o anel End ( V ) de todos esses endomorfismos. Então φ ∈ End ( V ) é uma possível entrada de matriz, enquanto A designa o elemento de M ( n , End ( V )) cuja entrada i , j é endomorfismo de multiplicação escalar por ; da mesma forma será interpretado como elemento de M ( n , End ( V )). No entanto, uma vez que End ( V ) não é um anel comutativo, nenhum determinante é definido em M ( n , End ( V )); isso só pode ser feito para matrizes sobre um subanel comutativo de End ( V ). Agora, todas as entradas da matriz estão no subanel R [ φ ] gerado pela identidade e φ , que é comutativo. Em seguida, um mapa determinante M ( n , R [ φ ]) → R [ φ ] é definido e avalia o valor p ( φ ) do polinômio característico de A em φ (isso é válido independentemente da relação entre A e φ ) ; o teorema de Cayley-Hamilton afirma que p ( φ ) é o endomorfismo nulo. ${\ displaystyle tI_ {n} -A}$ ${\ displaystyle A_ {i, j}}$ ${\ displaystyle A_ {i, j}}$ ${\ displaystyle A_ {i, j} I_ {n}}$ ${\ displaystyle e_ {1}, \ ldots, e_ {n}}$ ${\ displaystyle A_ {i, j}}$ ${\ displaystyle I_ {n}}$ ${\ displaystyle \ varphi I_ {n} -A}$ ${\ displaystyle \ det (\ varphi I_ {n} -A)}$

Desta forma, a seguinte prova pode ser obtida daquela de (Atiyah & MacDonald 1969 , Prop. 2.4) (que na verdade é a declaração mais geral relacionada ao lema de Nakayama ; toma-se como ideal nessa proposição o anel inteiro R ) O fato de A ser a matriz de φ na base e ₁ , ..., e _n significa que

{\ displaystyle \ varphi (e_ {i}) = \ sum _ {j = 1} ^ {n} A_ {j, i} e_ {j} \ quad {\ text {for}} i = 1, \ ldots, n.}

Pode-se interpretá-los como n componentes de uma equação em V ⁿ , cujos membros podem ser escritos usando o produto matriz-vetor M ( n , End ( V )) × V ⁿ → V ⁿ que é definido como de costume, mas com entradas individuais ψ ∈ Fim ( V ) ev em V sendo "multiplicado" pela formação ; isto dá: ${\ displaystyle \ psi (v)}$

{\ displaystyle \ varphi I_ {n} \ cdot E = A ^ {\ operatorname {tr}} \ cdot E,}

onde é o elemento cujo componente i é e _i (em outras palavras é a base e ₁ , ..., e _n de V escrita como uma coluna de vetores). Escrevendo esta equação como ${\ displaystyle E \ in V ^ {n}}$

{\ displaystyle (\ varphi I_ {n} -A ^ {\ operatorname {tr}}) \ cdot E = 0 \ in V ^ {n}}

reconhece-se a transposta da matriz considerada acima, e seu determinante (como elemento de M ( n , R [ φ ])) também é p ( φ ). Para derivar desta equação que p ( φ ) = 0 ∈ End ( V ), multiplica-se à esquerda pela matriz adjugada de , que é definida no anel da matriz M ( n , R [ φ ]), dando ${\ displaystyle \ varphi I_ {n} -A}$ ${\ displaystyle \ varphi I_ {n} -A ^ {\ operatorname {tr}}}$

{\ displaystyle {\ begin {alinhados} 0 & = \ operatorname {adj} (\ varphi I_ {n} -A ^ {\ operatorname {tr}}) \ cdot ((\ varphi I_ {n} -A ^ {\ operatorname {tr}}) \ cdot E) \\ & = (\ operatorname {adj} (\ varphi I_ {n} -A ^ {\ operatorname {tr}}) \ cdot (\ varphi I_ {n} -A ^ { \ operatorname {tr}})) \ cdot E \\ & = (\ det (\ varphi I_ {n} -A ^ {\ operatorname {tr}}) I_ {n}) \ cdot E \\ & = (p (\ varphi) I_ {n}) \ cdot E; \ end {alinhado}}}

a associatividade da multiplicação matriz-matriz e matriz-vetor usada na primeira etapa é uma propriedade puramente formal dessas operações, independente da natureza das entradas. Agora o componente i desta equação diz que p ( φ ) ( e _i ) = 0 ∈ V ; assim, p ( φ ) desaparece em todos e _i , e como esses elementos geram V , segue-se que p ( φ ) = 0 ∈ Fim ( V ), completando a prova.

Um fato adicional que segue dessa prova é que a matriz A cujo polinômio característico é considerado não precisa ser idêntica ao valor φ substituído naquele polinômio; basta que φ seja um endomorfismo de V satisfazendo as equações iniciais

{\ displaystyle \ varphi (e_ {i}) = \ sum _ {j} A_ {j, i} e_ {j}}

para alguma sequência de elementos e ₁ , ..., e _n que geram V (cujo espaço pode ter dimensão menor que n , ou caso o anel R não seja um campo, pode não ser um módulo livre ).

Uma "prova" falsa: p ( A ) = det ( AI _n - A ) = det ( A - A ) = 0

Um argumento persistente elementar, mas incorreto para o teorema é "simplesmente" tomar a definição

{\ displaystyle p (\ lambda) = \ det (\ lambda I_ {n} -A)}

e substitua $A$ por $λ$ , obtendo

{\ displaystyle p (A) = \ det (AI_ {n} -A) = \ det (AA) = 0 ~.}

Existem muitas maneiras de ver por que esse argumento está errado. Primeiro, no teorema de Cayley-Hamilton, p ( A ) é uma matriz n × n . No entanto, o lado direito da equação acima é o valor de um determinante, que é um escalar . Portanto, eles não podem ser equacionados a menos que n = 1 (ou seja, A é apenas um escalar). Em segundo lugar, na expressão , a variável λ realmente ocorre nas entradas diagonais da matriz . Para ilustrar, considere o polinômio característico no exemplo anterior novamente: ${\ displaystyle \ det (\ lambda I_ {n} -A)}$ ${\ displaystyle \ lambda I_ {n} -A}$

{\ displaystyle \ det {\ begin {pmatrix} \ lambda -1 & -2 \\ - 3 & \ lambda -4 \ end {pmatrix}}.}

Se alguém substituir toda a matriz A por λ nessas posições, obtém-se

{\ displaystyle \ det {\ begin {pmatrix} {\ begin {pmatrix} 1 e 2 \\ 3 & 4 \ end {pmatrix}} - 1 e -2 \\ - 3 & {\ begin {pmatrix} 1 e 2 \\ 3 & 4 \ end {pmatrix} } -4 \ end {pmatrix}},}

em que a expressão "matriz" simplesmente não é válida. Observe, no entanto, que se múltiplos escalares de matrizes de identidade em vez de escalares forem subtraídos acima, ou seja, se a substituição for realizada como

{\ displaystyle \ det {\ begin {pmatrix} {\ begin {pmatrix} 1 & 2 \\ 3 & 4 \ end {pmatrix}} - I_ {2} & - 2I_ {2} \\ - 3I_ {2} & {\ begin { pmatriz} 1 e 2 \\ 3 e 4 \ end {pmatriz}} - 4I_ {2} \ end {pmatriz}},}

então o determinante é de fato zero, mas a matriz expandida em questão não avalia como ; nem pode seu determinante (um escalar) ser comparado a p ( A ) (uma matriz). Portanto, o argumento que ainda não se aplica. ${\ displaystyle AI_ {n} -A}$ ${\ displaystyle p (A) = \ det (AI_ {n} -A) = 0}$

Na verdade, se tal argumento for válido, ele também deve ser válido quando outras formas multilineares em vez de determinante forem usadas. Por exemplo, se considerarmos a função permanente e definirmos , então pelo mesmo argumento, devemos ser capazes de "provar" que q ( A ) = 0. Mas esta afirmação está comprovadamente errada. No caso bidimensional, por exemplo, a permanente de uma matriz é dada por ${\ displaystyle q (\ lambda) = \ operatorname {perm} (\ lambda I_ {n} -A)}$

{\ displaystyle \ operatorname {perm} {\ begin {pmatrix} a & b \\ c & d \ end {pmatrix}} = ad + bc.}

Então, para a matriz A no exemplo anterior,

{\ displaystyle {\ begin {alinhados} q (\ lambda) & = \ operatorname {perm} (\ lambda I_ {2} -A) = \ operatorname {perm} {\ begin {pmatrix} \ lambda -1 & -2 \ \ -3 & \ lambda -4 \ end {pmatrix}} \\ [6pt] & = (\ lambda -1) (\ lambda -4) + (- 2) (- 3) = \ lambda ^ {2} -5 \ lambda +10. \ end {alinhado}}}

No entanto, pode-se verificar que

{\ displaystyle q (A) = A ^ {2} -5A + 10I_ {2} = 12I_ {2} \ not = 0.}

Uma das provas para o teorema de Cayley-Hamilton acima tem alguma semelhança com o argumento de que . Ao introduzir uma matriz com coeficientes não numéricos, pode-se realmente deixar A viver dentro de uma entrada de matriz, mas então não é igual a A , e a conclusão é alcançada de forma diferente. ${\ displaystyle p (A) = \ det (AI_ {n} -A) = 0}$ ${\ displaystyle AI_ {n}}$

Provas usando métodos de álgebra abstrata

Propriedades básicas das derivações de Hasse-Schmidt na álgebra exterior de algum módulo B M (supostamente livre e de classificação finita) foram usadas por Gatto & Salehyan (2016 , §4) para provar o teorema de Cayley-Hamilton. Veja também Gatto & Scherbak (2015) . ${\ displaystyle A = \ bigwedge M}$

Abstração e generalizações

As provas acima mostram que o teorema de Cayley-Hamilton vale para matrizes com entradas em qualquer anel comutativo R , e que p ( φ ) = 0 valerá sempre que φ for um endomorfismo de um módulo R gerado pelos elementos e ₁ , ..., e _n que satisfaz

{\ displaystyle \ varphi (e_ {j}) = \ sum a_ {ij} e_ {i}, \ qquad j = 1, \ ldots, n.}

Esta versão mais geral do teorema é a fonte do célebre lema de Nakayama em álgebra comutativa e geometria algébrica.

Veja também

Matriz companheira

Observações

Notas

Referências

Alagös, Y .; Oral, K .; Yüce, S. (2012). "Dividir matrizes de quatérnio" . Miskolc Mathematical Notes . 13 (2): 223–232. doi : 10.18514 / MMN.2012.364 . ISSN 1787-2405 (acesso livre)
Atiyah, MF ; MacDonald, IG (1969), Introduction to Commutative Algebra , Westview Press, ISBN 978-0-201-40751-8
Barut, AO ; Zeni, JR; Laufer, A. (1994a). "O mapa exponencial para o grupo conforme O (2,4)". J. Phys. R: Matemática. Gen . 27 (15): 5239–5250. arXiv : hep-th / 9408105 . Bibcode : 1994JPhA ... 27.5239B . doi : 10.1088 / 0305-4470 / 27/15/022 .
Barut, AO ; Zeni, JR; Laufer, A. (1994b). "O mapa exponencial para o grupo unitário SU (2,2)". J. Phys. R: Matemática. Gen . 27 (20): 6799–6806. arXiv : hep-th / 9408145 . Bibcode : 1994JPhA ... 27.6799B . doi : 10.1088 / 0305-4470 / 27/20/017 . S2CID 16495633 .
Bhatia, R. (1997). Análise de matriz . Textos de graduação em matemática. 169 . Springer. ISBN 978-0387948461.
Brown, Lowell S. (1994). Teoria Quântica de Campos . Cambridge University Press . ISBN 978-0-521-46946-3.
Cayley, A. (1858). "Uma memória sobre a teoria das matrizes". Philos. Trans . 148 .
Cayley, A. (1889). The Collected Mathematical Papers of Arthur Cayley . (Reimpressão Clássica). 2 . Livros esquecidos. ASIN B008HUED9O .
Crilly, T. (1998). "O jovem Arthur Cayley". Notas Rec. R. Soc. Lond . 52 (2): 267–282. doi : 10.1098 / rsnr.1998.0050 . S2CID 146669911 .
Curtright, TL ; Fairlie, DB ; Zachos, CK (2014). "Uma fórmula compacta para rotações como polinômios de matriz de spin". SIGMA . 10 (2014): 084. arXiv : 1402.3541 . Bibcode : 2014SIGMA..10..084C . doi : 10.3842 / SIGMA.2014.084 . S2CID 18776942 .
Frobenius, G. (1878). "Ueber lineare Substutionen und bilineare Formen". J. Reine Angew. Matemática . 1878 (84): 1–63. doi : 10.1515 / crll.1878.84.1 .
Gantmacher, FR (1960). A Teoria das Matrizes . NY: Chelsea Publishing. ISBN 978-0-8218-1376-8.
Gatto, Letterio; Salehyan, Parham (2016), Hasse – Schmidt derivations on Grassmann algebras , Springer, doi : 10.1007 / 978-3-319-31842-4 , ISBN 978-3-319-31842-4, MR 3524604
Gatto, Letterio; Scherbak, Inna (2015), Remarks on the Cayley-Hamilton Theorem , arXiv : 1510.03022
Garrett, Paul B. (2007). Álgebra abstrata . NY: Chapman e Hall / CRC. ISBN 978-1584886891.
Hamilton, WR (1853). Palestras sobre Quaternions . Dublin.
Hamilton, WR (1864a). "Sobre um método novo e geral de inversão de uma função linear e de quatérnio de um quatérnio". Proceedings of the Royal Irish Academy . viii : 182–183. (comunicado em 9 de junho de 1862)
Hamilton, WR (1864b). “Sobre a existência de uma equação simbólica e biquadrática, que é satisfeita pelo símbolo de operação linear em quatérnios”. Proceedings of the Royal Irish Academy . viii : 190–101. (comunicado em 23 de junho de 1862)
Hou, SH (1998). "Nota de sala de aula: uma prova simples do algoritmo polinomial característico de Leverrier - Faddeev". Revisão do SIAM . 40 (3): 706–709. Bibcode : 1998SIAMR..40..706H . doi : 10.1137 / S003614459732076X . "Nota de sala de aula: uma prova simples do algoritmo polinomial característico de Leverrier - Faddeev"
Hamilton, WR (1862). "Sobre a existência de uma equação simbólica e biquadrática que é satisfeita pelo símbolo de operação linear ou distributiva em um quatérnio" . The London, Edinburgh e Dublin Philosophical Magazine and Journal of Science . série iv . 24 : 127–128. ISSN 1478-6435 . Página visitada em 2014-02-14 .
Householder, Alston S. (2006). A Teoria das Matrizes em Análise Numérica . Dover Books on Mathematics. ISBN 978-0486449722.
Laufer, A. (1997). "O mapa exponencial de GL (N)". J. Phys. R: Matemática. Gen . 30 (15): 5455–5470. arXiv : hep-th / 9604049 . Bibcode : 1997JPhA ... 30.5455L . doi : 10.1088 / 0305-4470 / 30/15/029 . S2CID 10699434 .
Tian, Y. (2000). "Representações matriciais de octonions e sua aplicação". Advances in Applied Clifford Algebras . 10 (1): 61–90. arXiv : math / 0003166 . CiteSeerX 10.1.1.237.2217 . doi : 10.1007 / BF03042010 . ISSN 0188-7009 . S2CID 14465054 .
Zeni, JR; Rodrigues, WA (1992). "Um estudo cuidadoso das transformações de Lorentz por álgebras de Clifford". Int. J. Mod. Phys. Um . 7 (8): 1793 pp. Bibcode : 1992IJMPA ... 7.1793Z . doi : 10.1142 / S0217751X92000776 .
Zhang, F. (1997). "Quaternions e matrices of quaternions" . Álgebra Linear e suas aplicações . 251 : 21–57. doi : 10.1016 / 0024-3795 (95) 00543-9 . ISSN 0024-3795 (Arquivo aberto).

links externos

"Teorema de Cayley-Hamilton" , Encyclopedia of Mathematics , EMS Press , 2001 [1994]
Uma prova do PlanetMath.
O teorema de Cayley-Hamilton em MathPages

Languages

In other projects

Teorema de Cayley-Hamilton - Cayley–Hamilton theorem

Conteúdo

Exemplos

Matrizes $1 \times 1$

Matrizes $2 \times 2$

Formulários

Matriz determinante e inversa

n poder -ésimo de matriz

Funções de matriz

Teoria dos números algébricos

Provas

Preliminares

Matrizes de adjugado

Uma prova algébrica direta

Uma prova usando polinômios com coeficientes de matriz

Uma síntese das duas primeiras provas

Uma prova usando matrizes de endomorfismos

Uma "prova" falsa: p ( A ) = det ( AI _n - A ) = det ( A - A ) = 0

Provas usando métodos de álgebra abstrata

Abstração e generalizações

Veja também

Observações

Notas

Referências

links externos

Languages

In other projects

Teorema de Cayley-Hamilton - Cayley–Hamilton theorem

Exemplos

Matrizes 1 × 1

Matrizes 2 × 2

Formulários

Matriz determinante e inversa

n poder -ésimo de matriz

Funções de matriz

Teoria dos números algébricos

Provas

Preliminares

Matrizes de adjugado

Uma prova algébrica direta

Uma prova usando polinômios com coeficientes de matriz

Uma síntese das duas primeiras provas

Uma prova usando matrizes de endomorfismos

Uma "prova" falsa: p ( A ) = det ( AI n - A ) = det ( A - A ) = 0

Provas usando métodos de álgebra abstrata

Abstração e generalizações

Veja também

Observações

Notas

Referências

links externos

Matrizes $1 \times 1$

Matrizes $2 \times 2$

Uma "prova" falsa: p ( A ) = det ( AI _n - A ) = det ( A - A ) = 0