Estimativa de matrizes de covariância - Estimation of covariance matrices
Em estatística , às vezes a matriz de covariância de uma variável aleatória multivariada não é conhecida, mas deve ser estimada . A estimativa de matrizes de covariância trata então da questão de como aproximar a matriz de covariância real com base em uma amostra da distribuição multivariada . Casos simples, onde as observações são completas, podem ser tratados usando a matriz de covariância de amostra . A matriz de covariância de amostra (SCM) é um estimador não enviesado e eficiente da matriz de covariância se o espaço das matrizes de covariância for visto como um cone convexo extrínseco em R p × p ; no entanto, medido usando a geometria intrínseca de matrizes definidas positivas , o SCM é um estimador enviesado e ineficiente. Além disso, se a variável aleatória tem distribuição normal , a matriz de covariância da amostra tem distribuição de Wishart e uma versão em escala ligeiramente diferente dela é a estimativa de máxima verossimilhança . Casos envolvendo dados perdidos requerem considerações mais profundas. Outra questão é a robustez para outliers , para os quais as matrizes de covariância de amostra são altamente sensíveis.
As análises estatísticas de dados multivariados frequentemente envolvem estudos exploratórios da maneira como as variáveis mudam em relação umas às outras e isso pode ser seguido por modelos estatísticos explícitos envolvendo a matriz de covariância das variáveis. Assim, a estimativa de matrizes de covariância diretamente a partir de dados observacionais desempenha dois papéis:
- fornecer estimativas iniciais que podem ser usadas para estudar as inter-relações;
- para fornecer estimativas de amostra que podem ser usadas para verificação de modelo.
Estimativas de matrizes de covariância são necessárias nos estágios iniciais da análise de componentes principais e análise fatorial , e também estão envolvidas em versões de análise de regressão que tratam as variáveis dependentes em um conjunto de dados, juntamente com a variável independente como o resultado de uma amostra aleatória .
Estimativa em um contexto geral
Dada uma amostra que consiste em n observações independentes x 1 , ..., x n de um vetor aleatório p- dimensional X ∈ R p × 1 (a p × 1 vetor coluna), um estimador imparcial do ( p × p ) matriz de covariância
é a matriz de covariância de amostra
onde é a i -ésima observação do vetor aleatório p- dimensional, e o vetor
é a média da amostra . Isso é verdade independentemente da distribuição da variável aleatória X , contanto, é claro, que os meios teóricos e as covariâncias existam. A razão para o fator n - 1 em vez de n é essencialmente a mesma que a razão para o mesmo fator aparecer em estimativas não enviesadas de variâncias e covariâncias amostrais , que se relacionam ao fato de que a média não é conhecida e é substituída pela amostra significa (ver a correção de Bessel ).
Nos casos em que se sabe que a distribuição da variável aleatória X está dentro de uma certa família de distribuições, outras estimativas podem ser derivadas com base nessa suposição. Uma instância bem conhecida é quando a variável aleatória X é normalmente distribuída : neste caso, o estimador de máxima verossimilhança da matriz de covariância é ligeiramente diferente da estimativa não enviesada e é dado por
Uma derivação desse resultado é fornecida abaixo. Claramente, a diferença entre o estimador não enviesado e o estimador de máxima verossimilhança diminui para n grande .
No caso geral, a estimativa não enviesada da matriz de covariância fornece uma estimativa aceitável quando os vetores de dados no conjunto de dados observado estão todos completos: ou seja, eles não contêm elementos ausentes . Uma abordagem para estimar a matriz de covariância é tratar a estimativa de cada variância ou covariância par a par separadamente e usar todas as observações para as quais ambas as variáveis têm valores válidos. Assumindo que os dados faltantes estão faltando aleatoriamente, isso resulta em uma estimativa para a matriz de covariância que é imparcial. No entanto, para muitas aplicações, esta estimativa pode não ser aceitável porque a matriz de covariância estimada não é garantida como semidefinida positiva. Isso pode levar a correlações estimadas com valores absolutos maiores do que um e / ou uma matriz de covariância não invertível.
Ao estimar a covariância cruzada de um par de sinais estacionários de sentido amplo , as amostras ausentes não precisam ser aleatórias (por exemplo, a subamostragem por um fator arbitrário é válida).
Estimativa de máxima verossimilhança para a distribuição normal multivariada
Um vetor aleatório X ∈ R p (a p × 1 "vetor coluna") tem uma distribuição normal multivariada com uma matriz de covariância não singular Σ precisamente se Σ ∈ R p × p é uma matriz definida positiva e a função de densidade de probabilidade de X é
onde u ∈ R p × 1 é o valor esperado de x . A matriz de covariância Σ é o análogo multidimensional do que em uma dimensão seria a variância , e
normaliza a densidade para que se integre a 1.
Suponha agora que X 1 , ..., X n são amostras independentes e distribuídas de forma idêntica da distribuição acima. Com base nos valores observados x 1 , ..., x n desta amostra , desejamos estimar Σ.
Primeiros passos
A função de verossimilhança é:
É bastante facilmente mostrado que a estimativa de máxima verossimilhança do vetor médio μ é o vetor " média da amostra ":
Consulte a seção sobre estimativa no artigo sobre distribuição normal para obter detalhes; o processo aqui é semelhante.
Uma vez que a estimativa não depende de Σ, podemos apenas substituí-la por μ na função de verossimilhança , obtendo
e então busque o valor de Σ que maximize a probabilidade dos dados (na prática é mais fácil trabalhar com log ).
O traço de uma matriz 1 × 1
Agora chegamos ao primeiro passo surpreendente: considere o escalar como o traço de uma matriz 1 × 1. Isso torna possível usar a identidade tr ( AB ) = tr ( BA ) sempre que A e B são matrizes formadas de modo que ambos os produtos existam. Nós temos
Onde
às vezes é chamada de matriz de dispersão e é definida positivamente se existir um subconjunto dos dados consistindo em observações afinamente independentes (o que iremos supor).
Usando o teorema espectral
Segue-se do teorema espectral da álgebra linear que uma matriz simétrica positiva-definida S tem uma única raiz quadrada simétrica positiva-definida S 1/2 . Podemos novamente usar a "propriedade cíclica" do traço para escrever
Seja B = S 1/2 Σ −1 S 1/2 . Então a expressão acima se torna
A matriz positiva-definida B pode ser diagonalizada, e então o problema de encontrar o valor de B que maximiza
Como o traço de uma matriz quadrada é igual à soma dos autovalores ( "traço e autovalores" ), a equação se reduz ao problema de encontrar os autovalores λ 1 , ..., λ p que maximizam
Este é apenas um problema de cálculo e obtemos λ i = n para todo i. Assim, suponha que Q é a matriz de vetores próprios, então
ou seja, n vezes o p × p matriz identidade.
Passos finais
Finalmente conseguimos
ou seja, o p × p "matriz de covariância de amostra"
é o estimador de máxima verossimilhança da "matriz de covariância populacional" Σ. Neste ponto, estamos usando um X maiúsculo em vez de um x minúsculo porque o estamos pensando "como um estimador e não como uma estimativa", isto é, como algo aleatório cuja distribuição de probabilidade poderíamos lucrar sabendo. Pode-se mostrar que a matriz aleatória S tem uma distribuição de Wishart com n - 1 graus de liberdade. Isso é:
Derivação alternativa
Uma derivação alternativa do estimador de máxima verossimilhança pode ser realizada por meio de fórmulas de cálculo de matriz (ver também diferencial de um determinante e diferencial da matriz inversa ). Verifica também o fato mencionado sobre a estimativa de máxima verossimilhança da média. Reescreva a probabilidade no formulário de registro usando o truque de rastreamento:
O diferencial dessa probabilidade logarítmica é
Naturalmente, ele se divide na parte relacionada à estimativa da média e na parte relacionada à estimativa da variância. A condição de primeira ordem para máximo ,, é satisfeita quando os termos se multiplicam e são idênticos a zero. Supondo que (a estimativa de máxima verossimilhança de) não seja singular, a condição de primeira ordem para a estimativa do vetor médio é
o que leva ao estimador de máxima verossimilhança
Isso nos permite simplificar
conforme definido acima. Em seguida, os termos que envolvem em podem ser combinados como
A condição de primeira ordem será mantida quando o termo entre colchetes for (com valor de matriz) zero. A pré-multiplicação do último por e a divisão por dá
que naturalmente coincide com a derivação canônica dada anteriormente.
Dwyer aponta que a decomposição em dois termos, como aparece acima, é "desnecessária" e deriva o estimador em duas linhas de trabalho. Observe que pode não ser trivial mostrar que tal estimador derivado é o único maximizador global para a função de verossimilhança.
Estimativa da matriz de covariância intrínseca
Expectativa intrínseca
Dada uma amostra de n observações independentes x 1 , ..., x n de uma variável aleatória Gaussiana de média zero p- dimensional X com covariância R , o estimador de máxima verossimilhança de R é dado por
O parâmetro pertence ao conjunto de matrizes definidas-positivas , que é uma variedade Riemanniana , não um espaço vetorial , portanto, as noções usuais de espaço vetorial de expectativa , ou seja, " ", e o viés do estimador deve ser generalizado para variedades para dar sentido ao problema de estimação da matriz de covariância. Isso pode ser feito definindo a expectativa de um estimador de valor múltiplo em relação ao ponto de valor múltiplo como
Onde
são o mapa exponencial e o mapa exponencial inverso, respectivamente, "exp" e "log" denotam a matriz exponencial comum e o logaritmo da matriz , e E [·] é o operador de expectativa comum definido em um espaço vetorial, neste caso o espaço tangente de o múltiplo.
Viés da matriz de covariância da amostra
O campo vetorial de polarização intrínseca do estimador SCM é definido para ser
A tendência intrínseca do estimador é então dada por .
Para variáveis aleatórias gaussianas complexas , este campo de vetor de polarização pode ser mostrado como igual
Onde
e ψ (·) é a função digamma . A tendência intrínseca da matriz de covariância da amostra é igual a
e o SCM é assintoticamente imparcial como n → ∞.
Da mesma forma, a ineficiência intrínseca da matriz de covariância da amostra depende da curvatura Riemanniana do espaço de matrizes definidas positivas.
Estimativa de encolhimento
Se o tamanho da amostra n for pequeno e o número de variáveis consideradas p for grande, os estimadores empíricos de covariância e correlação acima são muito instáveis. Especificamente, é possível fornecer estimadores que melhoram consideravelmente na estimativa de máxima verossimilhança em termos de erro quadrático médio. Além disso, para n < p (o número de observações é menor que o número de variáveis aleatórias), a estimativa empírica da matriz de covariância torna-se singular , ou seja, não pode ser invertida para calcular a matriz de precisão .
Como alternativa, vários métodos têm sido sugeridos para melhorar a estimativa da matriz de covariância. Todas essas abordagens baseiam-se no conceito de encolhimento. Isso está implícito nos métodos bayesianos e nos métodos de máxima verossimilhança penalizados e explícito na abordagem de encolhimento do tipo Stein .
Uma versão simples de um estimador de contração da matriz de covariância é representada pelo estimador de contração de Ledoit-Wolf. Considera-se uma combinação convexa do estimador empírico ( ) com algum alvo escolhido adequado ( ), por exemplo, a matriz diagonal. Subsequentemente, o parâmetro de mistura ( ) é selecionado para maximizar a precisão esperada do estimador encolhido. Isso pode ser feito por validação cruzada ou usando uma estimativa analítica da intensidade de encolhimento. O estimador regularizado resultante ( ) pode ser mostrado para superar o estimador de máxima verossimilhança para pequenas amostras. Para grandes amostras, a intensidade de contração será reduzida a zero, portanto, neste caso, o estimador de contração será idêntico ao estimador empírico. Além de aumentar a eficiência, a estimativa de encolhimento tem a vantagem adicional de ser sempre positiva e bem condicionada.
Vários alvos de redução foram propostos:
- a matriz de identidade , escalonada pela variância média da amostra ;
- o modelo de índice único ;
- o modelo de correlação constante, em que as variâncias da amostra são preservadas, mas todos os coeficientes de correlação de pares são considerados iguais entre si;
- a matriz de dois parâmetros, onde todas as variâncias são idênticas e todas as covariâncias são idênticas umas às outras (embora não idênticas às variâncias);
- a matriz diagonal contendo as variações da amostra na diagonal e zeros em todas as outras partes;
- a matriz de identidade .
O estimador de encolhimento pode ser generalizado para um estimador de encolhimento de múltiplos alvos que utiliza vários alvos simultaneamente. O software para calcular um estimador de redução de covariância está disponível em R (packages corpcor e ShrinkCovMat ), em Python (biblioteca scikit-learn ) e em MATLAB .
Veja também
Referências
- ^ a b c Smith, Steven Thomas (maio de 2005). "Covariância, subespaço e limites intrínsecos de Cramér – Rao" . IEEE Trans. Processo de sinal . 53 (5): 1610–1630. doi : 10.1109 / TSP.2005.845428 . S2CID 2751194 .
- ^ Estatísticas robustas , Peter J. Huber , Wiley, 1981 (republicado em brochura, 2004)
- ^ "Modern apply statistics with S", William N. Venables , Brian D. Ripley , Springer, 2002, ISBN 0-387-95457-0 , ISBN 978-0-387-95457-8 , página 336
- ^ Devlin, Susan J .; Gnanadesikan, R .; Kettenring, JR (1975). "Estimativa robusta e detecção de outlier com coeficientes de correlação". Biometrika . 62 (3): 531–545. doi : 10.1093 / biomet / 62.3.531 .
- ^ KV Mardia , JT Kent e JM Bibby (1979) Multivariate Analysis , Academic Press .
- ^ Dwyer, Paul S. (junho de 1967). "Algumas aplicações de derivados de matriz em análise multivariada". Journal of the American Statistical Association . 62 (318): 607–625. doi : 10.2307 / 2283988 . JSTOR 2283988 .
- ^ O. Ledoit e M. Wolf (2004a) " Um estimador bem condicionado para matrizes de covariância de grande dimensão Archived 2014-12-05 at the Wayback Machine " Journal of Multivariate Analysis 88 (2): 365-411.
- ^ a b A. Touloumis (2015) " Estimadores de matriz de covariância de encolhimento não paramétrico de Stein-type em configurações de alta dimensão " Computational Statistics & Data Analysis 83 : 251-261.
- ^ O. Ledoit e M. Wolf (2003) " Estimativa melhorada da matriz de covariância dos retornos das ações com uma aplicação à seleção de portofólio Archived 2014-12-05 at the Wayback Machine " Journal of Empirical Finance 10 (5): 603-621 .
- ^ O. Ledoit e M. Wolf (2004b) " Querida, encolhi a matriz de covariância da amostra Archived 2014-12-05 at the Wayback Machine " The Journal of Portfolio Management 30 (4): 110-119.
- ^ T. Lancewicki e M. Aladjem (2014) " Multi-Target Shrinkage Estimation for Covariance Matrices ", IEEE Transactions on Signal Processing , Volume: 62, Issue 24, pages: 6380-6390.
- ^ corpcor: Estimativa eficiente de covariância e correlação (parcial) , CRAN
- ^ ShrinkCovMat: Estimadores da matriz de covariância do encolhimento , CRAN
- ^ MATLAB código para alvos de encolhimento: identidade dimensionado , modelo-índice único , modelo constante-correlação , matriz de dois parâmetros , e matriz diagonal .