Estimativa de matrizes de covariância - Estimation of covariance matrices

Em estatística , às vezes a matriz de covariância de uma variável aleatória multivariada não é conhecida, mas deve ser estimada . A estimativa de matrizes de covariância trata então da questão de como aproximar a matriz de covariância real com base em uma amostra da distribuição multivariada . Casos simples, onde as observações são completas, podem ser tratados usando a matriz de covariância de amostra . A matriz de covariância de amostra (SCM) é um estimador não enviesado e eficiente da matriz de covariância se o espaço das matrizes de covariância for visto como um cone convexo extrínseco em R p × p ; no entanto, medido usando a geometria intrínseca de matrizes definidas positivas , o SCM é um estimador enviesado e ineficiente. Além disso, se a variável aleatória tem distribuição normal , a matriz de covariância da amostra tem distribuição de Wishart e uma versão em escala ligeiramente diferente dela é a estimativa de máxima verossimilhança . Casos envolvendo dados perdidos requerem considerações mais profundas. Outra questão é a robustez para outliers , para os quais as matrizes de covariância de amostra são altamente sensíveis.

As análises estatísticas de dados multivariados frequentemente envolvem estudos exploratórios da maneira como as variáveis ​​mudam em relação umas às outras e isso pode ser seguido por modelos estatísticos explícitos envolvendo a matriz de covariância das variáveis. Assim, a estimativa de matrizes de covariância diretamente a partir de dados observacionais desempenha dois papéis:

  • fornecer estimativas iniciais que podem ser usadas para estudar as inter-relações;
  • para fornecer estimativas de amostra que podem ser usadas para verificação de modelo.

Estimativas de matrizes de covariância são necessárias nos estágios iniciais da análise de componentes principais e análise fatorial , e também estão envolvidas em versões de análise de regressão que tratam as variáveis ​​dependentes em um conjunto de dados, juntamente com a variável independente como o resultado de uma amostra aleatória .

Estimativa em um contexto geral

Dada uma amostra que consiste em n observações independentes x 1 , ..., x n de um vetor aleatório p- dimensional XR p × 1 (a p × 1 vetor coluna), um estimador imparcial do ( p × p ) matriz de covariância

é a matriz de covariância de amostra

onde é a i -ésima observação do vetor aleatório p- dimensional, e o vetor

é a média da amostra . Isso é verdade independentemente da distribuição da variável aleatória X , contanto, é claro, que os meios teóricos e as covariâncias existam. A razão para o fator n  - 1 em vez de n é essencialmente a mesma que a razão para o mesmo fator aparecer em estimativas não enviesadas de variâncias e covariâncias amostrais , que se relacionam ao fato de que a média não é conhecida e é substituída pela amostra significa (ver a correção de Bessel ).

Nos casos em que se sabe que a distribuição da variável aleatória X está dentro de uma certa família de distribuições, outras estimativas podem ser derivadas com base nessa suposição. Uma instância bem conhecida é quando a variável aleatória X é normalmente distribuída : neste caso, o estimador de máxima verossimilhança da matriz de covariância é ligeiramente diferente da estimativa não enviesada e é dado por

Uma derivação desse resultado é fornecida abaixo. Claramente, a diferença entre o estimador não enviesado e o estimador de máxima verossimilhança diminui para n grande .

No caso geral, a estimativa não enviesada da matriz de covariância fornece uma estimativa aceitável quando os vetores de dados no conjunto de dados observado estão todos completos: ou seja, eles não contêm elementos ausentes . Uma abordagem para estimar a matriz de covariância é tratar a estimativa de cada variância ou covariância par a par separadamente e usar todas as observações para as quais ambas as variáveis ​​têm valores válidos. Assumindo que os dados faltantes estão faltando aleatoriamente, isso resulta em uma estimativa para a matriz de covariância que é imparcial. No entanto, para muitas aplicações, esta estimativa pode não ser aceitável porque a matriz de covariância estimada não é garantida como semidefinida positiva. Isso pode levar a correlações estimadas com valores absolutos maiores do que um e / ou uma matriz de covariância não invertível.

Ao estimar a covariância cruzada de um par de sinais estacionários de sentido amplo , as amostras ausentes não precisam ser aleatórias (por exemplo, a subamostragem por um fator arbitrário é válida).

Estimativa de máxima verossimilhança para a distribuição normal multivariada

Um vetor aleatório XR p (a p × 1 "vetor coluna") tem uma distribuição normal multivariada com uma matriz de covariância não singular Σ precisamente se Σ ∈ R p × p é uma matriz definida positiva e a função de densidade de probabilidade de X é

onde uR p × 1 é o valor esperado de x . A matriz de covariância Σ é o análogo multidimensional do que em uma dimensão seria a variância , e

normaliza a densidade para que se integre a 1.

Suponha agora que X 1 , ..., X n são amostras independentes e distribuídas de forma idêntica da distribuição acima. Com base nos valores observados x 1 , ..., x n desta amostra , desejamos estimar Σ.

Primeiros passos

A função de verossimilhança é:

É bastante facilmente mostrado que a estimativa de máxima verossimilhança do vetor médio μ é o vetor " média da amostra ":

Consulte a seção sobre estimativa no artigo sobre distribuição normal para obter detalhes; o processo aqui é semelhante.

Uma vez que a estimativa não depende de Σ, podemos apenas substituí-la por μ na função de verossimilhança , obtendo

e então busque o valor de Σ que maximize a probabilidade dos dados (na prática é mais fácil trabalhar com log  ).

O traço de uma matriz 1 × 1

Agora chegamos ao primeiro passo surpreendente: considere o escalar como o traço de uma matriz 1 × 1. Isso torna possível usar a identidade tr ( AB ) = tr ( BA ) sempre que A e B são matrizes formadas de modo que ambos os produtos existam. Nós temos

Onde

às vezes é chamada de matriz de dispersão e é definida positivamente se existir um subconjunto dos dados consistindo em observações afinamente independentes (o que iremos supor).

Usando o teorema espectral

Segue-se do teorema espectral da álgebra linear que uma matriz simétrica positiva-definida S tem uma única raiz quadrada simétrica positiva-definida S 1/2 . Podemos novamente usar a "propriedade cíclica" do traço para escrever

Seja B = S 1/2 Σ −1 S 1/2 . Então a expressão acima se torna

A matriz positiva-definida B pode ser diagonalizada, e então o problema de encontrar o valor de B que maximiza

Como o traço de uma matriz quadrada é igual à soma dos autovalores ( "traço e autovalores" ), a equação se reduz ao problema de encontrar os autovalores λ 1 , ..., λ p que maximizam

Este é apenas um problema de cálculo e obtemos λ i = n para todo i. Assim, suponha que Q é a matriz de vetores próprios, então

ou seja, n vezes o p × p matriz identidade.

Passos finais

Finalmente conseguimos

ou seja, o p × p "matriz de covariância de amostra"

é o estimador de máxima verossimilhança da "matriz de covariância populacional" Σ. Neste ponto, estamos usando um X maiúsculo em vez de um x minúsculo porque o estamos pensando "como um estimador e não como uma estimativa", isto é, como algo aleatório cuja distribuição de probabilidade poderíamos lucrar sabendo. Pode-se mostrar que a matriz aleatória S tem uma distribuição de Wishart com n - 1 graus de liberdade. Isso é:

Derivação alternativa

Uma derivação alternativa do estimador de máxima verossimilhança pode ser realizada por meio de fórmulas de cálculo de matriz (ver também diferencial de um determinante e diferencial da matriz inversa ). Verifica também o fato mencionado sobre a estimativa de máxima verossimilhança da média. Reescreva a probabilidade no formulário de registro usando o truque de rastreamento:

O diferencial dessa probabilidade logarítmica é

Naturalmente, ele se divide na parte relacionada à estimativa da média e na parte relacionada à estimativa da variância. A condição de primeira ordem para máximo ,, é satisfeita quando os termos se multiplicam e são idênticos a zero. Supondo que (a estimativa de máxima verossimilhança de) não seja singular, a condição de primeira ordem para a estimativa do vetor médio é

o que leva ao estimador de máxima verossimilhança

Isso nos permite simplificar

conforme definido acima. Em seguida, os termos que envolvem em podem ser combinados como

A condição de primeira ordem será mantida quando o termo entre colchetes for (com valor de matriz) zero. A pré-multiplicação do último por e a divisão por dá

que naturalmente coincide com a derivação canônica dada anteriormente.

Dwyer aponta que a decomposição em dois termos, como aparece acima, é "desnecessária" e deriva o estimador em duas linhas de trabalho. Observe que pode não ser trivial mostrar que tal estimador derivado é o único maximizador global para a função de verossimilhança.

Estimativa da matriz de covariância intrínseca

Expectativa intrínseca

Dada uma amostra de n observações independentes x 1 , ..., x n de uma variável aleatória Gaussiana de média zero p- dimensional X com covariância R , o estimador de máxima verossimilhança de R é dado por

O parâmetro pertence ao conjunto de matrizes definidas-positivas , que é uma variedade Riemanniana , não um espaço vetorial , portanto, as noções usuais de espaço vetorial de expectativa , ou seja, " ", e o viés do estimador deve ser generalizado para variedades para dar sentido ao problema de estimação da matriz de covariância. Isso pode ser feito definindo a expectativa de um estimador de valor múltiplo em relação ao ponto de valor múltiplo como

Onde

são o mapa exponencial e o mapa exponencial inverso, respectivamente, "exp" e "log" denotam a matriz exponencial comum e o logaritmo da matriz , e E [·] é o operador de expectativa comum definido em um espaço vetorial, neste caso o espaço tangente de o múltiplo.

Viés da matriz de covariância da amostra

O campo vetorial de polarização intrínseca do estimador SCM é definido para ser

A tendência intrínseca do estimador é então dada por .

Para variáveis ​​aleatórias gaussianas complexas , este campo de vetor de polarização pode ser mostrado como igual

Onde

e ψ (·) é a função digamma . A tendência intrínseca da matriz de covariância da amostra é igual a

e o SCM é assintoticamente imparcial como n → ∞.

Da mesma forma, a ineficiência intrínseca da matriz de covariância da amostra depende da curvatura Riemanniana do espaço de matrizes definidas positivas.

Estimativa de encolhimento

Se o tamanho da amostra n for pequeno e o número de variáveis ​​consideradas p for grande, os estimadores empíricos de covariância e correlação acima são muito instáveis. Especificamente, é possível fornecer estimadores que melhoram consideravelmente na estimativa de máxima verossimilhança em termos de erro quadrático médio. Além disso, para n  <  p (o número de observações é menor que o número de variáveis ​​aleatórias), a estimativa empírica da matriz de covariância torna-se singular , ou seja, não pode ser invertida para calcular a matriz de precisão .

Como alternativa, vários métodos têm sido sugeridos para melhorar a estimativa da matriz de covariância. Todas essas abordagens baseiam-se no conceito de encolhimento. Isso está implícito nos métodos bayesianos e nos métodos de máxima verossimilhança penalizados e explícito na abordagem de encolhimento do tipo Stein .

Uma versão simples de um estimador de contração da matriz de covariância é representada pelo estimador de contração de Ledoit-Wolf. Considera-se uma combinação convexa do estimador empírico ( ) com algum alvo escolhido adequado ( ), por exemplo, a matriz diagonal. Subsequentemente, o parâmetro de mistura ( ) é selecionado para maximizar a precisão esperada do estimador encolhido. Isso pode ser feito por validação cruzada ou usando uma estimativa analítica da intensidade de encolhimento. O estimador regularizado resultante ( ) pode ser mostrado para superar o estimador de máxima verossimilhança para pequenas amostras. Para grandes amostras, a intensidade de contração será reduzida a zero, portanto, neste caso, o estimador de contração será idêntico ao estimador empírico. Além de aumentar a eficiência, a estimativa de encolhimento tem a vantagem adicional de ser sempre positiva e bem condicionada.

Vários alvos de redução foram propostos:

  1. a matriz de identidade , escalonada pela variância média da amostra ;
  2. o modelo de índice único ;
  3. o modelo de correlação constante, em que as variâncias da amostra são preservadas, mas todos os coeficientes de correlação de pares são considerados iguais entre si;
  4. a matriz de dois parâmetros, onde todas as variâncias são idênticas e todas as covariâncias são idênticas umas às outras (embora não idênticas às variâncias);
  5. a matriz diagonal contendo as variações da amostra na diagonal e zeros em todas as outras partes;
  6. a matriz de identidade .

O estimador de encolhimento pode ser generalizado para um estimador de encolhimento de múltiplos alvos que utiliza vários alvos simultaneamente. O software para calcular um estimador de redução de covariância está disponível em R (packages corpcor e ShrinkCovMat ), em Python (biblioteca scikit-learn ) e em MATLAB .

Veja também

Referências

  1. ^ a b c Smith, Steven Thomas (maio de 2005). "Covariância, subespaço e limites intrínsecos de Cramér – Rao" . IEEE Trans. Processo de sinal . 53 (5): 1610–1630. doi : 10.1109 / TSP.2005.845428 . S2CID  2751194 .
  2. ^ Estatísticas robustas , Peter J. Huber , Wiley, 1981 (republicado em brochura, 2004)
  3. ^ "Modern apply statistics with S", William N. Venables , Brian D. Ripley , Springer, 2002, ISBN  0-387-95457-0 , ISBN  978-0-387-95457-8 , página 336
  4. ^ Devlin, Susan J .; Gnanadesikan, R .; Kettenring, JR (1975). "Estimativa robusta e detecção de outlier com coeficientes de correlação". Biometrika . 62 (3): 531–545. doi : 10.1093 / biomet / 62.3.531 .
  5. ^ KV Mardia , JT Kent e JM Bibby (1979) Multivariate Analysis , Academic Press .
  6. ^ Dwyer, Paul S. (junho de 1967). "Algumas aplicações de derivados de matriz em análise multivariada". Journal of the American Statistical Association . 62 (318): 607–625. doi : 10.2307 / 2283988 . JSTOR  2283988 .
  7. ^ O. Ledoit e M. Wolf (2004a) " Um estimador bem condicionado para matrizes de covariância de grande dimensão Archived 2014-12-05 at the Wayback Machine " Journal of Multivariate Analysis 88 (2): 365-411.
  8. ^ a b A. Touloumis (2015) " Estimadores de matriz de covariância de encolhimento não paramétrico de Stein-type em configurações de alta dimensão " Computational Statistics & Data Analysis 83 : 251-261.
  9. ^ O. Ledoit e M. Wolf (2003) " Estimativa melhorada da matriz de covariância dos retornos das ações com uma aplicação à seleção de portofólio Archived 2014-12-05 at the Wayback Machine " Journal of Empirical Finance 10 (5): 603-621 .
  10. ^ O. Ledoit e M. Wolf (2004b) " Querida, encolhi a matriz de covariância da amostra Archived 2014-12-05 at the Wayback Machine " The Journal of Portfolio Management 30 (4): 110-119.
  11. ^ T. Lancewicki e M. Aladjem (2014) " Multi-Target Shrinkage Estimation for Covariance Matrices ", IEEE Transactions on Signal Processing , Volume: 62, Issue 24, pages: 6380-6390.
  12. ^ corpcor: Estimativa eficiente de covariância e correlação (parcial) , CRAN
  13. ^ ShrinkCovMat: Estimadores da matriz de covariância do encolhimento , CRAN
  14. ^ MATLAB código para alvos de encolhimento: identidade dimensionado , modelo-índice único , modelo constante-correlação , matriz de dois parâmetros , e matriz diagonal .