Distribuição qui-quadrado - Chi-squared distribution

qui-quadrado
Função densidade de probabilidade
Chi-quadrado pdf.svg
Função de distribuição cumulativa
Chi-quadrado cdf.svg
Notação ou
Parâmetros (conhecido como "graus de liberdade")
Apoio, suporte se , caso contrário
PDF
CDF
Quer dizer
Mediana
Modo
Variância
Skewness
Ex. curtose
Entropia
MGF
CF
PGF

Em teoria da probabilidade e estatística , a distribuição qui-quadrado (também qui-quadrado ou χ 2 -Distribuição ) com k graus de liberdade é a distribuição de uma soma dos quadrados dos k independentes normais padrão variáveis aleatórias. A distribuição qui-quadrada é um caso especial da distribuição gama e é uma das distribuições de probabilidade mais amplamente utilizadas em estatística inferencial , principalmente em testes de hipóteses e na construção de intervalos de confiança . Essa distribuição é às vezes chamada de distribuição qui-quadrado central , um caso especial da distribuição qui-quadrada não central mais geral .

A distribuição qui-quadrado é usada nos testes qui-quadrado comuns para adequação de uma distribuição observada a uma teórica, a independência de dois critérios de classificação de dados qualitativos e na estimativa de intervalo de confiança para um desvio padrão populacional de um distribuição normal de um desvio padrão da amostra. Muitos outros testes estatísticos também usam essa distribuição, como a análise de variância por classificação de Friedman .

Definições

Se Z 1 , ..., Z k são independentes , variáveis ​​aleatórias normais padrão , então a soma de seus quadrados,

é distribuído de acordo com a distribuição qui-quadrado com k graus de liberdade. Isso geralmente é denotado como

A distribuição qui-quadrada tem um parâmetro: um inteiro positivo k que especifica o número de graus de liberdade (o número de variáveis ​​aleatórias sendo somadas, Z i s).

Introdução

A distribuição qui-quadrada é usada principalmente em testes de hipóteses e, em menor grau, para intervalos de confiança para variância populacional quando a distribuição subjacente é normal. Ao contrário das distribuições mais amplamente conhecidas, como a distribuição normal e a distribuição exponencial , a distribuição qui-quadrada não é tão frequentemente aplicada na modelagem direta de fenômenos naturais. Surge nos seguintes testes de hipóteses, entre outros:

É também um componente da definição da distribuição t e a distribuição-F utilizado em testes de t, análises de variância, e a análise de regressão.

O principal motivo pelo qual a distribuição qui-quadrado é amplamente usada em testes de hipóteses é sua relação com a distribuição normal. Muitos testes de hipótese usam uma estatística de teste, como a estatística t em um teste t. Para esses testes de hipótese, conforme o tamanho da amostra, n, aumenta, a distribuição amostral da estatística de teste se aproxima da distribuição normal ( teorema do limite central ). Como a estatística de teste (como t) é normalmente distribuída assintoticamente, desde que o tamanho da amostra seja suficientemente grande, a distribuição usada para o teste de hipótese pode ser aproximada por uma distribuição normal. Testar hipóteses usando uma distribuição normal é bem compreendido e relativamente fácil. A distribuição qui-quadrada mais simples é o quadrado de uma distribuição normal padrão. Portanto, sempre que uma distribuição normal pudesse ser usada para um teste de hipótese, uma distribuição qui-quadrada poderia ser usada.

Suponha-se que é uma variável aleatória amostrado a partir da distribuição normal padrão, em que a média é e a variância é : . Agora, considere a variável aleatória . A distribuição da variável aleatória é um exemplo de distribuição qui-quadrado: O subscrito 1 indica que esta distribuição qui-quadrada particular é construída a partir de apenas 1 distribuição normal padrão. Diz-se que uma distribuição qui-quadrada construída ao elevar ao quadrado uma única distribuição normal padrão tem 1 grau de liberdade. Assim, à medida que o tamanho da amostra para um teste de hipótese aumenta, a distribuição da estatística de teste se aproxima de uma distribuição normal. Assim como os valores extremos da distribuição normal têm baixa probabilidade (e fornecem pequenos valores de p), os valores extremos da distribuição qui-quadrado têm baixa probabilidade.

Uma razão adicional pela qual a distribuição qui-quadrado é amplamente usada é que ela aparece como uma grande distribuição de amostra de testes de razão de verossimilhança generalizada (LRT). Os LRTs têm várias propriedades desejáveis; em particular, os LRTs simples geralmente fornecem o maior poder para rejeitar a hipótese nula ( lema de Neyman-Pearson ) e isso também leva a propriedades de otimalidade de LRTs generalizados. No entanto, as aproximações normal e qui-quadrado são válidas apenas assintoticamente. Por esse motivo, é preferível usar a distribuição t em vez da aproximação normal ou a aproximação qui-quadrado para um tamanho de amostra pequeno. Da mesma forma, em análises de tabelas de contingência, a aproximação do qui-quadrado será ruim para um tamanho de amostra pequeno e é preferível usar o teste exato de Fisher . Ramsey mostra que o teste binomial exato é sempre mais poderoso do que a aproximação normal.

Lancaster mostra as conexões entre as distribuições binomial, normal e qui-quadrado, como segue. De Moivre e Laplace estabeleceram que uma distribuição binomial poderia ser aproximada por uma distribuição normal. Especificamente, eles mostraram a normalidade assintótica da variável aleatória

onde é o número observado de sucessos nas tentativas, onde é a probabilidade de sucesso , e .

O quadrado de ambos os lados da equação dá

Usando , e , esta equação pode ser reescrita como

A expressão à direita tem a forma que Karl Pearson generalizaria para a forma

Onde

= Estatística de teste cumulativa de Pearson, que assintoticamente se aproxima de uma distribuição.
= o número de observações do tipo .
= a frequência esperada (teórica) do tipo , afirmada pela hipótese nula de que a fração do tipo na população é
= o número de células da tabela.

No caso de um resultado binomial (jogar uma moeda), a distribuição binomial pode ser aproximada por uma distribuição normal (para suficientemente grande ). Como o quadrado de uma distribuição normal padrão é a distribuição qui-quadrado com um grau de liberdade, a probabilidade de um resultado como 1 cara em 10 tentativas pode ser aproximada usando a distribuição normal diretamente ou a distribuição qui-quadrada para a diferença quadrada normalizada entre o valor observado e o valor esperado. No entanto, muitos problemas envolvem mais do que os dois resultados possíveis de um binomial e, em vez disso, requerem 3 ou mais categorias, o que leva à distribuição multinomial. Assim como de Moivre e Laplace buscaram e encontraram a aproximação normal para o binomial, Pearson buscou e encontrou uma aproximação normal multivariada degenerada para a distribuição multinomial (os números em cada categoria somam-se ao tamanho total da amostra, que é considerada fixa) . Pearson mostrou que a distribuição qui-quadrado surgiu de tal aproximação normal multivariada para a distribuição multinomial, levando em consideração a dependência estatística (correlações negativas) entre o número de observações em diferentes categorias.

Função densidade de probabilidade

A função de densidade de probabilidade (pdf) da distribuição qui-quadrada é

onde denota a função gama , que possui valores de forma fechada para inteiro .

Para obter as derivações do pdf nos casos de um, dois e graus de liberdade, consulte Provas relacionadas à distribuição qui-quadrado .

Função de distribuição cumulativa

Chernoff limitado para o CDF e cauda (1-CDF) de uma variável aleatória qui-quadrado com dez graus de liberdade ( = 10)

Sua função de distribuição cumulativa é:

onde é a função gama incompleta inferior e é a função gama regularizada .

Em um caso especial de = 2, esta função tem a forma simples:

que pode ser facilmente derivado integrando-se diretamente. A recorrência de inteiro da função gama torna mais fácil computar para outros pequenos, pares .

As tabelas da função de distribuição cumulativa qui-quadrado estão amplamente disponíveis e a função está incluída em muitas planilhas e em todos os pacotes estatísticos .

Letting , limites de Chernoff nas caudas inferior e superior do CDF podem ser obtidos. Para os casos em que (que incluem todos os casos em que este CDF é inferior à metade):

A cauda limitada para os casos quando , da mesma forma, é

Para obter outra aproximação para o CDF modelado a partir do cubo de um Gaussiano, consulte Distribuição qui-quadrado não central .

Propriedades

Soma dos quadrados de variáveis ​​aleatórias normais independentes e distribuídas de forma idêntica menos sua média

Se Z 1 , ..., Z k são independentes distribuídas de forma idêntica (iid), variáveis ​​aleatórias normais padrão , então

Onde

Aditividade

Conclui-se da definição da distribuição qui-quadrado que a soma das variáveis ​​qui-quadradas independentes também é distribuída qui-quadrado. Especificamente, se são variáveis independentes qui-quadrado com , graus de liberdade, respectivamente, em seguida, é qui-quadrado distribuído com graus de liberdade.

Média da amostra

A média da amostra de variáveis ​​de grau iid qui-quadrado é distribuída de acordo com uma distribuição gama com parâmetros de forma e escala :

Assintoticamente , dado que para um parâmetro de escala indo para o infinito, uma distribuição Gama converge para uma distribuição normal com expectativa e variância , a média da amostra converge para:

Observe que teríamos obtido o mesmo resultado invocando o teorema do limite central , observando que para cada variável qui-quadrada de grau a expectativa é , e sua variância (e, portanto, a variância do ser médio da amostra ).

Entropia

A entropia diferencial é dada por

onde ψ ( x ) é a função Digamma .

A distribuição qui-quadrada é a distribuição de probabilidade máxima de entropia para uma variável aleatória para a qual e são fixos. Uma vez que o qui-quadrado está na família das distribuições gama, isso pode ser derivado substituindo os valores apropriados na Expectativa do momento logarítmico da gama . Para derivação de princípios mais básicos, veja a derivação na função geradora de momento da estatística suficiente .

Momentos não centrais

Os momentos cerca de zero de uma distribuição qui-quadrado com graus de liberdade são dados por

Cumulantes

Os cumulantes são facilmente obtidos por uma expansão (formal) da série de potências do logaritmo da função característica:

Concentração

A distribuição qui-quadrada exibe forte concentração em torno de sua média. Os limites padrão de Laurent-Massart são:

Propriedades assintóticas

Fórmula aproximada para mediana (da transformação de Wilson – Hilferty) em comparação com quantil numérico (topo); e a diferença (azul) e a diferença relativa (vermelho) entre o quantil numérico e a fórmula aproximada (parte inferior). Para a distribuição qui-quadrada, apenas os números inteiros positivos de graus de liberdade (círculos) são significativos.

Pelo teorema do limite central , como a distribuição qui-quadrada é a soma de variáveis ​​aleatórias independentes com média e variância finitas, ela converge para uma distribuição normal para grande . Para muitos propósitos práticos, pois a distribuição é suficientemente próxima de uma distribuição normal para que a diferença seja ignorada. Especificamente, se , então, como tende para o infinito, a distribuição de tende para uma distribuição normal padrão. No entanto, a convergência é lenta como a assimetria é eo excesso de curtose é .

A distribuição de amostragem de converge para a normalidade muito mais rápido do que a distribuição de amostragem de , pois o logaritmo remove grande parte da assimetria. Outras funções da distribuição qui-quadrado convergem mais rapidamente para uma distribuição normal. Alguns exemplos são:

  • Se então é aproximadamente normalmente distribuído com média e variância unitária (1922, por RA Fisher , ver (18.23), p. 426 de Johnson.
  • Se então é aproximadamente normalmente distribuído com média e variância Isso é conhecido como a transformação de Wilson-Hilferty, consulte (18.24), p. 426 de Johnson.
    • Essa transformação de normalização leva diretamente à aproximação da mediana comumente usada por retrotransformação a partir da média, que também é a mediana, da distribuição normal.

Distribuições relacionadas

  • Como , ( distribuição normal )
  • ( distribuição não central qui-quadrado com parâmetro de não centralidade )
  • Se então tem a distribuição qui-quadrada
  • Como um caso especial, se então tem a distribuição qui-quadrada
  • (A norma quadrada de k variáveis ​​normalmente distribuídas padrão é uma distribuição qui-quadrada com k graus de liberdade )
  • Se e , então . ( distribuição gama )
  • Se então ( distribuição chi )
  • Se , então é uma distribuição exponencial . (Veja a distribuição gama para mais.)
  • Se , então é uma distribuição Erlang .
  • Se então
  • Se ( distribuição de Rayleigh ), então
  • Se ( distribuição de Maxwell ), então
  • Se então ( distribuição inversa do qui-quadrado )
  • A distribuição qui-quadrada é um caso especial de distribuição de Pearson do tipo III
  • Se e forem independentes, então ( distribuição beta )
  • Se ( distribuição uniforme ), então
  • Se então
  • Se segue a distribuição normal generalizada (versão 1) com parâmetros, então
  • distribuição qui-quadrado é uma transformação da distribuição de Pareto
  • A distribuição t de Student é uma transformação da distribuição qui-quadrado
  • A distribuição t de Student pode ser obtida a partir da distribuição qui-quadrado e distribuição normal
  • A distribuição beta não central pode ser obtida como uma transformação da distribuição qui-quadrado e distribuição não central qui-quadrado
  • A distribuição t não central pode ser obtida a partir da distribuição normal e distribuição qui-quadrado

Uma variável qui-quadrada com graus de liberdade é definida como a soma dos quadrados de variáveis ​​aleatórias normais padrão independentes .

Se é um vetor aleatório Gaussiano dimensional com vetor médio e matriz de covariância de classificação , então o qui-quadrado é distribuído com graus de liberdade.

A soma dos quadrados das variáveis ​​gaussianas de variância unitária estatisticamente independentes que não têm média zero produz uma generalização da distribuição qui-quadrada chamada distribuição qui-quadrada não central .

Se for um vetor de variáveis ​​aleatórias normais padrão iid e for uma matriz simétrica e idempotente com classificação , então a forma quadrática é qui-quadrado distribuída com graus de liberdade.

Se é uma matriz de covariância semidefinida positiva com entradas diagonais estritamente positivas, então para e um vetor aleatório independente de tal que e mantém que

A distribuição qui-quadrada também está naturalmente relacionada a outras distribuições decorrentes da gaussiana. Em particular,

  • tem distribuição F , se , onde e são estatisticamente independentes.
  • Se e forem estatisticamente independentes, então . Se e não forem independentes, então não há distribuição de qui-quadrado.

Generalizações

A distribuição qui-quadrada é obtida como a soma dos quadrados de k variáveis ​​aleatórias gaussianas independentes, com média zero e variância unitária. Generalizações dessa distribuição podem ser obtidas somando os quadrados de outros tipos de variáveis ​​aleatórias gaussianas. Várias dessas distribuições são descritas abaixo.

Combinação linear

Se são variáveis ​​aleatórias qui-quadrado e , então uma expressão fechada para a distribuição de não é conhecida. Pode ser, entretanto, aproximado eficientemente usando a propriedade de funções características de variáveis ​​aleatórias qui-quadrado.

Distribuições de qui-quadrado

Distribuição não central do qui-quadrado

A distribuição não central do qui-quadrado é obtida da soma dos quadrados das variáveis ​​aleatórias gaussianas independentes com variância unitária e médias diferentes de zero .

Distribuição qui-quadrada generalizada

A distribuição qui-quadrada generalizada é obtida da forma quadrática z′Az onde z é um vetor gaussiano de média zero com uma matriz de covariância arbitrária e A é uma matriz arbitrária.

Distribuições gama, exponencial e relacionadas

A distribuição qui-quadrada é um caso especial da distribuição gama , em que usa a parametrização de taxa da distribuição gama (ou usando a parametrização de escala da distribuição gama) onde k é um número inteiro.

Como a distribuição exponencial também é um caso especial da distribuição gama, também temos que se , então, é uma distribuição exponencial .

A distribuição Erlang também é um caso especial da distribuição gama e, portanto, também temos que, se for par , então é Erlang distribuída com o parâmetro de forma e o parâmetro de escala .

Ocorrência e aplicações

A distribuição qui-quadrado tem inúmeras aplicações em estatística inferencial , por exemplo, em testes qui-quadrado e na estimativa de variâncias . Ele entra no problema de estimar a média de uma população normalmente distribuída e no problema de estimar a inclinação de uma linha de regressão por meio de seu papel na distribuição t de Student . Ele entra em todos os problemas de análise de variância por meio de seu papel na distribuição F , que é a distribuição da razão de duas variáveis ​​aleatórias qui-quadradas independentes , cada uma dividida por seus respectivos graus de liberdade.

A seguir estão algumas das situações mais comuns em que a distribuição qui-quadrada surge de uma amostra distribuída por Gauss.

  • se forem variáveis aleatórias iid , então onde .
  • A caixa abaixo mostra algumas estatísticas baseadas em variáveis ​​aleatórias independentes que têm distribuições de probabilidade relacionadas à distribuição qui-quadrada:
Nome Estatística
distribuição qui-quadrada
distribuição não central do qui-quadrado
distribuição de chi
distribuição não central de chi

A distribuição do qui-quadrado também é freqüentemente encontrada em imagens de ressonância magnética .

Métodos computacionais

Tabela de χ 2 valores vs p -Valores

O valor p é a probabilidade de observar uma estatística de teste pelo menos tão extrema em uma distribuição qui-quadrada. Consequentemente, uma vez que a função de distribuição cumulativa (CDF) para os graus de liberdade apropriados (df) dá a probabilidade de ter obtido um valor menos extremo do que este ponto, subtrair o valor CDF de 1 dá o valor p . Um valor de p baixo , abaixo do nível de significância escolhido, indica significância estatística , ou seja, evidência suficiente para rejeitar a hipótese nula. Um nível de significância de 0,05 é frequentemente usado como ponto de corte entre resultados significativos e não significativos.

A tabela abaixo fornece vários valores p correspondentes aos primeiros 10 graus de liberdade.

Graus de liberdade (df) valor
1 0,004 0,02 0,06 0,15 0,46 1.07 1,64 2,71 3,84 6,63 10,83
2 0,10 0,21 0,45 0,71 1,39 2,41 3,22 4,61 5,99 9,21 13,82
3 0,35 0,58 1.01 1,42 2,37 3,66 4,64 6,25 7,81 11,34 16,27
4 0,71 1.06 1,65 2,20 3,36 4,88 5,99 7,78 9,49 13,28 18,47
5 1,14 1,61 2,34 3,00 4,35 6,06 7,29 9,24 11,07 15.09 20,52
6 1,63 2,20 3,07 3,83 5,35 7,23 8,56 10,64 12,59 16,81 22,46
7 2,17 2,83 3,82 4,67 6,35 8,38 9,80 12,02 14,07 18,48 24,32
8 2,73 3,49 4,59 5,53 7,34 9,52 11,03 13,36 15,51 20,09 26,12
9 3,32 4,17 5,38 6,39 8,34 10,66 12,24 14,68 16,92 21,67 27,88
10 3,94 4,87 6,18 7,27 9,34 11,78 13,44 15,99 18,31 23,21 29,59
valor p (probabilidade) 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,01 0,001

Esses valores podem ser calculados avaliando a função quantílica (também conhecida como “CDF inverso” ou “ICDF”) da distribuição qui-quadrada; por exemplo, o χ 2 ICDF para p = 0,05 e df = 7 resulta em 2,1673 ≈ 2,17 como na tabela acima, observando que 1 - p é o p- valor da tabela.

História

Essa distribuição foi descrita pela primeira vez pelo estatístico alemão Friedrich Robert Helmert em artigos de 1875-6, onde ele calculou a distribuição amostral da variância da amostra de uma população normal. Assim, em alemão, era tradicionalmente conhecido como Helmert'sche ("Helmertian") ou "distribuição Helmert".

A distribuição foi redescoberta de forma independente pelo matemático inglês Karl Pearson no contexto de goodness of fit , para o qual ele desenvolveu seu teste qui-quadrado de Pearson , publicado em 1900, com tabela computada de valores publicada em ( Elderton 1902 ), coletada em ( Pearson 1914 , pp. Xxxi-xxxiii, 26-28, Tabela XII) . O nome "qui-quadrado", em última análise, deriva da abreviação de Pearson para o expoente em uma distribuição normal multivariada com a letra grega Chi , escrevendo −½χ 2 para o que apareceria na notação moderna como −½ x T Σ −1 x (Σ sendo o matriz de covariância ). A ideia de uma família de "distribuições qui-quadrado", entretanto, não é devida a Pearson, mas surgiu como um desenvolvimento posterior devido a Fisher na década de 1920.

Veja também

Referências

Leitura adicional

links externos