Quantidade Pivotal - Pivotal quantity

Em estatística , uma quantidade ou pivô pivô é uma função de observações e parâmetros não observáveis de forma que a distribuição de probabilidade da função não dependa dos parâmetros desconhecidos (incluindo parâmetros incômodos ). Uma quantidade pivô não precisa ser uma estatística - a função e seu valor podem depender dos parâmetros do modelo, mas sua distribuição não. Se for uma estatística, é conhecida como estatística auxiliar .

Mais formalmente, seja uma amostra aleatória de uma distribuição que depende de um parâmetro (ou vetor de parâmetros) . Let Ser uma variável aleatória cuja distribuição é a mesma para todos . Então, é chamado de quantidade pivô (ou simplesmente pivô ). ${\ displaystyle X = (X_ {1}, X_ {2}, \ ldots, X_ {n})}$ ${\ displaystyle \ theta}$ ${\ displaystyle g (X, \ theta)}$ ${\ displaystyle \ theta}$ ${\ displaystyle g}$

Quantidades centrais são comumente usadas para normalização para permitir que dados de diferentes conjuntos de dados sejam comparados. É relativamente fácil construir pivôs para os parâmetros de localização e escala: para o primeiro formamos diferenças de modo que a localização se cancela, para os últimos proporções para que a escala se cancele.

Quantidades pivotais são fundamentais para a construção de estatísticas de teste , pois permitem que a estatística não dependa de parâmetros - por exemplo, a estatística t de Student é para uma distribuição normal com variância (e média) desconhecidas. Eles também fornecem um método de construção de intervalos de confiança , e o uso de quantidades essenciais melhora o desempenho do bootstrap . Na forma de estatísticas auxiliares, eles podem ser usados para construir intervalos de predição frequentistas (intervalos de confiança preditivos).

Exemplos

Distribuição normal

Uma das grandezas centrais mais simples é o z-score ; dada uma distribuição normal com média e variância , e uma observação x, o z-score: ${\ displaystyle \ mu}$ ${\ displaystyle \ sigma ^ {2}}$

{\ displaystyle z = {\ frac {x- \ mu} {\ sigma}},}

tem distribuição - uma distribuição normal com média 0 e variância 1. Da mesma forma, uma vez que a média da amostra n tem distribuição amostral, o escore z da média ${\ displaystyle N (0,1)}$ ${\ displaystyle N (\ mu, \ sigma ^ {2} / n),}$

{\ displaystyle z = {\ frac {{\ overline {X}} - \ mu} {\ sigma / {\ sqrt {n}}}}}

também tem distribuição Observe que, embora essas funções dependam dos parâmetros - e, portanto, só se pode computá-los se os parâmetros forem conhecidos (eles não são estatísticas) - a distribuição é independente dos parâmetros. ${\ displaystyle N (0,1).}$

Dadas observações independentes e distribuídas de forma idêntica (iid) da distribuição normal com média e variância desconhecidas , uma quantidade central pode ser obtida a partir da função: ${\ displaystyle n}$ ${\ displaystyle X = (X_ {1}, X_ {2}, \ ldots, X_ {n})}$ ${\ displaystyle \ mu}$ ${\ displaystyle \ sigma ^ {2}}$

{\ displaystyle g (x, X) = {\ frac {x - {\ overline {X}}} {s / {\ sqrt {n}}}}}

Onde

{\ displaystyle {\ overline {X}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} {X_ {i}}}

e

{\ displaystyle s ^ {2} = {\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} {(X_ {i} - {\ overline {X}}) ^ { 2}}}

são estimativas imparciais de e , respectivamente. A função é a estatística t de Student para um novo valor , a ser obtido da mesma população que o conjunto de valores já observado . ${\ displaystyle \ mu}$ ${\ displaystyle \ sigma ^ {2}}$ ${\ displaystyle g (x, X)}$ ${\ displaystyle x}$ ${\ displaystyle X}$

O uso da função torna-se uma quantidade central, que também é distribuída pela distribuição t de Student com graus de liberdade. Conforme necessário, embora apareça como um argumento para a função , a distribuição de não depende dos parâmetros ou da distribuição de probabilidade normal que governa as observações . ${\ displaystyle x = \ mu}$ ${\ displaystyle g (\ mu, X)}$ ${\ displaystyle \ nu = n-1}$ ${\ displaystyle \ mu}$ ${\ displaystyle g}$ ${\ displaystyle g (\ mu, X)}$ ${\ displaystyle \ mu}$ ${\ displaystyle \ sigma}$ ${\ displaystyle X_ {1}, \ ldots, X_ {n}}$

Isso pode ser usado para calcular um intervalo de predição para a próxima observação, consulte Intervalo de predição: Distribuição normal . ${\ displaystyle X_ {n + 1};}$

Distribuição normal bivariada

Em casos mais complicados, é impossível construir pivôs exatos. No entanto, ter pivôs aproximados melhora a convergência para a normalidade assintótica .

Suponha que uma amostra de tamanho de vetores seja retirada de uma distribuição normal bivariada com correlação desconhecida . ${\ displaystyle n}$ ${\ displaystyle (X_ {i}, Y_ {i}) '}$ ${\ displaystyle \ rho}$

Um estimador de é a correlação da amostra (Pearson, momento) ${\ displaystyle \ rho}$

{\ displaystyle r = {\ frac {{\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) (Y_ { i} - {\ overline {Y}})} {s_ {X} s_ {Y}}}}

onde estão as variações de amostra de e . A estatística de amostra tem uma distribuição assintoticamente normal: ${\ displaystyle s_ {X} ^ {2}, s_ {Y} ^ {2}}$ ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle r}$

{\ displaystyle {\ sqrt {n}} {\ frac {r- \ rho} {1- \ rho ^ {2}}} \ Rightarrow N (0,1)}

.

No entanto, uma transformação de estabilização de variância

{\ displaystyle z = {\ rm {{tanh} ^ {- 1} r = {\ frac {1} {2}} \ ln {\ frac {1 + r} {1-r}}}}}

conhecida como transformação z de Fisher do coeficiente de correlação, permite criar a distribuição de parâmetros assintoticamente independentes de desconhecidos: ${\ displaystyle z}$

{\ displaystyle {\ sqrt {n}} (z- \ zeta) \ Rightarrow N (0,1)}

onde é o parâmetro de distribuição correspondente. Para tamanhos de amostra finitos , a variável aleatória terá distribuição mais próxima do normal do que de . Uma aproximação ainda mais próxima da distribuição normal padrão é obtida usando uma melhor aproximação para a variância exata: a forma usual é ${\ displaystyle \ zeta = {\ rm {tanh}} ^ {- 1} \ rho}$ ${\ displaystyle n}$ ${\ displaystyle z}$ ${\ displaystyle r}$

{\ displaystyle \ operatorname {Var} (z) \ approx {\ frac {1} {n-3}}.}

Robustez

Do ponto de vista de estatísticas robustas , as quantidades pivotais são robustas a mudanças nos parâmetros - na verdade, independentes dos parâmetros - mas não em geral robustas a mudanças no modelo, como violações do pressuposto de normalidade. Isso é fundamental para a crítica robusta de estatísticas não robustas, muitas vezes derivadas de quantidades essenciais: tais estatísticas podem ser robustas dentro da família, mas não são robustas fora dela.

Veja também

Normalização (estatísticas)

Languages

In other projects