Estatística do pedido - Order statistic

Funções de densidade de probabilidade das estatísticas de ordem para uma amostra de tamanho n  = 5 de uma distribuição exponencial com parâmetro de escala unitária

Em estatísticas , o k th ordem estatística de uma amostra estatística é igual ao seu k th-menor valor. Junto com as estatísticas de classificação, as estatísticas de ordem estão entre as ferramentas mais fundamentais em estatísticas não paramétricas e inferência .

Casos especiais importantes das estatísticas de pedido são os valores mínimo e máximo de uma amostra e (com algumas qualificações discutidas abaixo) a mediana da amostra e outros quantis da amostra .

Ao usar a teoria da probabilidade para analisar estatísticas de ordem de amostras aleatórias de uma distribuição contínua , a função de distribuição cumulativa é usada para reduzir a análise ao caso de estatísticas de ordem da distribuição uniforme .

Notação e exemplos

Por exemplo, suponha que quatro números sejam observados ou registrados, resultando em uma amostra de tamanho 4. Se os valores da amostra forem

6, 9, 3, 8,

as estatísticas do pedido seriam denotadas

onde o subscrito ( i ) entre parênteses indica a estatística de ordem i da amostra.

A estatística de primeira ordem (ou estatística de menor pedido ) é sempre o mínimo da amostra, ou seja,

onde, seguindo uma convenção comum, usamos letras maiúsculas para se referir a variáveis ​​aleatórias e letras minúsculas (como acima) para se referir aos seus valores reais observados.

Da mesma forma, para uma amostra de tamanho n , a n th ordem estatística (ou maior ordem estatística ) é o máximo , que é,

O intervalo de amostra é a diferença entre o máximo e o mínimo. É uma função das estatísticas do pedido:

Uma estatística importante semelhante na análise de dados exploratória que está simplesmente relacionada às estatísticas de ordem é o intervalo interquartil da amostra .

A mediana da amostra pode ou não ser uma estatística de ordem, uma vez que existe um único valor médio apenas quando o número n de observações é ímpar . Mais precisamente, se n = 2 m +1 para algum inteiro m , então a mediana da amostra é e, portanto, é uma estatística de ordem. Por outro lado, quando n é mesmo , n = 2 m e há dois valores médios, e , e a mediana da amostra é alguma função dos dois (geralmente a média) e, portanto, não uma ordem estatística. Observações semelhantes se aplicam a todos os quantis de amostra.

Análise probabilística

Dadas quaisquer variáveis ​​aleatórias X 1 , X 2 ..., X n , as estatísticas de ordem X (1) , X (2) , ..., X ( n ) também são variáveis ​​aleatórias, definidas pela classificação dos valores ( realizações ) de X 1 , ..., X n em ordem crescente.

Quando as variáveis ​​aleatórias X 1 , X 2 ..., X n formam uma amostra, elas são independentes e distribuídas de forma idêntica . Este é o caso tratado a seguir. Em geral, as variáveis ​​aleatórias X 1 , ..., X n podem surgir por amostragem de mais de uma população. Então, eles são independentes , mas não necessariamente distribuídos de forma idêntica, e sua distribuição de probabilidade conjunta é dada pelo teorema de Bapat-Beg .

A partir de agora, assumiremos que as variáveis ​​aleatórias em consideração são contínuas e, quando for conveniente, também assumiremos que elas possuem uma função de densidade de probabilidade (PDF), ou seja, são absolutamente contínuas . As peculiaridades da análise de distribuições atribuindo massa a pontos (em particular, distribuições discretas ) são discutidas no final.

Função de distribuição cumulativa de estatísticas de pedidos

Para uma amostra aleatória como acima, com distribuição cumulativa , as estatísticas de pedido para essa amostra têm distribuições cumulativas da seguinte forma (onde r especifica qual estatística de pedido):

a função de densidade de probabilidade correspondente pode ser derivada deste resultado, e é considerada

.

Além disso, existem dois casos especiais, que possuem CDFs fáceis de calcular.

Que pode ser derivada pela consideração cuidadosa das probabilidades.

Distribuições de probabilidade de estatísticas de pedidos

Estatísticas de pedidos com amostra de uma distribuição uniforme

Nesta seção, mostramos que as estatísticas de ordem da distribuição uniforme no intervalo unitário têm distribuições marginais pertencentes à família de distribuições Beta . Também fornecemos um método simples para derivar a distribuição conjunta de qualquer número de estatísticas de ordem e, finalmente, traduzir esses resultados em distribuições contínuas arbitrárias usando o cdf .

Assumimos ao longo desta seção que é uma amostra aleatória retirada de uma distribuição contínua com cdf . Denotando , obtemos a amostra aleatória correspondente da distribuição uniforme padrão . Observe que as estatísticas do pedido também satisfazem .

A função de densidade de probabilidade da estatística de pedido é igual a

ou seja, a estatística de ordem k da distribuição uniforme é uma variável aleatória distribuída beta .

A prova dessas declarações é a seguinte. Para estar entre u e u  +  du , é necessário que exatamente k  - 1 elementos da amostra sejam menores que u , e que pelo menos um esteja entre u e u  + d u . A probabilidade de que mais de um esteja neste último intervalo já é , então temos que calcular a probabilidade de que exatamente k  - 1, 1 e n  -  k observações caiam nos intervalos , e respectivamente. Isso é igual (consulte a distribuição multinomial para obter detalhes)

e o resultado segue.

A média dessa distribuição é k / ( n + 1).

A distribuição conjunta das estatísticas de ordem da distribuição uniforme

Da mesma forma, para i  <  j , a função de densidade de probabilidade conjunta das estatísticas de duas ordens U ( i )  <  U ( j ) pode ser mostrada como

o qual é (-se com os termos de ordem superior ) a probabilidade de que i  - 1, 1, J  - 1 -  i , 1 e n  -  j elementos de amostras cair nos intervalos , , , , respectivamente.

Raciocina-se de maneira inteiramente análoga para derivar as distribuições conjuntas de ordem superior. Talvez surpreendentemente, a densidade conjunta das estatísticas de ordem n acabou sendo constante :

Uma maneira de entender isso é que a amostra não ordenada tem densidade constante igual a 1 e que há n ! diferentes permutações da amostra correspondendo à mesma sequência de estatísticas de pedido. Isso está relacionado ao fato de que 1 / n ! é o volume da região .

Usando as fórmulas acima, pode-se derivar a distribuição do intervalo das estatísticas de ordem, ou seja, a distribuição de , ou seja, máximo menos o mínimo. De forma mais geral, para , também tem uma distribuição Beta:

A partir dessas fórmulas, podemos derivar a covariância entre duas estatísticas de ordem:
A fórmula segue observando que
e comparando isso com
onde , que é a distribuição real da diferença.

Estatísticas de pedidos com amostra de uma distribuição exponencial

Para amostras aleatórias de uma distribuição exponencial com parâmetro λ, as estatísticas de ordem X (i) para i = 1,2,3, ..., n têm cada uma distribuição

onde os Z j são iid variáveis ​​aleatórias exponenciais padrão (isto é, com parâmetro de taxa 1). Este resultado foi publicado pela primeira vez por Alfréd Rényi.

Estatísticas de pedidos com amostra de uma distribuição Erlang

A transformada de Laplace de estatísticas de ordem pode ser amostrada a partir de uma distribuição Erlang por meio de um método de contagem de caminho.

A distribuição conjunta das estatísticas de ordem de uma distribuição absolutamente contínua

Se F X for absolutamente contínuo , ele tem uma densidade tal que , e podemos usar as substituições

e

para derivar as seguintes funções de densidade de probabilidade para as estatísticas de ordem de uma amostra de tamanho n extraída da distribuição de X :

Onde
Onde

Aplicação: intervalos de confiança para quantis

Uma questão interessante é o quão bem as estatísticas de ordem funcionam como estimadores dos quantis da distribuição subjacente.

Um exemplo de amostra pequena

O caso mais simples a considerar é quão bem a mediana da amostra estima a mediana da população.

Como exemplo, considere uma amostra aleatória de tamanho 6. Nesse caso, a mediana da amostra é geralmente definida como o ponto médio do intervalo delimitado pelas estatísticas de 3ª e 4ª ordem. No entanto, sabemos da discussão anterior que a probabilidade de que este intervalo realmente contenha a mediana da população é

Embora a mediana da amostra esteja provavelmente entre as melhores estimativas pontuais independentes da distribuição da mediana da população, o que este exemplo ilustra é que não é particularmente bom em termos absolutos. Neste caso particular, um melhor intervalo de confiança para a mediana é aquele delimitado pelas estatísticas de 2ª e 5ª ordem, que contém a mediana populacional com probabilidade

Com um tamanho de amostra tão pequeno, se se deseja pelo menos 95% de confiança, reduz-se a dizer que a mediana está entre o mínimo e o máximo das 6 observações com probabilidade 31/32 ou aproximadamente 97%. O tamanho 6 é, de fato, o menor tamanho da amostra, de modo que o intervalo determinado pelo mínimo e pelo máximo é de pelo menos um intervalo de confiança de 95% para a mediana da população.

Amostras grandes

Para a distribuição uniforme, como n tende ao infinito, o p- ésimo quantil da amostra é normalmente distribuído assintoticamente , uma vez que é aproximado por

Para uma distribuição geral F com uma densidade diferente de zero contínua em F  −1 ( p ), uma normalidade assintótica semelhante se aplica:

onde f é a função de densidade , e F  -1 é a função quantil associada com F . Uma das primeiras pessoas a mencionar e provar esse resultado foi Frederick Mosteller em seu artigo seminal em 1946. Outras pesquisas levaram à representação Bahadur, na década de 1960, que fornece informações sobre os limites de erro.

Uma observação interessante pode ser feita no caso em que a distribuição é simétrica e a mediana da população é igual à média da população. Nesse caso, a média da amostra , pelo teorema do limite central , também é normalmente distribuída assintoticamente, mas com variância σ 2 / n . Essa análise assintótica sugere que a média supera a mediana nos casos de curtose baixa e vice-versa. Por exemplo, a mediana atinge melhores intervalos de confiança para a distribuição de Laplace , enquanto a média tem melhor desempenho para X que são normalmente distribuídos.

Prova

Pode-se mostrar que

Onde

com Z i sendo variáveis ​​aleatórias exponenciais independentes distribuídas de forma idêntica com taxa 1. Como X / n e Y / n são normalmente distribuídos assintoticamente pelo CLT, nossos resultados seguem pela aplicação do método delta .

Aplicação: estimativa de densidade não paramétrica

Momentos da distribuição para a estatística de primeira ordem podem ser usados ​​para desenvolver um estimador de densidade não paramétrico. Suponha que queremos estimar a densidade no ponto . Considere as variáveis ​​aleatórias , que são iid com função de distribuição . Em particular ,.

O valor esperado da estatística de primeira ordem, dados os rendimentos totais das amostras,

onde é a função quantil associada à distribuição , e . Esta equação em combinação com uma técnica de jackknifing torna-se a base para o seguinte algoritmo de estimativa de densidade,

  Input:  samples.  points of density evaluation. Tuning parameter  (usually 1/3).
  Output:  estimated density at the points of evaluation.
  1: Set 
  2: Set 
  3: Create an  matrix  which holds  subsets with  samples each.
  4: Create a vector  to hold the density evaluations.
  5: for  do
  6:     for  do
  7:         Find the nearest distance  to the current point  within the th subset
  8:      end for
  9:      Compute the subset average of distances to 
 10:      Compute the density estimate at 
 11:  end for
 12: return 

Em contraste com os parâmetros de ajuste baseados em largura de banda / comprimento para abordagens baseadas em histograma e kernel , o parâmetro de ajuste para o estimador de densidade baseado em estatística de ordem é o tamanho dos subconjuntos de amostra. Esse estimador é mais robusto do que abordagens baseadas em histograma e kernel, por exemplo, densidades como a distribuição de Cauchy (que não possuem momentos finitos) podem ser inferidas sem a necessidade de modificações especializadas, como larguras de banda baseadas em IQR . Isso ocorre porque o primeiro momento da estatística de pedido sempre existe se o valor esperado da distribuição subjacente existir, mas o inverso não é necessariamente verdadeiro.

Lidando com variáveis ​​discretas

Suponha que existam iid variáveis ​​aleatórias de uma distribuição discreta com função de distribuição cumulativa e função de massa de probabilidade . Para encontrar as probabilidades das estatísticas de ordem, três valores são necessários primeiro, a saber

A função de distribuição cumulativa da estatística do pedido pode ser calculada observando que

Da mesma forma, é dado por

Observe que a função de massa de probabilidade de é apenas a diferença desses valores, ou seja,

Computando estatísticas de pedidos

O problema de calcular o k- ésimo menor (ou maior) elemento de uma lista é chamado de problema de seleção e é resolvido por um algoritmo de seleção. Embora esse problema seja difícil para listas muito grandes, foram criados algoritmos de seleção sofisticados que podem resolver esse problema em tempo proporcional ao número de elementos na lista, mesmo se a lista estiver totalmente desordenada. Se os dados forem armazenados em certas estruturas de dados especializadas, desta vez pode ser reduzido para O (log n ). Em muitas aplicações, todas as estatísticas de pedido são necessárias; nesse caso, um algoritmo de classificação pode ser usado e o tempo gasto é O ( n log n ).

Veja também

Exemplos de estatísticas de pedidos

Referências

links externos