Distribuição Pearson - Pearson distribution

Diagrama do sistema de Pearson, mostrando as distribuições dos tipos I, III, VI, V e IV em termos de β 1 (assimetria quadrada) e β 2 (curtose tradicional)

A distribuição de Pearson é uma família de distribuições de probabilidade contínuas . Foi publicado pela primeira vez por Karl Pearson em 1895 e posteriormente estendido por ele em 1901 e 1916 em uma série de artigos sobre bioestatística .

História

O sistema Pearson foi originalmente desenvolvido em um esforço para modelar observações visivelmente distorcidas . Era bem conhecido na época como ajustar um modelo teórico para ajustar os primeiros dois cumulantes ou momentos de dados observados: Qualquer distribuição de probabilidade pode ser estendida diretamente para formar uma família em escala de localização . Exceto em casos patológicos , uma família de escala de localização pode ser feita para ajustar a média observada (primeiro cumulante) e a variância (segundo cumulante) arbitrariamente bem. No entanto, não se sabia como construir distribuições de probabilidade nas quais a assimetria (terceiro cumulante padronizado) e a curtose (quarto cumulante padronizado) pudessem ser ajustados igualmente livremente. Essa necessidade tornou-se aparente ao tentar ajustar modelos teóricos conhecidos aos dados observados que exibiam assimetria. Os exemplos de Pearson incluem dados de sobrevivência, que geralmente são assimétricos.

Em seu artigo original, Pearson (1895, p. 360) identificou quatro tipos de distribuições (numeradas de I a IV), além da distribuição normal (que era originalmente conhecida como tipo V). A classificação dependia de se as distribuições eram suportadas em um intervalo limitado, em uma meia-linha ou em toda a linha real ; e se eram potencialmente enviesados ​​ou necessariamente simétricos. Um segundo artigo (Pearson 1901) corrigiu duas omissões: redefiniu a distribuição do tipo V (originalmente apenas a distribuição normal , mas agora a distribuição gama inversa ) e introduziu a distribuição do tipo VI. Juntos, os dois primeiros artigos cobrem os cinco tipos principais do sistema Pearson (I, III, IV, V e VI). Em um terceiro artigo, Pearson (1916) introduziu outros casos e subtipos especiais (VII a XII).

Rhind (1909, pp. 430-432) desenvolveu uma maneira simples de visualizar o espaço de parâmetros do sistema Pearson, que foi subsequentemente adotado por Pearson (1916, ilustração 1 e pp. 430ss., 448ss.). Os tipos de Pearson são caracterizados por duas grandezas, comumente chamadas de β 1 e β 2 . O primeiro é o quadrado da assimetria : onde γ 1 é a assimetria, ou terceiro momento padronizado . A segunda é a curtose tradicional , ou quarto momento padronizado: β 2 = γ 2 + 3. (Os tratamentos modernos definem curtose γ 2 em termos de cumulantes em vez de momentos, de modo que para uma distribuição normal temos γ 2 = 0 e β 2 = 3. Aqui seguimos o precedente histórico e usamos β 2. ) O diagrama à direita mostra a qual tipo de Pearson uma dada distribuição concreta (identificada por um ponto (β 1 , β 2 )) pertence.

Muitas das distribuições distorcidas e / ou não mesocúrticas que conhecemos hoje ainda eram desconhecidas no início da década de 1890. O que agora é conhecido como distribuição beta foi usado por Thomas Bayes como uma distribuição posterior do parâmetro de uma distribuição de Bernoulli em seu trabalho de 1763 sobre probabilidade inversa . A distribuição Beta ganhou destaque devido à sua associação ao sistema de Pearson e era conhecida até a década de 1940 como distribuição de Pearson tipo I. (A distribuição de tipo II de Pearson é um caso especial do tipo I, mas geralmente não é mais destacada.) A distribuição gama originou-se do trabalho de Pearson (Pearson 1893, p. 331; Pearson 1895, pp. 357, 360, 373-376) e era conhecida como distribuição Pearson tipo III, antes de adquirir seu nome moderno nas décadas de 1930 e 1940. O trabalho de Pearson 1895 introduziu a distribuição do tipo IV, que contém de Student t -Distribuição como um caso especial, antecipando William Sealy Gosset posterior utilização 's por vários anos. Seu artigo de 1901 introduziu a distribuição gama inversa (tipo V) e a distribuição primária beta (tipo VI).

Definição

Uma densidade de Pearson p é definida como qualquer solução válida para a equação diferencial (cf. Pearson 1895, p. 381)

com:

De acordo com Ord, Pearson concebeu a forma subjacente da Equação (1) com base, em primeiro lugar, na fórmula para a derivada do logaritmo da função densidade da distribuição normal (que dá uma função linear) e, em segundo lugar, a partir de um relação de recorrência para valores na função de probabilidade de massa da distribuição hipergeométrica (que produz a estrutura linear dividida por quadrática).

Na Equação (1), o parâmetro a determina um ponto estacionário e, portanto, sob algumas condições, um modo de distribuição, uma vez que

segue diretamente da equação diferencial.

Uma vez que somos confrontados com uma equação diferencial linear de primeira ordem com coeficientes variáveis , sua solução é direta:

O integral nesta solução simplifica consideravelmente quando certos casos especiais do integrando são considerados. Pearson (1895, p. 367) distinguiu dois casos principais, determinados pelo sinal do discriminante (e, portanto, o número de raízes reais ) da função quadrática

Tipos particulares de distribuição

Caso 1, discriminante negativo

A distribuição de Pearson tipo IV

Se o discriminante da função quadrática (2) for negativo ( ), ele não tem raízes reais. Então defina

Observe que α é um número real bem definido e α ≠ 0 , porque por suposição e portanto b 2 ≠ 0 . Aplicando essas substituições, a função quadrática (2) é transformada em

A ausência de raízes reais é óbvia a partir desta formulação, porque α 2 é necessariamente positivo.

Agora expressamos a solução para a equação diferencial (1) como uma função de y :

Pearson (1895, p. 362) chamou isso de "caso trigonométrico", porque a integral

envolve a função arctan trigonométrica inversa . Então

Finalmente, vamos

Aplicando essas substituições, obtemos a função paramétrica:

Essa densidade não normalizada tem suporte em toda a linha real . Depende de um parâmetro de escala α> 0 e dos parâmetros de forma m > 1/2 e  ν . Um parâmetro foi perdido quando optamos por encontrar a solução para a equação diferencial (1) como uma função de y em vez de x . Portanto, reintroduzimos um quarto parâmetro, a saber, o parâmetro de localização λ . Assim, derivamos a densidade da distribuição de Pearson tipo IV :

A constante de normalização envolve a complexa função Gamma (Γ) e a função Beta  (B). Observe que o parâmetro de localização λ aqui não é o mesmo que o parâmetro de localização original introduzido na formulação geral, mas está relacionado via

A distribuição Pearson tipo VII

Gráfico de densidades de Pearson tipo VII com λ = 0, σ = 1 e: γ 2 = ∞ (vermelho); γ 2 = 4 (azul); e γ 2 = 0 (preto)

O parâmetro de forma ν da distribuição de Pearson tipo IV controla sua assimetria . Se fixarmos seu valor em zero, obtemos uma família simétrica de três parâmetros. Este caso especial é conhecido como distribuição de Pearson tipo VII (cf. Pearson 1916, p. 450). Sua densidade é

onde B é a função Beta .

Uma parametrização alternativa (e ligeira especialização) da distribuição tipo VII é obtida por meio da locação

que requer m > 3/2. Isso acarreta uma pequena perda de generalidade, mas garante que a variância da distribuição existe e é igual a σ 2 . Agora, o parâmetro m controla apenas a curtose da distribuição. Se m se aproxima do infinito quando λ e σ são mantidos constantes, a distribuição normal surge como um caso especial:

Esta é a densidade de uma distribuição normal com média λ e desvio padrão σ .

É conveniente exigir que m > 5/2 e deixar

Esta é outra especialização e garante que existam os primeiros quatro momentos da distribuição. Mais especificamente, a distribuição de Pearson tipo VII parametrizada em termos de (λ, σ, γ 2 ) tem uma média de λ , desvio padrão de σ , assimetria de zero e excesso de curtose de γ 2 .

Student t -Distribuição

A distribuição de Pearson tipo VII é equivalente à distribuição t de Student não padronizada com parâmetros ν> 0, μ, σ 2 aplicando as seguintes substituições em sua parametrização original:

Observe que a restrição m > 1/2 é satisfeita.

A densidade resultante é

que é facilmente reconhecida como a densidade de uma distribuição t de Student.

Isto implica que a distribuição Pearson tipo VII subsume o padrão de Student t -Distribuição e também o padrão de distribuição de Cauchy . Em particular, a distribuição t de Student padrão surge como um subcaso, quando μ = 0 e σ 2 = 1, equivalente às seguintes substituições:

A densidade desta família restrita de um parâmetro é um t de Student padrão :

Caso 2, discriminante não negativo

Se a função quadrática (2) tem um discriminante não-negativo ( ), que tem raízes reais um 1 e um 2 (não necessariamente distintas):

Na presença de raízes reais, a função quadrática (2) pode ser escrita como

e a solução para a equação diferencial é, portanto,

Pearson (1895, p. 362) chamou isso de "caso logarítmico", porque a integral

envolve apenas a função logaritmo e não a função arctan como no caso anterior.

Usando a substituição

obtemos a seguinte solução para a equação diferencial (1):

Uma vez que essa densidade só é conhecida até uma constante oculta de proporcionalidade, essa constante pode ser alterada e a densidade escrita da seguinte forma:

A distribuição Pearson tipo I

A distribuição de Pearson tipo I (uma generalização da distribuição beta ) surge quando as raízes da equação quadrática (2) são de sinal oposto, ou seja ,. Então, a solução p é suportada no intervalo . Aplicar a substituição

onde , o que produz uma solução em termos de y que é suportada no intervalo (0, 1):

Pode-se definir:

Reagrupando constantes e parâmetros, isso simplifica para:

Assim segue um com . Acontece que m 1 , m 2 > −1 é necessário e suficiente para p ser uma função de densidade de probabilidade adequada.

A distribuição de Pearson tipo II

A distribuição Pearson tipo II é um caso especial da família Pearson tipo I restrita a distribuições simétricas.

Para a curva de Pearson Tipo II,

Onde

A ordenada, y , é a frequência de . A curva de Pearson Tipo II é usada no cálculo da tabela de coeficientes de correlação significativos para o coeficiente de correlação de classificação de Spearman quando o número de itens em uma série é menor que 100 (ou 30, dependendo de algumas fontes). Depois disso, a distribuição simula uma distribuição t de Student padrão . Para a tabela de valores, certos valores são usados ​​como constantes na equação anterior:

Os momentos de x usados ​​são

A distribuição de Pearson tipo III

Definindo

é . A distribuição de Pearson tipo III é uma distribuição gama generalizada ou distribuição qui-quadrado .

A distribuição de Pearson tipo V

Definindo novos parâmetros:

segue um . A distribuição de Pearson tipo V é uma distribuição gama inversa .

A distribuição de Pearson tipo VI

Definindo

segue a . O tipo VI distribuição Pearson é uma distribuição privilegiada beta ou F -Distribuição .

Relação com outras distribuições

A família Pearson inclui as seguintes distribuições, entre outras:

Alternativas ao sistema de distribuição de Pearson com o propósito de ajustar as distribuições aos dados são as distribuições parametrizadas por quantis (QPDs) e as distribuições metalog . QPDs e metalogs podem fornecer maior flexibilidade de forma e limites do que o sistema Pearson. Em vez de momentos de ajuste, QPDs são normalmente ajustados para CDF empírico ou outros dados com mínimos quadrados lineares .

Formulários

Esses modelos são usados ​​em mercados financeiros, dada sua capacidade de serem parametrizados de uma forma que tenha significado intuitivo para os operadores do mercado. Vários modelos estão em uso atualmente que capturam a natureza estocástica da volatilidade das taxas, ações, etc., e esta família de distribuições pode provar ser uma das mais importantes.

Nos Estados Unidos, o Log-Pearson III é a distribuição padrão para análise de frequência de inundação.

Recentemente, foram desenvolvidas alternativas para as distribuições de Pearson que são mais flexíveis e mais fáceis de ajustar aos dados. Veja as distribuições do metalog .

Notas

  1. ^ Miller, Jeff; et al. (2006-07-09). "Distribuição beta" . Os primeiros usos conhecidos de algumas palavras da matemática . Página visitada em 2006-12-09 .
  2. ^ Miller, Jeff; et al. (2006-12-07). "Distribuição gama" . Os primeiros usos conhecidos de algumas palavras da matemática . Página visitada em 2006-12-09 .
  3. ^ Ord JK (1972) p. 2
  4. ^ Ramsey, Philip H. (01/09/1989). "Valores críticos para a correlação da ordem de classificação de Spearman". Journal of Educational Statistics . 14 (3): 245–253. JSTOR   1165017 .
  5. ^ "Diretrizes para determinar a freqüência do fluxo de inundação" (PDF) . USGS Water . Março de 1982 . Página visitada em 14/06/2019 .

Origens

Fontes primárias

Fontes secundárias

Referências

  • Elderton, Sir WP, Johnson, NL (1969) Systems of Frequency Curves . Cambridge University Press.
  • Ord JK (1972) Famílias de Distribuições de Freqüência . Griffin, Londres.