Probit - Probit

Gráfico da função probit

Em teoria de probabilidade e estatística , a função probit é a função quantílica associada à distribuição normal padrão . Ele tem aplicações em análise de dados e aprendizado de máquina, em particular gráficos estatísticos exploratórios e modelagem de regressão especializada de variáveis ​​de resposta binárias .

Matematicamente, o probit é o inverso da função de distribuição cumulativa da distribuição normal padrão, que é denotado como , então o probit é definido como

.

Em grande parte por causa do teorema do limite central , a distribuição normal padrão desempenha um papel fundamental na teoria da probabilidade e estatística. Se considerarmos o fato familiar de que a distribuição normal padrão coloca 95% da probabilidade entre -1,96 e 1,96, e é simétrica em torno de zero, segue-se que

A função probit fornece o cálculo 'inverso', gerando um valor de uma variável aleatória normal padrão, associada à probabilidade cumulativa especificada. Continuando o exemplo,

.

Em geral,

e

Desenvolvimento conceitual

A ideia da função probit foi publicada por Chester Ittner Bliss em um artigo de 1934 na Science sobre como tratar dados como a porcentagem de uma praga morta por um pesticida . Bliss propôs transformar a porcentagem morta em uma " probabilidade un it " (ou "probit") que era linearmente relacionada à definição moderna (ele a definiu arbitrariamente como igual a 0 para 0,0001 e 1 para 0,9999). Ele incluiu uma tabela para ajudar outros pesquisadores a converter suas porcentagens de morte em seu probit, que eles poderiam traçar contra o logaritmo da dose e assim, esperava-se, obter uma linha mais ou menos reta. Esse modelo chamado probit ainda é importante em toxicologia, bem como em outros campos. A abordagem é justificada em particular se a variação da resposta pode ser racionalizada como uma distribuição lognormal de tolerâncias entre os indivíduos no teste, onde a tolerância de um determinado indivíduo é a dose apenas suficiente para a resposta de interesse.

O método introduzido por Bliss foi levado adiante na Probit Analysis , um importante texto sobre aplicações toxicológicas de DJ Finney . Os valores apresentados por Finney podem ser derivados de probits, conforme definido aqui, adicionando um valor de 5. Essa distinção é resumida por Collett (p. 55): "A definição original de um probit [com 5 adicionado] era principalmente para evitar ter que trabalhar com probits negativos; ... Esta definição ainda é usada em alguns trimestres, mas nos principais pacotes de software estatístico para o que é referido como análise de probits, os probits são definidos sem a adição de 5. " Deve-se observar que a metodologia probit, incluindo a otimização numérica para ajuste de funções probit, foi introduzida antes da ampla disponibilidade da computação eletrônica. Ao usar tabelas, era conveniente ter probits uniformemente positivos. As áreas comuns de aplicação não requerem probits positivos.

Diagnosticar o desvio de uma distribuição da normalidade

Além de fornecer uma base para tipos importantes de regressão, a função probit é útil na análise estatística para diagnosticar o desvio da normalidade, de acordo com o método de plotagem Q – Q. Se um conjunto de dados for na verdade uma amostra de uma distribuição normal , um gráfico dos valores contra suas pontuações probit será aproximadamente linear. Desvios específicos da normalidade, como assimetria , caudas pesadas ou bimodalidade, podem ser diagnosticados com base na detecção de desvios específicos da linearidade. Embora o gráfico Q-Q possa ser usado para comparação com qualquer família de distribuição (não apenas a normal), o gráfico Q-Q normal é um procedimento de análise de dados exploratório relativamente padrão porque a suposição de normalidade é frequentemente um ponto de partida para a análise.

Computação

A distribuição normal CDF e seu inverso não estão disponíveis na forma fechada , e o cálculo requer o uso cuidadoso de procedimentos numéricos. No entanto, as funções estão amplamente disponíveis em softwares para modelagem estatística e de probabilidade e em planilhas. No Microsoft Excel , por exemplo, a função probit está disponível como norm.s.inv (p). Em ambientes de computação onde implementações numéricas da função de erro inverso estão disponíveis, a função probit pode ser obtida como

Um exemplo é o MATLAB , onde uma função 'erfinv' está disponível. A linguagem que o Mathematica implementa 'InverseErf'. Outros ambientes implementar diretamente a função probit como é mostrado na sessão seguinte na linguagem de programação R .

> qnorm(0.025)
[1] -1.959964
> pnorm(-1.96)
[1] 0.02499790

Detalhes para calcular a função de erro inverso podem ser encontrados em [1] . Wichura fornece um algoritmo rápido para calcular a função probit com 16 casas decimais; isso é usado em R para gerar variáveis ​​aleatórias para a distribuição normal.

Uma equação diferencial ordinária para a função probit

Outro meio de cálculo é baseado na formação de uma equação diferencial ordinária não linear (ODE) para probit, de acordo com o método de Steinbrecher e Shaw. Abreviando a função probit como , o ODE é

onde é a função de densidade de probabilidade de w .

No caso do Gaussiano:

Diferenciando novamente:

com as condições centrais (iniciais)

Esta equação pode ser resolvida por vários métodos, incluindo a abordagem clássica de séries de potências. A partir disso, soluções de alta precisão arbitrariamente podem ser desenvolvidas com base na abordagem de Steinbrecher para a série para a função de erro inverso. A solução da série de potências é dada por

onde os coeficientes satisfazem a recorrência não linear

com . Nesta forma a relação de como .

Logit

Comparação da função logit com um probit escalado (ou seja, o CDF inverso da distribuição normal ), comparando vs. , o que torna as inclinações iguais na origem.

Intimamente relacionado com a função probit (e modelo probit ) são o logit função e modelo logit . O inverso da função logística é dado por

Analogamente ao modelo probit, podemos assumir que tal quantidade está relacionada linearmente a um conjunto de preditores, resultando no modelo logit , a base em particular do modelo de regressão logística , a forma mais prevalente de análise de regressão para dados de resposta categórica. Na prática estatística atual, os modelos de regressão probit e logit são frequentemente tratados como casos do modelo linear generalizado .

Veja também

Referências