valor p - p-value

Em testes de significância de hipótese nula , o valor p é a probabilidade de obter resultados de teste pelo menos tão extremos quanto os resultados realmente observados , sob a suposição de que a hipótese nula está correta. Um valor p muito pequeno significa que tal resultado extremo observado seria muito improvável sob a hipótese nula. Relatar os valores- p de testes estatísticos é uma prática comum em publicações acadêmicas de muitos campos quantitativos. Como o significado preciso do valor p é difícil de entender, o uso indevido é generalizado e tem sido um tópico importante na metaciência .

Conceitos Básicos

Em estatística, toda conjectura relativa à distribuição de probabilidade desconhecida de uma coleção de variáveis ​​aleatórias que representam os dados observados em algum estudo é chamada de hipótese estatística . Se declararmos apenas uma hipótese e o objetivo do teste estatístico for ver se essa hipótese é sustentável, mas não investigar outras hipóteses específicas, esse teste é chamado de teste de hipótese nula .

Como nossa hipótese estatística irá, por definição, declarar alguma propriedade da distribuição, a hipótese nula é a hipótese padrão sob a qual essa propriedade não existe. A hipótese nula é tipicamente que algum parâmetro (como uma correlação ou uma diferença entre médias) nas populações de interesse é zero. Observe que nossa hipótese pode especificar a distribuição de probabilidade de precisamente, ou pode apenas especificar que pertence a alguma classe de distribuições. Freqüentemente, reduzimos os dados a uma única estatística numérica, por exemplo ,, cuja distribuição de probabilidade marginal está intimamente ligada a uma questão principal de interesse no estudo.

O valor p é usado no contexto de teste de hipótese nula para quantificar a significância estatística de um resultado, sendo o resultado o valor observado da estatística escolhida . Quanto menor for o valor p , menor será a probabilidade de obter esse resultado se a hipótese nula for verdadeira. Um resultado é considerado estatisticamente significativo se nos permite rejeitar a hipótese nula. Todas as outras coisas sendo iguais, valores p menores são considerados como evidência mais forte contra a hipótese nula

Em termos gerais, a rejeição da hipótese nula implica que há evidências suficientes contra ela.

Como um exemplo particular, se uma hipótese nula afirma que uma determinada estatística de resumo segue a distribuição normal padrão N (0,1), então a rejeição desta hipótese nula pode significar que (i) a média de não é 0, ou (ii ) a variância de não é 1, ou (iii) não é normalmente distribuída. Testes diferentes da mesma hipótese nula seriam mais ou menos sensíveis a alternativas diferentes. No entanto, mesmo se conseguirmos rejeitar a hipótese nula para todas as 3 alternativas, e mesmo se soubermos que a distribuição é normal e a variância é 1, o teste de hipótese nula não nos diz quais valores diferentes de zero da média são agora mais plausível. Quanto mais observações independentes da mesma distribuição de probabilidade se tiver, mais preciso será o teste e maior será a precisão com a qual se será capaz de determinar o valor médio e mostrar que ele não é igual a zero; mas isso também aumentará a importância de avaliar a relevância científica ou no mundo real desse desvio.

Definição e interpretação

Em geral

Valor P em teste de significância estatística.

Considere uma estatística de teste observada de distribuição desconhecida . Então, o valor p é o que a probabilidade anterior seria de observar um valor de estatística de teste pelo menos tão "extremo" como se a hipótese nula fosse verdadeira. Isso é:

  • para um teste de cauda direita unilateral,
  • para um teste de cauda esquerda unilateral,
  • para um teste bilateral. Se a distribuição for simétrica em torno de zero, então

Se o valor p for muito pequeno, a hipótese nula é falsa ou algo improvável ocorreu. Em um teste de significância formal , a hipótese nula é rejeitada se o valor p for menor que um valor limite predefinido , que é referido como nível alfa ou nível de significância . Em vez disso, o valor de é definido pelo pesquisador antes de examinar os dados. define a proporção da distribuição, isto é, define um intervalo tão estreito de todos os resultados possíveis de que se o valor de está dentro desse intervalo, é improvável que seu valor tenha ocorrido por acaso. Intuitivamente, isso significa que se for definido como 0,10, apenas 1/10 da distribuição de é definido por , portanto, se estiver dentro dessa faixa, já está ocorrendo ao longo de uma série de resultados que acontecem em raro 1/10 das vezes, sugerindo assim que é improvável que isso ocorra aleatoriamente. Por convenção, geralmente é definido como 0,05, embora níveis alfa mais baixos sejam usados ​​às vezes. No entanto, é importante lembrar uma série de fatores - tal variância, erros de medição, erros de especificação, problemas de comparações múltiplas, etc. - podem significar que só porque está dentro da faixa especificada por isso não significa automaticamente um valor surpreendente de é estatisticamente significativo.

O valor p é uma função da estatística de teste escolhida e, portanto, uma variável aleatória . Se a hipótese nula fixa a distribuição de probabilidade com precisão, e se essa distribuição é contínua, então quando a hipótese nula é verdadeira, o valor p é uniformemente distribuído entre 0 e 1. Assim, o valor p não é fixo. Se o mesmo teste for repetido independentemente com dados novos (sempre com a mesma distribuição de probabilidade), obter-se-á um valor p diferente em cada iteração. Se a hipótese nula for composta, ou a distribuição da estatística for discreta, a probabilidade de obter um valor p menor ou igual a qualquer número entre 0 e 1 é menor ou igual a esse número, se a hipótese nula é verdade. Permanece o caso de que valores muito pequenos são relativamente improváveis ​​se a hipótese nula for verdadeira, e que um teste de significância no nível é obtido rejeitando a hipótese nula se o nível de significância for menor ou igual a .

Diferentes valores de p com base em conjuntos independentes de dados podem ser combinados, por exemplo, usando o teste de probabilidade combinada de Fisher .

Distribuição

Quando a hipótese nula é verdadeira, se assume a forma , e a variável aleatória subjacente é contínua, então a distribuição de probabilidade do valor p é uniforme no intervalo [0,1]. Por outro lado, se a hipótese alternativa for verdadeira, a distribuição depende do tamanho da amostra e do valor verdadeiro do parâmetro que está sendo estudado.

A distribuição dos valores- p para um grupo de estudos é às vezes chamada de curva- p . Uma curva p pode ser usada para avaliar a confiabilidade da literatura científica, como por meio da detecção de viés de publicação ou p- hack .

Para hipótese composta

Em problemas de teste de hipótese paramétrica, uma hipótese simples ou de ponto refere-se a uma hipótese em que o valor do parâmetro é considerado um único número. Em contraste, em uma hipótese composta, o valor do parâmetro é dado por um conjunto de números. Por exemplo, ao testar a hipótese nula de que uma distribuição é normal com uma média menor ou igual a zero contra a alternativa de que a média é maior que zero (variância conhecida), a hipótese nula não especifica a distribuição de probabilidade do teste apropriado estatística. No exemplo mencionado, essa seria a estatística Z pertencente ao teste Z de amostra unilateral . Para cada valor possível da média teórica, a estatística de teste Z tem uma distribuição de probabilidade diferente. Nessas circunstâncias (o caso da chamada hipótese nula composta), o valor p é definido tomando o caso de hipótese nula menos favorável, que normalmente está na fronteira entre nulo e alternativo.

Esta definição garante a complementaridade dos valores p e níveis alfa. Se definirmos o nível de significância alfa para 0,05 e apenas rejeitarmos a hipótese nula se o valor p for menor ou igual a 0,05, nosso teste de hipótese realmente terá nível de significância (taxa máxima de erro tipo 1) 0,05. Como escreveu Neyman: “O erro que um estatístico praticante consideraria mais importante evitar (que é um julgamento subjetivo) é chamado de erro do primeiro tipo. A primeira exigência da teoria matemática é deduzir os critérios de teste que assegurem que a probabilidade de cometer um erro do primeiro tipo seja igual (ou aproximadamente igual, ou não superior) a um número pré-atribuído α, como α = 0,05 ou 0,01 , etc. Este número é denominado nível de significância ”; Neyman 1976, p. 161 em "The Emergence of Mathematical Statistics: A Historical Sketch com Particular Reference to the United States", "On the History of Statistics and Probability", ed. DB Owen, Nova York: Marcel Dekker, pp. 149-193. Ver também "Confusão Sobre Medidas de Evidência (p's) Versus Erros (a's) em Teste Estatístico Clássico", Raymond Hubbard e MJ Bayarri, The American Statistician, agosto de 2003, Vol. 57, No 3, 171--182 (com discussão). Para uma declaração moderna concisa, consulte o Capítulo 10 de "All of Statistics: A Concise Course in Statistical Inference", Springer; 1ª edição corrigida 20 edição (17 de setembro de 2004). Larry Wasserman.

Uso

O valor p é amplamente utilizado em testes de hipótese estatística , especificamente em testes de significância de hipótese nula. Neste método, como parte do desenho experimental , antes de realizar o experimento, escolhe-se primeiro um modelo (a hipótese nula ) e um valor limite para p , denominado nível de significância do teste, tradicionalmente 5% ou 1% e denotado como α . Se o valor p for menor que o nível de significância escolhido ( α ), isso sugere que os dados observados são suficientemente inconsistentes com a hipótese nula e que a hipótese nula pode ser rejeitada. No entanto, isso não prova que a hipótese testada seja falsa. Quando o valor p é calculado corretamente, este teste garante que a taxa de erro tipo I é no máximo α . Para análise típica, usando o  corte padrão α = 0,05, a hipótese nula é rejeitada quando p ≤ 0,05 e não rejeitada quando p > 0,05. O valor p , por si só, não apóia o raciocínio sobre as probabilidades das hipóteses, mas é apenas uma ferramenta para decidir se rejeita a hipótese nula.

Uso indevido

De acordo com a ASA , há um consenso geral de que os valores- p são freqüentemente mal utilizados e mal interpretados. Uma prática que tem sido particularmente criticada é aceitar a hipótese alternativa para qualquer valor p nominalmente menor que 0,05 sem outras evidências de apoio. Embora os valores- p sejam úteis para avaliar o quão incompatíveis os dados são com um modelo estatístico especificado, fatores contextuais também devem ser considerados, como "o desenho de um estudo, a qualidade das medições, a evidência externa para o fenômeno em estudo, e a validade dos pressupostos que fundamentam a análise dos dados ". Outra preocupação é que o valor p é freqüentemente mal interpretado como sendo a probabilidade de que a hipótese nula seja verdadeira.

Alguns estatísticos propuseram abandonar os valores- p e se concentrar mais em outras estatísticas inferenciais, como intervalos de confiança , razões de probabilidade ou fatores de Bayes , mas há um debate acalorado sobre a viabilidade dessas alternativas. Outros sugeriram a remoção de limiares de significância fixos e a interpretação dos valores- p como índices contínuos da força da evidência contra a hipótese nula. Ainda outros sugeriram relatar junto com os valores p a probabilidade anterior de um efeito real que seria necessário para obter um risco falso positivo (ou seja, a probabilidade de que não há efeito real) abaixo de um limite pré-especificado (por exemplo, 5%).

Cálculo

Normalmente, é uma estatística de teste . Uma estatística de teste é a saída de uma função escalar de todas as observações. Essa estatística fornece um único número, como uma estatística t ou uma estatística F. Como tal, a estatística de teste segue uma distribuição determinada pela função usada para definir essa estatística de teste e a distribuição dos dados observacionais de entrada.

Para o caso importante em que os dados são hipotetizados como uma amostra aleatória de uma distribuição normal, dependendo da natureza da estatística de teste e das hipóteses de interesse sobre sua distribuição, diferentes testes de hipótese nula foram desenvolvidos. Alguns desses testes são o teste z para hipóteses relativas à média de uma distribuição normal com variância conhecida, o teste t baseado na distribuição t de Student de uma estatística adequada para hipóteses relativas à média de uma distribuição normal quando a variância é desconhecida, o teste F baseado na distribuição F de outra estatística para hipóteses sobre a variância. Para dados de outra natureza, por exemplo dados categóricos (discretos), estatísticas de teste podem ser construídas cuja distribuição de hipótese nula é baseada em aproximações normais para estatísticas apropriadas obtidas invocando o teorema do limite central para grandes amostras, como no caso do chi- de Pearson. teste ao quadrado .

Assim, o cálculo de um valor p requer uma hipótese nula, uma estatística de teste (junto com a decisão se o pesquisador está realizando um teste unicaudal ou um teste bicaudal ) e dados. Mesmo que computar a estatística de teste em dados dados possa ser fácil, computar a distribuição de amostragem sob a hipótese nula e, em seguida, computar sua função de distribuição cumulativa (CDF) é frequentemente um problema difícil. Hoje, esse cálculo é feito usando software estatístico, muitas vezes por meio de métodos numéricos (em vez de fórmulas exatas), mas, no início e meados do século 20, isso era feito por meio de tabelas de valores e um valor- p interpolado ou extrapolado a partir desses valores discretos. Em vez de usar uma tabela de valores p , Fisher inverteu o CDF, publicando uma lista de valores da estatística de teste para determinados valores p fixos; isso corresponde ao cálculo da função quantil (CDF inverso).

Exemplo

Como um exemplo de teste estatístico, um experimento é realizado para determinar se um lançamento de moeda é justo (chance igual de dar cara ou coroa) ou enviesado injustamente (um resultado sendo mais provável do que o outro).

Suponha que os resultados experimentais mostrem a moeda virando cara 14 vezes em um total de 20 lançamentos. Os dados completos seriam uma sequência de vinte vezes o símbolo "H" ou "T". A estatística em que se pode focar pode ser o número total de cabeças. A hipótese nula é que a moeda é justa e os lançamentos de moeda são independentes um do outro. Se um teste de cauda direita for considerado, o que seria o caso se alguém estiver realmente interessado na possibilidade de que a moeda esteja enviesada para cara em queda, então o valor p deste resultado é a chance de uma moeda justa cair em cara em pelo menos 14 vezes em 20 lançamentos. Essa probabilidade pode ser calculada a partir de coeficientes binomiais como

Essa probabilidade é o valor p , considerando apenas resultados extremos que favorecem caras. Isso é chamado de teste unilateral . No entanto, pode-se estar interessado em desvios em qualquer direção, favorecendo cara ou coroa. O valor p bicaudal , que considera os desvios que favorecem cara ou coroa, pode ser calculado. Como a distribuição binomial é simétrica para uma moeda justa, o valor p bilateral é simplesmente duas vezes o valor p unilateral calculado acima : o valor p bilateral é 0,115.

No exemplo acima:

  • Hipótese nula (H 0 ): A moeda é justa, com Prob (cara) = 0,5
  • Estatística de teste: Número de cabeças
  • Nível alfa (limite designado de significância): 0,05
  • Observação O: 14 cabeças em 20 flips; e
  • Valor p bicaudal da observação O dado H 0 = 2 * min (Prob (nº de cabeças ≥ 14 cabeças), Prob (nº de cabeças ≤ 14 cabeças)) = 2 * min (0,058, 0,978) = 2 * 0,058 = 0,115.

Observe que o Prob (nº de cabeças ≤ 14 cabeças) = ​​1 - Prob (nº de cabeças ≥ 14 cabeças) + Prob (nº de cabeças = 14) = 1 - 0,058 + 0,036 = 0,978; no entanto, a simetria da distribuição binomial torna um cálculo desnecessário encontrar a menor das duas probabilidades. Aqui, o valor p calculado excede 0,05, o que significa que os dados estão dentro da faixa do que aconteceria 95% das vezes se a moeda de fato fosse justa. Portanto, a hipótese nula não é rejeitada no nível 0,05.

No entanto, se mais uma cabeça tivesse sido obtida, o valor p resultante (bicaudal) teria sido 0,0414 (4,14%), caso em que a hipótese nula seria rejeitada no nível 0,05.

História

Os cálculos dos valores- p datam de 1700, onde foram calculados para a proporção do sexo humano no nascimento e usados ​​para calcular a significância estatística em comparação com a hipótese nula de probabilidade igual de nascimentos masculinos e femininos. John Arbuthnot estudou essa questão em 1710 e examinou registros de nascimento em Londres para cada um dos 82 anos de 1629 a 1710. Em todos os anos, o número de homens nascidos em Londres excedia o número de mulheres. Considerando nascimentos do sexo masculino mais ou mais femininos como a mesma probabilidade, a probabilidade do resultado observado é 1/2 82 , ou cerca de 1 em 4.836.000.000.000.000.000.000.000; em termos modernos, o valor p . Isso é incrivelmente pequeno, levando Arbuthnot a que isso não foi devido ao acaso, mas à providência divina: "De onde segue, que é a Arte, não o Acaso, que governa." Em termos modernos, ele rejeitou a hipótese nula de nascimentos masculinos e femininos igualmente prováveis ​​no nível de significância p  = 1/2 82 . Este e outro trabalho de Arbuthnot é creditado como "... o primeiro uso de testes de significância ..." o primeiro exemplo de raciocínio sobre significância estatística, e "... talvez o primeiro relatório publicado de um teste não paramétrico ...", especificamente o teste de sinal ; veja os detalhes em Teste de sinal § Histórico .

A mesma questão foi abordada posteriormente por Pierre-Simon Laplace , que em vez disso usou um teste paramétrico , modelando o número de nascimentos do sexo masculino com uma distribuição binomial :

Na década de 1770, Laplace considerou as estatísticas de quase meio milhão de nascimentos. As estatísticas mostraram um excesso de meninos em relação às meninas. Ele concluiu, calculando um valor p, que o excesso era um efeito real, mas inexplicável.

O valor p foi introduzido formalmente pela primeira vez por Karl Pearson , em seu teste qui-quadrado de Pearson , usando a distribuição qui-quadrado e notado como P maiúsculo. Os valores p para a distribuição qui-quadrado (para vários valores de χ 2 e graus de liberdade), agora notados como P, foram calculados em ( Elderton 1902 ), coletados em ( Pearson 1914 , pp. xxxi – xxxiii, 26–28, Tabela XII) .

O uso do valor p em estatística foi popularizado por Ronald Fisher e desempenha um papel central em sua abordagem do assunto. Em seu influente livro Statistical Methods for Research Workers (1925), Fisher propôs o nível p = 0,05, ou uma chance de 1 em 20 de ser excedido ao acaso, como um limite para a significância estatística , e aplicou isso a uma distribuição normal (como um teste bicaudal), gerando assim a regra de dois desvios padrão (em uma distribuição normal) para significância estatística (ver regra 68–95–99,7 ).

Ele então calculou uma tabela de valores, semelhante a Elderton, mas, o que é importante, inverteu os papéis de χ 2 e p. Ou seja, em vez de calcular p para diferentes valores de χ 2 (e graus de liberdade n ), ele calculou valores de χ 2 que produzem valores p especificados , especificamente 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50 , 0,30, 0,20, 0,10, 0,05, 0,02 e 0,01. Isso permitiu que os valores calculados de χ 2 fossem comparados com os pontos de corte e incentivou o uso de valores- p (especialmente 0,05, 0,02 e 0,01) como pontos de corte, em vez de calcular e relatar os próprios valores- p . O mesmo tipo de tabelas foi compilado em ( Fisher & Yates 1938 ), que consolidou a abordagem.

Como ilustração da aplicação dos valores- p ao projeto e interpretação de experimentos, em seu livro seguinte, The Design of Experiments (1935), Fisher apresentou o experimento de degustação de chá da senhora , que é o exemplo arquetípico do valor- p .

Para avaliar a afirmação de uma senhora de que ela ( Muriel Bristol ) podia distinguir pelo gosto como o chá é preparado (primeiro adicionando o leite à xícara, depois o chá, ou primeiro o chá e depois o leite), ela foi apresentada sequencialmente com 8 xícaras: 4 preparadas de uma forma, 4 preparavam a outra, e pediam para determinar o preparo de cada xícara (sabendo que eram 4 de cada). Nesse caso, a hipótese nula era que ela não tinha nenhuma habilidade especial, o teste era o teste exato de Fisher e o valor p era então Fisher estava disposto a rejeitar a hipótese nula (considere o resultado altamente improvável de ser devido ao acaso) se todos foram classificados corretamente. (No experimento real, Bristol classificou corretamente todas as 8 xícaras.)

Fisher reiterou o limite de p = 0,05 e explicou sua justificativa, afirmando:

É comum e conveniente para os experimentadores tomar 5 por cento como um nível padrão de significância, no sentido de que estão preparados para ignorar todos os resultados que falham em atingir este padrão e, por este meio, eliminar de uma discussão posterior os maiores parte das flutuações que as causas casuais introduziram em seus resultados experimentais.

Ele também aplica esse limite ao planejamento de experimentos, observando que se apenas 6 xícaras tivessem sido apresentadas (3 de cada), uma classificação perfeita teria apenas rendido um valor p, o qual não teria atingido esse nível de significância. Fisher também sublinhou a interpretação de p, como a proporção de valores de longo prazo pelo menos tão extrema quanto os dados, assumindo que a hipótese nula é verdadeira.

Em edições posteriores, Fisher contrastou explicitamente o uso do valor p para inferência estatística na ciência com o método de Neyman-Pearson, que ele denomina "Procedimentos de aceitação". Fisher enfatiza que, embora níveis fixos como 5%, 2% e 1% sejam convenientes, o valor p exato pode ser usado e a força da evidência pode e será revisada com mais experimentação. Em contrapartida, os procedimentos de decisão requerem uma decisão clara, gerando uma ação irreversível, e o procedimento é baseado nos custos do erro, que, ele argumenta, são inaplicáveis ​​à pesquisa científica.

Quantidades relacionadas

Um conceito intimamente relacionado é o valor E , que é o número esperado de vezes em testes múltiplos que se espera obter uma estatística de teste pelo menos tão extrema quanto aquela que foi realmente observada se assumirmos que a hipótese nula é verdadeira. O valor E é o produto do número de testes pelo valor p .

O valor q é o análogo do valor p em relação à taxa de descoberta falsa positiva . É usado em testes de múltiplas hipóteses para manter o poder estatístico enquanto minimiza a taxa de falsos positivos .

Veja também

Notas

Referências

Leitura adicional

links externos