Potência (estatísticas) - Power (statistics)


Da Wikipédia, a enciclopédia livre

A potência de um binário teste de hipótese é a probabilidade de que o teste rejeita correctamente a hipótese nula (H 0 ) quando um específico hipótese alternativa (H 1 ) é verdadeiro. O poder estatístico varia de 0 a 1, e à medida que aumenta o poder estatístico, a probabilidade de fazer um erro do tipo II(erroneamente não rejeitar o nulo) diminui. Para obter uma probabilidade de erro do tipo II de β, o poder estatístico correspondente é 1 - β. Por exemplo, se experiência 1 tem um poder estatístico de 0,7, e experimento 2 tem um poder estatístico de 0,95, então existe uma probabilidade mais forte que a experiência 1 tinha um erro de tipo II do que expericia 2, e experimento 2 é mais confiável do que a experiência 1 devido à redução da probabilidade de um erro de tipo II. Ele pode ser equivalentemente pensada como a probabilidade de aceitar a hipótese alternativa (H 1 ) quando é verdadeira, ou seja, a capacidade de um teste para detectar um efeito específico, se esse efeito específico realmente existe. Isso é,

Se não é uma igualdade, mas sim simplesmente a negação de (assim, por exemplo, com algum parâmetro da população não observado temos simplesmente ), em seguida, o poder não pode ser calculado a menos probabilidades são conhecidos por todos os possíveis valores do parâmetro que violam a hipótese nula. Assim um modo geral refere-se a um poder de teste contra uma hipótese alternativa específica .

Como a potência aumenta, há uma probabilidade de diminuição de um erro de tipo II, também referido como a taxa de falsos negativos ( β ) uma vez que a potência é igual a 1 -  β . Um conceito semelhante é o tipo I de erro probabilidade, também referida como a “taxa de falsos positivos” ou o nível de um teste sob a hipótese nula.

Análise de poder pode ser usado para calcular o mínimo tamanho da amostra necessário para que se possa ser razoavelmente provável para detectar um efeito de um determinado tamanho . Por exemplo: “quantas vezes eu preciso para jogar uma moeda para concluir que é manipulado por um determinado período?” Análise de potência também pode ser usado para calcular o tamanho mínimo de efeito que é susceptível de ser detectada em um estudo utilizando uma determinada amostra Tamanho. Além disso, o conceito de alimentação é utilizada para fazer comparações entre diferentes procedimentos de teste estatístico: por exemplo, entre um teste paramétrico e um teste não paramétrico da mesma hipótese.

No contexto de classificação binária , o poder de um teste é chamado a sua sensibilidade estatística , a sua verdadeira taxa positiva, ou a sua probabilidade de detecção.

fundo

Os testes estatísticos usar dados de amostras para avaliar, ou fazer inferências sobre, uma população estatística . Na configuração concreta de uma comparação de duas amostras, o objectivo é o de avaliar se os valores médios de algum atributo obtidos para os indivíduos em dois sub-populações diferentes. Por exemplo, para testar a hipótese nula de que os médios dezenas de homens e mulheres em um teste não diferem, amostras de homens e mulheres são atraídos, o teste é administrado a eles, e a pontuação média de um grupo é comparada com a de o outro grupo utilizando um teste estatístico, tal como o de duas amostras z -test . O poder do teste é a probabilidade de que o teste vai encontrar uma diferença estatisticamente significativa entre homens e mulheres, como uma função do tamanho da verdadeira diferença entre essas duas populações.

Fatores que influenciam o poder

poder estatístico pode depender de um número de factores. Alguns fatores podem ser particular a uma situação de teste específico, mas, no mínimo, o poder quase sempre depende de três fatores:

Um critério de significância é uma declaração de como improvável um resultado positivo deve ser, se a hipótese nula de nenhum efeito é verdade, pois a hipótese nula deve ser rejeitada. Os critérios mais vulgarmente utilizados são probabilidades de 0,05 (5%, 1 em 20), 0,01 (1%, 1 em 100), e 0,001 (0,1%, 1 em 1000). Se o critério é 0,05, a probabilidade dos dados implicando um efeito pelo menos tão grande como o efeito observado quando a hipótese nula é verdade deve ser inferior a 0,05, para a hipótese nula de nenhum efeito para ser rejeitado. Uma maneira fácil de aumentar a potência de um teste consiste em realizar um teste menos conservadora por meio de um critério de significância maior, por exemplo de 0,10 em vez de 0,05. Isto aumenta a possibilidade de rejeição da hipótese nula (isto é, a obtenção de um resultado estatisticamente significativo) quando a hipótese nula é falsa; ou seja, reduz-se o risco de um erro de tipo II (falso negativo sobre se existe um efeito). Mas também aumenta o risco de se obter um resultado estatisticamente significativo (isto é, rejeição da hipótese nula) quando a hipótese nula de não é falsa; ou seja, aumenta o risco de um erro de tipo I (falsos positivos).

A magnitude do efeito de interesse na população pode ser quantificada em termos de um tamanho do efeito , em que há uma maior potência para detectar efeitos maiores. Um tamanho de efeito pode ser um valor direta da quantidade de interesse, ou pode ser uma medida padronizada que também explica a variabilidade na população. Por exemplo, numa análise comparando os resultados em uma população tratada e de controlo, a diferença de resultado significa Y  -  X seria uma estimativa direta do tamanho do efeito, ao passo que ( Y  -  X ) / σ onde σ é o desvio padrão comum de os resultados nos grupos tratados e de controlo, seria um tamanho estimado do efeito padronizado. Se construída de forma adequada, um tamanho do efeito padronizado, juntamente com o tamanho da amostra, vai determinar completamente a energia. Um tamanho de efeito (directo) não padronizado raramente será suficiente para determinar a energia, uma vez que não contém informação sobre a variabilidade nas medições.

O tamanho da amostra determina a quantidade de erro de amostragem inerente a um resultado de teste. Outras coisas sendo iguais, os efeitos são mais difíceis de detectar em amostras menores. Aumentar tamanho da amostra é muitas vezes a maneira mais fácil de aumentar o poder estatístico de um teste. Como o aumento do tamanho da amostra se traduz em maior potência é uma medida da eficiência do exemplo de ensaio para, o tamanho da amostra necessária para uma dada potência.

A precisão com a qual os dados são medidos também influencia o poder estatístico. Por conseguinte, a energia pode frequentemente ser melhorada por redução do erro de medição nas dados. Um conceito relacionado é o de melhorar a “confiança” do acto a ser avaliado (como na fiabilidade psicométrica ).

O projeto de um experimento ou estudo observacional muitas vezes influencia o poder. Por exemplo, numa situação de teste de duas amostras com um determinado tamanho total de amostra n , que é o ideal para ter o mesmo número de observações das duas populações a serem comparadas (o tempo que as variações nas duas populações são o mesmo). Na análise de regressão e análise de variância , há extensas teorias e estratégias práticas para melhorar o poder baseado em otimamente definir os valores das variáveis independentes no modelo.

Interpretação

Embora não existam normas formais para poder (por vezes referido como π ), a maioria dos pesquisadores avaliar o poder de seus testes usando π  = 0,80 como um padrão para adequação. Esta convenção implica um comércio quatro-para-um entre fora β -risco e α -risco. ( Β é a probabilidade de um erro de Tipo II, e α é a probabilidade de um erro de Tipo I; 0,2 e 0,05 são valores convencionais para β e α ). No entanto, haverá momentos em que esta ponderação 4-to-1 é impróprio. Na medicina, por exemplo, os testes são frequentemente concebidos de tal forma que será produzido há falsos negativos (erros do tipo II). Mas isso, inevitavelmente, aumenta o risco de obter um falso positivo (um erro de Tipo I). O raciocínio é que é melhor para dizer a um paciente saudável “que pode ter encontrado o teste de algo-let ainda mais”, do que dizer a um paciente doente “está tudo bem.”

Análise de poder é apropriado quando a preocupação é com a rejeição correta de uma hipótese nula falsa. Em muitos contextos, a questão é menos sobre como determinar se existe ou não uma diferença, mas sim com a obtenção de uma mais refinado estimativa do tamanho do efeito população. Por exemplo, se esperava uma população correlação entre inteligência e o desempenho do trabalho de cerca de 0,50, um tamanho de amostra de 20 nos dar aproximadamente 80% de potência (alfa = 0,05, bicaudal) para rejeição da hipótese nula de correlação zero. No entanto, ao fazer este estudo são provavelmente mais interessados em saber se a correlação é de 0,30 ou 0,60 ou 0,50. Neste contexto, seria necessário um tamanho muito maior amostra, a fim de reduzir o intervalo de confiança de nossa estimativa para uma faixa que é aceitável para os nossos propósitos. Técnicas semelhantes às empregadas em uma análise de potência tradicional pode ser utilizado para determinar o tamanho da amostra necessária para a largura de um intervalo de confiança a ser inferior a um determinado valor.

Muitas análises estatísticas envolvem a estimativa de várias quantidades desconhecidas. Em casos simples, todos menos um dos estas quantidades são parâmetros de perturbação . Neste cenário, o único poder relevante refere-se à quantidade única que passará por inferência estatística formal. Em alguns contextos, particularmente se as metas são mais "exploratória", pode haver uma série de quantidades de interesse na análise. Por exemplo, em um múltiplo análise de regressão que pode incluir vários co-variáveis de interesse em potencial. Em situações como esta, onde várias hipóteses estão sob consideração, é comum que os poderes associados com os diferentes hipóteses diferentes. Por exemplo, em análise de regressão múltipla, a potência para detectar um efeito de um determinado tamanho é relacionada com a variação da covariável. Desde diferentes covariáveis terá diferentes variações, seus poderes serão diferentes também.

Qualquer análise estatística envolvendo múltiplas hipóteses estão sujeitas a inflação da taxa de erro tipo I se não forem tomadas medidas adequadas. Tais medidas envolvem tipicamente a aplicação de um limiar superior de rigor para rejeitar uma hipótese, a fim de compensar as comparações múltiplas a serem feitas ( por exemplo, como no método de Bonferroni ). Nesta situação, a análise de energia deve refletir a abordagem de teste múltiplo a ser utilizado. Assim, por exemplo, um dado estudo podem ser bem alimentado para detectar um determinado tamanho do efeito, quando apenas um teste é para ser feito, mas o mesmo tamanho do efeito podem ter um poder muito menor se vários testes estão a ser realizados.

Também é importante considerar o poder estatístico de um teste de hipóteses ao interpretar seus resultados. O poder de um teste é a probabilidade de rejeitar corretamente a hipótese nula quando ela é falsa; o poder de um teste é influenciada pela escolha do nível de significância para o teste, o tamanho do efeito a ser medido, e a quantidade de dados disponíveis. Um teste de hipótese pode falhar para rejeitar o nulo, por exemplo, se existe uma diferença verdadeira entre duas populações sendo comparada por um teste-t , mas o efeito é pequeno e a dimensão da amostra é demasiado pequena para distinguir o efeito de acaso. Muitos ensaios clínicos , por exemplo, têm baixo poder estatístico para detectar diferenças de efeitos adversos de tratamentos, uma vez que tais efeitos podem ser rara e do número de pacientes afectados pequena.

A priori vs. post hoc análise

Análise de poder pode ser feito antes ( a priori ou a análise de energia potencial) ou depois ( post hoc ou análise de poder retrospectiva) os dados são coletados. A priori, a análise do poder é conduzida antes do estudo de investigação, e é normalmente usado em estimar o tamanho das amostras suficientes para conseguir energia adequada. -Post hoc análise do "poder observado" é realizado após um estudo foi concluído, e usa o tamanho da amostra e efeito tamanho obtido para determinar o que o poder estava no estudo, assumindo que o tamanho do efeito na amostra é igual ao tamanho do efeito na população. Considerando a utilidade da análise de energia potencial em design experimental é universalmente aceite, análise de poder post hoc é fundamentalmente falho. Caindo para a tentação de usar a análise estatística dos dados coletados para estimar o poder vai resultar em valores uninformative e enganosas. Em particular, foi demonstrado que a post-hoc "potência observada" é uma função de um-para-um da p -valor atingido. Este foi estendido para mostrar que todos os post-hoc poder analisa sofrem do que é chamado de "abordagem poder paradoxo" (PAP), em que um estudo com um resultado nulo é pensado para mostrar mais evidências de que a hipótese nula é realmente verdade quando o p -valor é menor, uma vez que a potência aparente para detectar um efeito real seria maior. Na verdade, um menor p -valor é bem compreendida para fazer a hipótese nula relativamente menos provável de ser verdade.

Aplicação

Agências de financiamento, comissões de ética e revisão painéis de pesquisa freqüentemente solicitar que um pesquisador realizar uma análise de energia, por exemplo, para determinar o número mínimo de cobaias animais necessários para uma experiência para ser informativo. Em estatísticas freqüentista , um estudo de fraca potência é improvável que permitem escolher entre hipóteses no nível de significância desejado. Na estatística bayesiana , testes de hipóteses do tipo usado em análise de poder clássica não é feito. No quadro Bayesiana, uma atualiza suas crenças anteriores usando os dados obtidos em um determinado estudo. Em princípio, um estudo que seria considerado de fraca potência a partir da perspectiva de testes de hipóteses ainda pode ser utilizado em tal processo de actualização. No entanto, o poder continua a ser uma medida útil de quanto um determinado tamanho de experimento pode ser esperado para refinar as crenças de um. Um estudo com baixo consumo de energia é susceptível de conduzir a uma grande mudança nas crenças.

Exemplo

O que se segue é um exemplo que mostra como calcular a potência para um experimento randomizado: Suponhamos que o objectivo de um experimento é estudar o efeito de um tratamento em alguma quantidade, e comparar os sujeitos de pesquisa através da medição da quantidade antes e após o tratamento, analisando o dados usando um emparelhado t-teste . Deixe e denotam as medidas de pré-tratamento e pós-tratamento no sujeito i respectivamente. O possível efeito do tratamento deve ser visível nas diferenças que são assumidos para serem distribuídos de forma independente, todos com o mesmo valor esperado e variância.

O efeito do tratamento podem ser analisados utilizando um teste t unilateral. A hipótese nula de qualquer efeito será que a média da diferença será igual a zero, ou seja, neste caso, a hipótese alternativa estabelece um efeito positivo, que corresponde à estatística de teste é:

Onde

n é o tamanho da amostra e é o erro padrão. A estatística de teste sob a hipótese nula segue uma distribuição t Student . Além disso, assume que a hipótese nula será rejeitada no nível de significância de Uma vez que n é grande, pode-se aproximar a distribuição t por uma distribuição normal e calcular o valor crítico utilizando a função quantil , o inverso da função de distribuição cumulativa da distribuição normal. Acontece que a hipótese nula será rejeitada se

Agora, suponha que a hipótese alternativa é verdadeira e . Então, o poder é

Para grande n , segue aproximadamente um padrão de distribuição normal quando a hipótese alternativa é verdadeiro, a potência aproximada pode ser calculada como

De acordo com esta fórmula, a potência aumenta com os valores do parâmetro para um valor específico de uma potência mais elevada pode ser obtida através do aumento do tamanho da amostra n .

Não é possível garantir um grande poder suficiente para todos os valores de como pode ser muito estreita para 0. O mínimo ( ínfimo valor) da energia é igual ao tamanho do teste, neste exemplo a 0,05. No entanto, é de nenhuma importância de distinguir entre pequenos e valores positivos. Se é desejável ter energia suficiente, que pelo menos 0,90, para detectar os valores do tamanho da amostra necessária pode ser calculada, aproximadamente:

a partir do qual se segue que

Por isso, utilizando a função quantil,

onde é uma quantil normal padrão; ver Probit para uma explicação sobre a relação entre a e os valores de z.

Extensão

poder Bayesian

No frequencista configuração, os parâmetros são assumidos ter um valor específico que é improvável que seja verdade. Esta questão pode ser abordada por assumir o parâmetro tem uma distribuição. O poder resultante é por vezes referido poder como Bayesian que é comumente usado no ensaio clínico design.

probabilidade de previsão do sucesso

Ambos frequencista poder e poder Bayesian usar significância estatística como o critério de sucesso. No entanto, a significância estatística muitas vezes não é suficiente para definir o sucesso. Para abordar esta questão, o conceito de energia pode ser estendido ao conceito de probabilidade de previsão do sucesso (OPP). O critério de sucesso para PPOS não se restringe a significância estatística e é comumente usado em ensaios clínicos projetos.

Software para os cálculos do tamanho da amostra e de energia

Numerosos programas de código livre e / ou abertas estão disponíveis para a realização de cálculos de tamanho de alimentação e de amostra. Esses incluem

  • G * Power ( http://www.gpower.hhu.de/ )
  • WebPower análise poder estatístico online gratuito ( http://webpower.psychstat.org )
  • powerandsamplesize.com gratuito e calculadoras online de código aberto
  • Energizar! fornece funções baseadas no Excel convenientes para determinar o tamanho do efeito mínimo detectável e mínima dimensão da amostra necessária para vários modelos experimentais e quasi-experimentais.
  • PowerUpR é de R versão do pacote de PowerUp! e, adicionalmente, inclui funções para determinar o tamanho da amostra para vários experimentos aleatórios de vários níveis, com ou sem limitações orçamentais.
  • R pwr pacote
  • R WebPower pacote

Veja também

Notas

Referências

  • Everitt, Brian S. (2002). A Cambridge Dictionary of Statistics . Cambridge University Press. ISBN  0-521-81099-X .
  • Cohen, J. (1988). Análise Estatística de energia para as Ciências do Comportamento (2ª ed.). ISBN  0-8058-0283-5 .
  • Aberson, CL (2010). Análise potência aplicada para a Ciência Comportamental . ISBN  1-84872-835-2 .

links externos