Teste de hipótese estatística - Statistical hypothesis testing

Uma hipótese estatística é uma hipótese que pode ser testada com base em dados observados modelados como os valores realizados tomados por uma coleção de variáveis ​​aleatórias . Um conjunto de dados é modelado como sendo valores realizados de uma coleção de variáveis ​​aleatórias tendo uma distribuição de probabilidade conjunta em algum conjunto de distribuições conjuntas possíveis. A hipótese que está sendo testada é exatamente aquele conjunto de possíveis distribuições de probabilidade. Um teste de hipótese estatística é um método de inferência estatística . Uma hipótese alternativa é proposta para a distribuição de probabilidade dos dados, de forma explícita ou apenas informalmente. A comparação dos dois modelos é considerada estatisticamente significativa se, de acordo com uma probabilidade limite - o nível de significância - os dados seriam improváveis ​​de ocorrer se a hipótese nula fosse verdadeira. Um teste de hipótese especifica quais resultados de um estudo podem levar a uma rejeição da hipótese nula em um nível de significância pré-especificado, enquanto usa uma medida pré-escolhida de desvio dessa hipótese (a estatística de teste ou adequação medir). O nível de significância pré-escolhido é a "taxa de falsos positivos" máxima permitida. Quer-se controlar o risco de rejeitar incorretamente uma hipótese nula verdadeira.

O processo de distinção entre a hipótese nula e a hipótese alternativa é auxiliado pela consideração de dois tipos de erros. Um erro Tipo I ocorre quando uma hipótese nula verdadeira é rejeitada. Um erro do tipo II ocorre quando uma hipótese nula falsa não é rejeitada.

Os testes de hipóteses baseados em significância estatística são outra forma de expressar intervalos de confiança (mais precisamente, conjuntos de confiança). Em outras palavras, todo teste de hipótese com base na significância pode ser obtido por meio de um intervalo de confiança, e cada intervalo de confiança pode ser obtido por meio de um teste de hipótese com base na significância.

O teste de hipótese com base na significância é a estrutura mais comum para o teste de hipótese estatística. Uma estrutura alternativa para o teste de hipótese estatística é especificar um conjunto de modelos estatísticos , um para cada hipótese candidata, e então usar técnicas de seleção de modelo para escolher o modelo mais apropriado. As técnicas de seleção mais comuns são baseadas no critério de informação Akaike (= AIC) ou no critério de informação Bayesiano (= BIC).

O processo de teste

Na literatura estatística, o teste de hipóteses estatísticas desempenha um papel fundamental. Existem dois processos matematicamente equivalentes que podem ser usados.

A linha de raciocínio usual é a seguinte:

  1. Existe uma hipótese inicial de pesquisa da qual a verdade é desconhecida.
  2. A primeira etapa é declarar as hipóteses nula e alternativa relevantes . Isso é importante, pois apresentar hipóteses incorretamente confundirá o resto do processo.
  3. A segunda etapa é considerar as suposições estatísticas feitas sobre a amostra ao fazer o teste; por exemplo, suposições sobre a independência estatística ou sobre a forma das distribuições das observações. Isso é igualmente importante, pois suposições inválidas significam que os resultados do teste são inválidos.
  4. Decida qual teste é apropriado e indique a estatística de teste T relevante .
  5. Derive a distribuição da estatística de teste sob a hipótese nula a partir dos pressupostos. Em casos padrão, este será um resultado bem conhecido. Por exemplo, a estatística de teste pode seguir uma distribuição t de Student com graus de liberdade conhecidos ou uma distribuição normal com média e variância conhecidas. Se a distribuição da estatística de teste for completamente fixada pela hipótese nula, chamamos a hipótese de simples, caso contrário, ela é chamada de composta.
  6. Selecione um nível de significância ( α ), um limite de probabilidade abaixo do qual a hipótese nula será rejeitada. Os valores comuns são 5% e 1%.
  7. A distribuição da estatística de teste sob a hipótese nula divide os valores possíveis de T entre aqueles para os quais a hipótese nula é rejeitada - a chamada região crítica - e aqueles para os quais não é. A probabilidade da região crítica é α . No caso de uma hipótese nula composta, a probabilidade máxima da região crítica é α .
  8. Calcular a partir das observações as observadas valor t obs da estatística de teste t .
  9. Decida rejeitar a hipótese nula em favor da alternativa ou não rejeitá-la. A regra de decisão é rejeitar a hipótese nula H 0 se o valor observado t obs estiver na região crítica, e não rejeitar a hipótese nula caso contrário.

Uma formulação alternativa comum deste processo é a seguinte:

  1. Calcular a partir das observações as observadas valor t obs da estatística de teste t .
  2. Calcule o valor p . Esta é a probabilidade, sob a hipótese nula, de amostrar uma estatística de teste pelo menos tão extrema quanto aquela que foi observada (a probabilidade máxima desse evento, se a hipótese for composta).
  3. Rejeite a hipótese nula, em favor da hipótese alternativa, se e somente se o valor p for menor que (ou igual a) o nível de significância (a probabilidade selecionada) limiar ( α ), por exemplo 0,05 ou 0,01.

O primeiro processo era vantajoso no passado, quando apenas tabelas de estatísticas de teste em limites de probabilidade comuns estavam disponíveis. Isso permitiu que uma decisão fosse tomada sem o cálculo de uma probabilidade. Era adequado para o trabalho em sala de aula e para uso operacional, mas era deficiente para relatar os resultados. Este último processo contou com extensas tabelas ou com suporte computacional nem sempre disponível. O cálculo explícito de uma probabilidade é útil para relatórios. Os cálculos agora são realizados trivialmente com o software apropriado.

A diferença nos dois processos aplicados ao exemplo da mala radioativa (abaixo):

  • "A leitura do contador Geiger é 10. O limite é 9. Verifique a mala."
  • "A leitura do contador Geiger é alta; 97% das malas seguras têm leituras mais baixas. O limite é de 95%. Verifique a mala."

O primeiro relatório é adequado, o segundo dá uma explicação mais detalhada dos dados e do motivo pelo qual a mala está a ser despachada.

Não rejeitar a hipótese nula não significa que a hipótese nula seja "aceita" (consulte a seção Interpretação ).

Os processos descritos aqui são perfeitamente adequados para computação. Eles negligenciam seriamente as considerações de planejamento de experimentos .

É particularmente crítico que os tamanhos de amostra apropriados sejam estimados antes de conduzir o experimento.

A frase "teste de significância" foi cunhada pelo estatístico Ronald Fisher .

Interpretação

O valor p é a probabilidade de que um determinado resultado (ou um resultado mais significativo) ocorra sob a hipótese nula. A um nível de significância de 0,05, seria de se esperar que a moeda justa rejeitasse (incorretamente) a hipótese nula em cerca de 1 em cada 20 testes. O valor p não fornece a probabilidade de que qualquer uma das hipóteses esteja correta (uma fonte comum de confusão).

Se o valor p for menor que o limite de significância escolhido (equivalentemente, se a estatística de teste observada estiver na região crítica), então dizemos que a hipótese nula é rejeitada no nível de significância escolhido. Se o valor p não for menor que o limite de significância escolhido (equivalentemente, se a estatística de teste observada estiver fora da região crítica), então a hipótese nula não é rejeitada.

No exemplo de Lady Tasting tea (abaixo), Fisher exigiu que a Lady classificasse apropriadamente todas as xícaras de chá para justificar a conclusão de que o resultado provavelmente não resultaria do acaso. Seu teste revelou que se a senhora estava efetivamente adivinhando ao acaso (a hipótese nula), havia uma chance de 1,4% de que os resultados observados (chá perfeitamente ordenado) ocorressem.

Rejeitar a hipótese de que uma grande pegada se originou de um urso não prova imediatamente a existência do Pé Grande . O teste de hipóteses enfatiza a rejeição, que se baseia em uma probabilidade, e não na aceitação.

"A probabilidade de rejeitar a hipótese nula é uma função de cinco fatores: se o teste é unilateral ou bicaudal, o nível de significância, o desvio padrão, a quantidade de desvio da hipótese nula e o número de observações. "

Uso e importância

As estatísticas são úteis na análise da maioria das coleções de dados. Isso é igualmente verdadeiro para o teste de hipóteses, que pode justificar conclusões mesmo quando não existe teoria científica. No exemplo do chá de degustação de Lady, era "óbvio" que não existia nenhuma diferença entre (leite derramado no chá) e (chá derramado no leite). Os dados contradizem o "óbvio".

As aplicações do mundo real de teste de hipótese incluem:

  • Testando se mais homens do que mulheres sofrem de pesadelos
  • Estabelecer autoria de documentos
  • Avaliando o efeito da lua cheia no comportamento
  • Determinar o intervalo em que um morcego pode detectar um inseto por eco
  • Decidindo se o carpete do hospital resulta em mais infecções
  • Selecionando os melhores meios para parar de fumar
  • Verificar se os adesivos refletem o comportamento do proprietário do carro
  • Testando as afirmações de analistas de caligrafia

O teste de hipótese estatística desempenha um papel importante em toda a estatística e na inferência estatística . Por exemplo, Lehmann (1992) em uma revisão do artigo fundamental de Neyman e Pearson (1933) diz: "No entanto, apesar de suas deficiências, o novo paradigma formulado no artigo de 1933 e os muitos desenvolvimentos realizados dentro de sua estrutura continuam a desempenham um papel central na teoria e na prática das estatísticas e espera-se que o façam num futuro previsível ".

O teste de significância tem sido a ferramenta estatística preferida em algumas ciências sociais experimentais (mais de 90% dos artigos no Journal of Applied Psychology durante o início dos anos 1990). Outros campos têm favorecido a estimativa de parâmetros (por exemplo , tamanho do efeito ). O teste de significância é usado como um substituto para a comparação tradicional de valor predito e resultado experimental no centro do método científico . Quando a teoria só é capaz de prever o sinal de um relacionamento, um teste de hipótese direcional (unilateral) pode ser configurado de forma que apenas um resultado estatisticamente significativo apóie a teoria. Essa forma de avaliação da teoria é a aplicação de teste de hipóteses mais criticada.

Precauções

“Se o governo exigisse procedimentos estatísticos para exibir rótulos de advertência como os das drogas, a maioria dos métodos de inferência teria rótulos longos de fato”. Esse cuidado se aplica a testes de hipóteses e alternativas a eles.

O teste de hipótese bem-sucedido está associado a uma probabilidade e a uma taxa de erro tipo I. A conclusão pode estar errada.

A conclusão do teste é tão sólida quanto a amostra na qual se baseia. O desenho do experimento é crítico. Uma série de efeitos inesperados foram observados, incluindo:

  • O efeito Hans inteligente . Um cavalo parecia ser capaz de fazer aritmética simples.
  • O efeito Hawthorne . Os trabalhadores industriais eram mais produtivos com uma iluminação melhor e mais produtivos com uma iluminação pior.
  • O efeito placebo . Comprimidos sem ingredientes medicamente ativos foram notavelmente eficazes.

Uma análise estatística de dados enganosos produz conclusões enganosas. A questão da qualidade dos dados pode ser mais sutil. Na previsão, por exemplo, não há acordo sobre uma medida de precisão da previsão. Na ausência de uma medição de consenso, nenhuma decisão baseada em medições será sem controvérsia.

O livro How to Lie with Statistics é o livro mais popular sobre estatísticas já publicado. Não leva muito em consideração o teste de hipóteses, mas seus cuidados são aplicáveis, incluindo: Muitas afirmações são feitas com base em amostras muito pequenas para serem convencidas. Se um relatório não menciona o tamanho da amostra, duvide.

O teste de hipóteses atua como um filtro de conclusões estatísticas; apenas os resultados que atendem a um limite de probabilidade são publicáveis. A economia também atua como um filtro de publicação; somente aqueles resultados favoráveis ​​ao autor e fonte de financiamento podem ser submetidos para publicação. O impacto da filtragem na publicação é denominado viés de publicação . Um problema relacionado é o de vários testes (às vezes vinculados à mineração de dados ), em que uma variedade de testes para uma variedade de efeitos possíveis são aplicados a um único conjunto de dados e apenas aqueles que produzem um resultado significativo são relatados. Freqüentemente, esses problemas são resolvidos usando procedimentos de correção de multiplicidade que controlam a taxa de erro familiar (FWER) ou a taxa de descoberta falsa (FDR).

Aqueles que tomam decisões críticas com base nos resultados de um teste de hipótese são prudentes em olhar para os detalhes em vez de apenas para a conclusão. Nas ciências físicas, a maioria dos resultados são totalmente aceitos somente quando confirmados de forma independente. O conselho geral sobre estatísticas é: "Os números nunca mentem, mas os mentirosos figuram" (anônimo).

Exemplos

Proporção de sexo humano

O primeiro uso de teste de hipótese estatística é geralmente creditado à questão de saber se os nascimentos de homens e mulheres são igualmente prováveis ​​(hipótese nula), que foi abordada em 1700 por John Arbuthnot (1710), e mais tarde por Pierre-Simon Laplace (1770) .

Arbuthnot examinou registros de nascimento em Londres para cada um dos 82 anos de 1629 a 1710 e aplicou o teste do sinal , um teste não paramétrico simples . A cada ano, o número de homens nascidos em Londres superava o de mulheres. Considerando mais nascimentos do sexo masculino ou feminino como igualmente prováveis, a probabilidade do resultado observado é 0,5 82 , ou cerca de 1 em 4,8360,0000,0000,0000,0000,0000; em termos modernos, esse é o valor p . Arbuthnot concluiu que isso é muito pequeno para ser devido ao acaso e, em vez disso, deve ser devido à providência divina: "De onde segue-se que é a Arte, não o Acaso, que governa." Em termos modernos, ele rejeitou a hipótese nula de nascimentos masculinos e femininos igualmente prováveis ​​no nível de significância p  = 1/2 82 .

Laplace considerou as estatísticas de quase meio milhão de nascimentos. As estatísticas mostraram um excesso de meninos em relação às meninas. Ele concluiu, calculando um valor p, que o excesso era um efeito real, mas inexplicável.

Senhora degustando chá

Em um famoso exemplo de teste de hipótese, conhecido como Lady Tasting tea , Dr. Muriel Bristol , um colega de Fisher afirmou ser capaz de dizer se o chá ou o leite foi adicionado primeiro a uma xícara. Fisher propôs dar a ela oito xícaras, quatro de cada variedade, em ordem aleatória. Alguém poderia então perguntar qual era a probabilidade de ela conseguir o número que acertou, mas apenas por acaso. A hipótese nula era que a Senhora não tinha tal habilidade. A estatística de teste foi uma contagem simples do número de sucessos na seleção das 4 xícaras. A região crítica foi o único caso de 4 sucessos de 4 possíveis com base em um critério de probabilidade convencional (<5%). Um padrão de 4 sucessos corresponde a 1 de 70 combinações possíveis (p≈ 1,4%). Fisher afirmou que nenhuma hipótese alternativa foi (nunca) necessária. A senhora identificou corretamente todas as xícaras, o que seria considerado um resultado estatisticamente significativo.

Julgamento em tribunal

Um procedimento de teste estatístico é comparável a um julgamento criminal ; o réu é considerado inocente enquanto sua culpa não for provada. O promotor tenta provar a culpa do réu. Somente quando há provas suficientes para a acusação o réu é condenado.

No início do procedimento, existem duas hipóteses : “o arguido é inocente” e : “o arguido é culpado”. O primeiro , é chamado de hipótese nula . A segunda , é chamada de hipótese alternativa . É a hipótese alternativa que se espera apoiar.

A hipótese de inocência é rejeitada apenas quando um erro é muito improvável, porque não se deseja condenar um réu inocente. Esse erro é chamado de erro de primeiro tipo (ou seja, a condenação de uma pessoa inocente), e a ocorrência desse erro é controlada para ser rara. Como consequência desse comportamento assimétrico, um erro do segundo tipo (absolvição de quem cometeu o crime) é mais comum.

H 0 é verdadeiro
Verdadeiramente inocente
H 1 é verdadeiro
Verdadeiramente culpado
Não rejeite a hipótese nula
Acquittal
Decisão certa Erro de decisão errada
Tipo II
Rejeitar hipótese nula
Convicção
Erro de decisão errada
Tipo I
Decisão certa

Um julgamento criminal pode ser considerado como um ou ambos os processos de decisão: culpado versus inocente ou evidência versus um limite ("além de uma dúvida razoável"). Em uma visão, o réu é julgado; na outra visão, o desempenho da acusação (que tem o ônus da prova) é julgado. Um teste de hipótese pode ser considerado um julgamento de uma hipótese ou um julgamento de evidência.

Feijão Filosofal

O exemplo a seguir foi produzido por um filósofo que descreve gerações de métodos científicos antes que o teste de hipótese fosse formalizado e popularizado.

Poucos feijões desse punhado são brancos.
A maioria dos feijões neste saco são brancos.
Portanto: Provavelmente, esses grãos foram retirados de outra sacola.
Esta é uma inferência hipotética.

O feijão na sacola é a população. O punhado é a amostra. A hipótese nula é que a amostra teve origem na população. O critério para rejeitar a hipótese nula é a diferença "óbvia" na aparência (uma diferença informal na média). O resultado interessante é que a consideração de uma população real e de uma amostra real produziu uma bolsa imaginária. O filósofo estava considerando lógica em vez de probabilidade. Para ser um teste de hipótese estatística real, este exemplo requer as formalidades de um cálculo de probabilidade e uma comparação dessa probabilidade com um padrão.

Uma simples generalização do exemplo considera um saco misto de feijões e um punhado que contém muito poucos ou muitos feijões brancos. A generalização considera ambos os extremos. São necessários mais cálculos e mais comparações para chegar a uma resposta formal, mas a filosofia central permanece inalterada; Se a composição do punhado for muito diferente da do saco, então a amostra provavelmente se originou de outro saco. O exemplo original é denominado teste unilateral ou unilateral, enquanto a generalização é denominada teste bilateral ou bilateral.

A afirmação também se baseia na inferência de que a amostragem foi aleatória. Se alguém tivesse mexido na sacola para encontrar feijões brancos, isso explicaria por que o punhado tinha tantos feijões brancos e também explicaria por que o número de feijões brancos na sacola foi esgotado (embora a sacola provavelmente deva ser assumida muito maior do que a mão).

Jogo de cartas clarividente

Uma pessoa (o sujeito) é testada quanto à clarividência . Eles vêem o reverso de uma carta de jogo escolhida aleatoriamente 25 vezes e perguntam a qual dos quatro naipes ela pertence. O número de hits, ou respostas corretas, é chamado X .

Ao tentarmos encontrar evidências de sua clarividência, por enquanto a hipótese nula é que a pessoa não é clarividente. A alternativa é: a pessoa é (mais ou menos) vidente.

Se a hipótese nula for válida, a única coisa que a pessoa do teste pode fazer é adivinhar. Para cada carta, a probabilidade (frequência relativa) de qualquer naipe aparecer é 1/4. Se a alternativa for válida, o assunto do teste irá prever o naipe corretamente com probabilidade maior que 1/4. Chamaremos a probabilidade de adivinhar corretamente de p . As hipóteses, então, são:

  • hipótese nula     (apenas supondo)

e

  • hipótese alternativa    (verdadeiro clarividente).

Quando a cobaia prediz corretamente todas as 25 cartas, nós as consideraremos clarividentes e rejeitaremos a hipótese nula. Assim também com 24 ou 23 acertos. Com apenas 5 ou 6 acertos, por outro lado, não há motivo para considerá-los assim. Mas e 12 ou 17 resultados? Qual é o número crítico, c , de acertos, a partir do qual consideramos o sujeito clarividente? Como determinamos o valor crítico c ? Com a escolha c = 25 (ou seja, só aceitamos a clarividência quando todas as cartas são previstas corretamente), somos mais críticos do que com c = 10. No primeiro caso, quase nenhum sujeito de teste será reconhecido como clarividente; no segundo caso, um certo número passará no teste. Na prática, é decidido o quão crítico será. Ou seja, a pessoa decide com que frequência aceita um erro do primeiro tipo - um falso positivo ou erro Tipo I. Com c = 25, a probabilidade de tal erro é:

e, portanto, muito pequeno. A probabilidade de um falso positivo é a probabilidade de acertar aleatoriamente todas as 25 vezes.

Sendo menos crítico, com c = 10, dá:

Assim, c = 10 produz uma probabilidade muito maior de falso positivo.

Antes que o teste seja realmente realizado, a probabilidade máxima aceitável de um erro Tipo I ( α ) é determinada. Normalmente, são selecionados valores na faixa de 1% a 5%. (Se a taxa de erro máxima aceitável for zero, um número infinito de suposições corretas é necessário.) Dependendo dessa taxa de erro Tipo 1, o valor crítico c é calculado. Por exemplo, se selecionarmos uma taxa de erro de 1%, c é calculado assim:

De todos os números c, com esta propriedade, escolhemos o menor, de forma a minimizar a probabilidade de um erro do Tipo II, um falso negativo . Para o exemplo acima, nós selecionamos: .

Mala radioativa

Por exemplo, considere determinar se uma mala contém algum material radioativo. Colocado sob um contador Geiger , ele produz 10 contagens por minuto. A hipótese nula é que nenhum material radioativo está na mala e que todas as contagens medidas são devido à radioatividade ambiente típica do ar circundante e objetos inofensivos. Podemos então calcular a probabilidade de observarmos 10 contagens por minuto se a hipótese nula fosse verdadeira. Se a hipótese nula predizer (digamos) em média 9 contagens por minuto, então, de acordo com a distribuição de Poisson típica para decaimento radioativo, há cerca de 41% de chance de registrar 10 ou mais contagens. Assim, podemos dizer que a mala é compatível com a hipótese nula (isso não garante que não haja material radioativo, apenas que não temos evidências suficientes para sugerir que existe). Por outro lado, se a hipótese nula prevê 3 contagens por minuto (para a qual a distribuição de Poisson prevê apenas 0,1% de chance de registrar 10 ou mais contagens), então a mala não é compatível com a hipótese nula, e provavelmente existem outros fatores responsáveis para produzir as medições.

O teste não afirma diretamente a presença de material radioativo. Um teste bem-sucedido afirma que a alegação de nenhum material radioativo presente é improvável dada a leitura (e, portanto ...). A dupla negativa (refutando a hipótese nula) do método é confusa, mas usar um contra-exemplo para refutar é uma prática matemática padrão. O atrativo do método é sua praticidade. Sabemos (por experiência) a faixa esperada de contagens apenas com a presença de radioatividade ambiente, então podemos dizer que uma medição é extraordinariamente grande. A estatística apenas formaliza o intuitivo usando números em vez de adjetivos. Provavelmente não conhecemos as características das malas radioativas; Apenas presumimos que eles produzem leituras maiores.

Para formalizar ligeiramente a intuição: suspeita-se de radioatividade se a contagem do Geiger com a mala estiver entre ou exceder a maior (5% ou 1%) das contagens do Geiger feitas apenas com a radiação ambiente. Isso não faz suposições sobre a distribuição de contagens. Muitas observações de radiação ambiente são necessárias para obter boas estimativas de probabilidade para eventos raros.

O teste descrito aqui é mais completamente o teste de significância estatística de hipótese nula. A hipótese nula representa o que acreditaríamos por padrão, antes de ver qualquer evidência. A significância estatística é um possível achado do teste, declarado quando a amostra observada provavelmente não teria ocorrido por acaso se a hipótese nula fosse verdadeira. O nome do teste descreve sua formulação e seu possível resultado. Uma característica do teste é sua decisão nítida: rejeitar ou não rejeitar a hipótese nula. Um valor calculado é comparado a um limite, que é determinado a partir do risco de erro tolerável.

Definição de termos

As seguintes definições baseiam-se principalmente na exposição do livro de Lehmann e Romano:

Hipótese estatística
Uma declaração sobre os parâmetros que descrevem uma população (não uma amostra ).
Estatística
Um valor calculado a partir de uma amostra sem quaisquer parâmetros desconhecidos, geralmente para resumir a amostra para fins de comparação.
Hipótese simples
Qualquer hipótese que especifique completamente a distribuição da população.
Hipótese composta
Qualquer hipótese que não especifique completamente a distribuição da população.
Hipótese nula (H 0 )
Uma hipótese associada a uma contradição com uma teoria que se gostaria de provar.
Dados positivos
Dados que permitem ao investigador rejeitar uma hipótese nula.
Hipótese alternativa (H 1 )
Uma hipótese (geralmente composta) associada a uma teoria que se gostaria de provar.
Teste estatístico
Um procedimento cujas entradas são amostras e cujo resultado é uma hipótese.
Região de rejeição / região crítica
O conjunto de valores da estatística de teste para o qual a hipótese nula é rejeitada.
Valor crítico
O valor limite da estatística de teste para rejeitar a hipótese nula.
Poder de um teste (1 -  β )
A probabilidade do teste de rejeitar corretamente a hipótese nula quando a hipótese alternativa for verdadeira. O complemento da taxa de falsos negativos , β . O poder é denominado sensibilidade em bioestatística . ("Este é um teste sensível. Como o resultado é negativo, podemos dizer com segurança que o paciente não tem a condição.") Consulte sensibilidade e especificidade e erros de tipo I e tipo II para definições exaustivas.
Tamanho
Para hipóteses simples, essa é a probabilidade do teste de rejeitar incorretamente a hipótese nula. A taxa de falsos positivos . Para hipóteses compostas, este é o supremo da probabilidade de rejeitar a hipótese nula em todos os casos cobertos pela hipótese nula. O complemento da taxa de falsos positivos é denominado especificidade em bioestatística . ("Este é um teste específico. Como o resultado é positivo, podemos dizer com segurança que o paciente tem a condição.") Consulte sensibilidade e especificidade e erros de tipo I e tipo II para definições exaustivas.
Nível de significância de um teste ( α )
É o limite superior imposto ao tamanho de um teste. Seu valor é escolhido pelo estatístico antes de examinar os dados ou escolher qualquer teste específico a ser usado. É a exposição máxima para rejeitar H 0 erroneamente que eles estão prontos para aceitar. Testar H 0 no nível de significância α significa testar H 0 com um teste cujo tamanho não exceda α . Na maioria dos casos, são usados ​​testes cujo tamanho é igual ao nível de significância.
valor p
Qual seria a probabilidade de observar uma estatística de teste pelo menos tão extrema quanto a realmente observada se a hipótese nula fosse verdadeira.
Teste de significância estatística
Um predecessor do teste de hipótese estatística (consulte a seção Origens). Um resultado experimental foi considerado estatisticamente significativo se uma amostra fosse suficientemente inconsistente com a hipótese (nula). Isso era considerado senso comum, uma heurística pragmática para identificar resultados experimentais significativos, uma convenção que estabelecia um limiar de evidência estatística ou um método para tirar conclusões a partir de dados. O teste de hipótese estatística acrescentou rigor matemático e consistência filosófica ao conceito, tornando explícita a hipótese alternativa. O termo é usado vagamente para a versão moderna que agora faz parte do teste de hipótese estatística.
Teste conservador
Um teste é conservador se, quando construído para um determinado nível de significância nominal, a probabilidade real de rejeitar incorretamente a hipótese nula nunca for maior do que o nível nominal.
Teste exato
Um teste em que o nível de significância ou valor crítico pode ser calculado com exatidão, ou seja, sem qualquer aproximação. Em alguns contextos, esse termo é restrito a testes aplicados a dados categóricos e a testes de permutação , nos quais os cálculos são realizados pela enumeração completa de todos os resultados possíveis e suas probabilidades.

Um teste de hipótese estatística compara uma estatística de teste ( z ou t para exemplos) a um limite. A estatística de teste (a fórmula encontrada na tabela abaixo) é baseada na otimização. Para um nível fixo de taxa de erro Tipo I, o uso dessas estatísticas minimiza as taxas de erro Tipo II (equivalente a maximizar o poder). Os termos a seguir descrevem os testes em termos de tal otimização:

Teste mais poderoso
Para um determinado tamanho ou nível de significância , o teste com maior poder (probabilidade de rejeição) para um determinado valor do (s) parâmetro (s) em teste, contido na hipótese alternativa.
Teste uniformemente mais poderoso (UMP)
Um teste com maior poder para todos os valores do (s) parâmetro (s) em teste, contidos na hipótese alternativa.

Estatísticas de teste comuns

Variações e subclasses

Testes de hipóteses é uma técnica chave de ambos inferência frequencista e Bayesiana inferência , embora os dois tipos de inferência têm diferenças notáveis. Os testes de hipótese estatística definem um procedimento que controla (corrige) a probabilidade de decidir incorretamente que uma posição padrão ( hipótese nula ) está incorreta. O procedimento é baseado na probabilidade de ocorrer um conjunto de observações se a hipótese nula fosse verdadeira. Observe que essa probabilidade de tomar uma decisão incorreta não é a probabilidade de que a hipótese nula seja verdadeira, nem de que qualquer hipótese alternativa específica seja verdadeira. Isso contrasta com outras técnicas possíveis da teoria da decisão, nas quais as hipóteses nula e alternativa são tratadas de maneira mais igualitária.

Uma abordagem bayesiana ingênua para o teste de hipótese é basear as decisões na probabilidade posterior , mas isso falha ao comparar as hipóteses pontuais e contínuas. Outras abordagens para a tomada de decisão, como a teoria da decisão bayesiana , tentam equilibrar as consequências das decisões incorretas em todas as possibilidades, em vez de se concentrar em uma única hipótese nula. Uma série de outras abordagens para chegar a uma decisão com base em dados estão disponíveis por meio da teoria da decisão e decisões ótimas , algumas das quais têm propriedades desejáveis. O teste de hipóteses, entretanto, é uma abordagem dominante para a análise de dados em muitos campos da ciência. Extensões à teoria do teste de hipótese incluem o estudo do poder dos testes, ou seja, a probabilidade de rejeitar corretamente a hipótese nula por ser falsa. Tais considerações podem ser usadas para fins de determinação do tamanho da amostra antes da coleta de dados.

História

Uso precoce

Embora o teste de hipóteses tenha sido popularizado no início do século 20, as primeiras formas foram usadas no século XVIII. O primeiro uso é creditado a John Arbuthnot (1710), seguido por Pierre-Simon Laplace (1770), na análise da razão sexual humana no nascimento; ver § Proporção entre os sexos humanos .

Origens modernas e primeiras controvérsias

O teste de significância moderno é em grande parte o produto de Karl Pearson ( p- valor , teste qui-quadrado de Pearson ), William Sealy Gosset ( distribuição t de Student ) e Ronald Fisher (" hipótese nula ", análise de variância , " teste de significância ") , enquanto o teste de hipótese foi desenvolvido por Jerzy Neyman e Egon Pearson (filho de Karl). Ronald Fisher começou sua vida na estatística como um bayesiano (Zabell 1992), mas Fisher logo se desencantou com a subjetividade envolvida (ou seja, o uso do princípio da indiferença ao determinar probabilidades anteriores), e procurou fornecer uma abordagem mais "objetiva" para indutivo inferência.

Fisher era um estatístico agrícola que enfatizava métodos e projetos experimentais rigorosos para extrair um resultado de poucas amostras assumindo distribuições gaussianas. Neyman (que se juntou ao Pearson mais jovem) enfatizou o rigor matemático e os métodos para obter mais resultados de muitas amostras e uma gama mais ampla de distribuições. O teste de hipóteses moderno é um híbrido inconsistente da formulação, métodos e terminologia de Fisher vs Neyman / Pearson desenvolvidos no início do século XX.

Fisher popularizou o "teste de significância". Ele exigiu uma hipótese nula (correspondendo a uma distribuição de frequência da população) e uma amostra. Seus cálculos (agora familiares) determinavam se rejeitava a hipótese nula ou não. O teste de significância não utilizou uma hipótese alternativa, portanto, não havia o conceito de um erro do Tipo II.

O valor p foi concebido como um índice informal, mas objetivo, destinado a ajudar um pesquisador a determinar (com base em outro conhecimento) se deve modificar experiências futuras ou fortalecer a na hipótese nula. O teste de hipóteses (e erros do Tipo I / II) foi idealizado por Neyman e Pearson como uma alternativa mais objetiva ao valor p de Fisher , também destinado a determinar o comportamento do pesquisador, mas sem exigir qualquer inferência indutiva por parte do pesquisador.

Neyman & Pearson consideraram um problema diferente (que eles chamaram de "teste de hipótese"). Inicialmente, eles consideraram duas hipóteses simples (ambas com distribuição de frequência). Eles calcularam duas probabilidades e normalmente selecionaram a hipótese associada à probabilidade mais alta (a hipótese com maior probabilidade de ter gerado a amostra). Seu método sempre selecionou uma hipótese. Também permitiu o cálculo de ambos os tipos de probabilidades de erro.

Fisher e Neyman / Pearson entraram em confronto acirrado. Neyman / Pearson considerou sua formulação um teste aprimorado de generalização de significância. (O documento definidor era abstrato . Os matemáticos generalizaram e refinaram a teoria por décadas.) Fisher pensava que não era aplicável à pesquisa científica porque muitas vezes, durante o curso do experimento, é descoberto que as suposições iniciais sobre a hipótese nula são questionável devido a fontes inesperadas de erro. Ele acreditava que o uso de decisões rígidas de rejeitar / aceitar com base em modelos formulados antes da coleta dos dados era incompatível com esse cenário comum enfrentado pelos cientistas e as tentativas de aplicar esse método à pesquisa científica levariam a uma confusão em massa.

A disputa entre Fisher e Neyman-Pearson foi travada em bases filosóficas, caracterizada por um filósofo como uma disputa sobre o papel adequado dos modelos na inferência estatística.

Eventos intervieram: Neyman aceitou uma posição no hemisfério ocidental, rompendo sua parceria com Pearson e separando os disputantes (que ocupavam o mesmo prédio) por grande parte do diâmetro planetário. A Segunda Guerra Mundial proporcionou um intervalo no debate. A disputa entre Fisher e Neyman terminou (não resolvida após 27 anos) com a morte de Fisher em 1962. Neyman escreveu um elogio bem conceituado. Algumas das publicações posteriores de Neyman relataram valores- p e níveis de significância.

A versão moderna do teste de hipóteses é um híbrido das duas abordagens que resultaram da confusão dos redatores de livros de estatística (conforme previsto por Fisher) a partir da década de 1940. (Mas a detecção de sinal , por exemplo, ainda usa a formulação de Neyman / Pearson.) Grandes diferenças conceituais e muitas advertências além das mencionadas acima foram ignoradas. Neyman e Pearson forneceram a terminologia mais forte, a matemática mais rigorosa e a filosofia mais consistente, mas o assunto ensinado hoje em estatística introdutória tem mais semelhanças com o método de Fisher do que com o deles.

Por volta de 1940, os autores de livros de estatística começaram a combinar as duas abordagens usando o valor p no lugar da estatística de teste (ou dados) para testar contra o "nível de significância" de Neyman-Pearson.

Uma comparação entre Fisherian, frequentista (Neyman – Pearson)
# Teste de hipótese nula de Fisher Teoria da decisão de Neyman-Pearson
1 Configure uma hipótese nula estatística. O nulo não precisa ser uma hipótese nula (ou seja, diferença zero). Defina duas hipóteses estatísticas, H1 e H2, e decida sobre α, β e tamanho da amostra antes do experimento, com base em considerações subjetivas de custo-benefício. Eles definem uma região de rejeição para cada hipótese.
2 Relate o nível exato de significância (por exemplo, p = 0,051 ou p = 0,049). Não use um nível convencional de 5% e não fale sobre aceitar ou rejeitar hipóteses. Se o resultado for "não significativo", não tire conclusões e não tome decisões, mas suspenda o julgamento até que mais dados estejam disponíveis. Se os dados caírem na região de rejeição de H1, aceite H2; caso contrário, aceite H1. Observe que aceitar uma hipótese não significa que você acredita nela, mas apenas que você age como se fosse verdade.
3 Use este procedimento apenas se pouco for conhecido sobre o problema em questão e apenas para tirar conclusões provisórias no contexto de uma tentativa de compreender a situação experimental. A utilidade do procedimento é limitada, entre outras, a situações em que você tem uma disjunção de hipóteses (por exemplo, μ1 = 8 ou μ2 = 10 é verdadeiro) e onde você pode fazer compensações de custo-benefício significativas para escolher alfa e beta.

Escolhas iniciais de hipótese nula

Paul Meehl argumentou que a importância epistemológica da escolha da hipótese nula não foi amplamente reconhecida. Quando a hipótese nula é prevista pela teoria, um experimento mais preciso será um teste mais severo da teoria subjacente. Quando a hipótese nula é padronizada para "nenhuma diferença" ou "nenhum efeito", um experimento mais preciso é um teste menos severo da teoria que motivou a realização do experimento. Um exame das origens desta última prática pode, portanto, ser útil:

1778: Pierre Laplace compara as taxas de natalidade de meninos e meninas em várias cidades europeias. Afirma: “é natural concluir que essas possibilidades estão quase na mesma proporção”. Assim, a hipótese nula de Laplace de que as taxas de natalidade de meninos e meninas deveriam ser iguais, dada a "sabedoria convencional".

1900: Karl Pearson desenvolve o teste do qui quadrado para determinar "se uma dada forma de curva de frequência descreverá efetivamente as amostras retiradas de uma determinada população". Assim, a hipótese nula é que uma população é descrita por alguma distribuição prevista pela teoria. Ele usa como exemplo os números de cinco e seis nos dados de lançamento dos dados de Weldon .

1904: Karl Pearson desenvolve o conceito de " contingência " para determinar se os resultados são independentes de um dado fator categórico. Aqui, a hipótese nula é, por padrão, que duas coisas não estão relacionadas (por exemplo, formação de cicatrizes e taxas de mortalidade por varíola). A hipótese nula, neste caso, não é mais prevista pela teoria ou sabedoria convencional, mas é o princípio da indiferença que levou Fisher e outros a rejeitar o uso de "probabilidades inversas".

Teste de significância estatística de hipótese nula

Um exemplo de teste de hipótese de Neyman-Pearson pode ser feito por uma mudança no exemplo da mala radioativa. Se a "mala" é na verdade um contêiner blindado para o transporte de material radioativo, então um teste pode ser usado para selecionar entre três hipóteses: nenhuma fonte radioativa presente, uma presente, duas (todas) presentes. O teste pode ser exigido para segurança, com ações necessárias em cada caso. O lema de Neyman-Pearson do teste de hipótese diz que um bom critério para a seleção de hipóteses é a razão de suas probabilidades (uma razão de verossimilhança ). Um método simples de solução é selecionar a hipótese com a maior probabilidade para as contagens Geiger observadas. O resultado típico corresponde à intuição: poucas contagens implicam nenhuma fonte, muitas contagens implicam duas fontes e contagens intermediárias implicam uma fonte. Observe também que geralmente há problemas para provar uma negativa . As hipóteses nulas devem ser pelo menos falseáveis .

A teoria de Neyman-Pearson pode acomodar tanto as probabilidades anteriores quanto os custos das ações resultantes das decisões. O primeiro permite que cada teste considere os resultados dos testes anteriores (ao contrário dos testes de significância de Fisher). Este último permite a consideração de questões econômicas (por exemplo), bem como probabilidades. Uma razão de verossimilhança continua sendo um bom critério para selecionar entre as hipóteses.

As duas formas de teste de hipóteses são baseadas em diferentes formulações de problemas. O teste original é análogo a uma pergunta verdadeiro / falso; o teste de Neyman – Pearson é mais parecido com múltipla escolha. Na opinião de Tukey, o primeiro produz uma conclusão com base apenas em evidências fortes, enquanto o último produz uma decisão com base nas evidências disponíveis. Embora os dois testes pareçam bastante diferentes tanto matematicamente quanto filosoficamente, desenvolvimentos posteriores levam à afirmação oposta. Considere muitas fontes radioativas minúsculas. As hipóteses tornam-se 0,1,2,3 ... grãos de areia radioativa. Há pouca distinção entre nenhuma ou alguma radiação (Fisher) e 0 grãos de areia radioativa contra todas as alternativas (Neyman – Pearson). O principal artigo de Neyman-Pearson de 1933 também considerou hipóteses compostas (aquelas cuja distribuição inclui um parâmetro desconhecido). Um exemplo provou a otimalidade do (Student) t -test, "não pode haver melhor teste para a hipótese em consideração" (p 321). A teoria de Neyman-Pearson estava provando a otimização dos métodos Fisherianos desde o seu início.

O teste de significância de Fisher provou ser uma ferramenta estatística flexível popular em aplicações com pouco potencial de crescimento matemático. O teste de hipótese de Neyman-Pearson é considerado um pilar da estatística matemática, criando um novo paradigma para o campo. Também estimulou novas aplicações em controle estatístico de processos , teoria da detecção , teoria da decisão e teoria dos jogos . Ambas as formulações tiveram sucesso, mas os sucessos foram de caráter diferente.

A disputa sobre as formulações não está resolvida. A ciência usa principalmente a formulação de Fisher (ligeiramente modificada) conforme ensinada na introdução à estatística. Os estatísticos estudam a teoria de Neyman-Pearson na pós-graduação. Os matemáticos se orgulham de unir as formulações. Os filósofos os consideram separadamente. As opiniões aprendidas consideram as formulações competitivas (Fisher vs Neyman), incompatíveis ou complementares. A disputa se tornou mais complexa desde que a inferência bayesiana alcançou respeitabilidade.

A terminologia é inconsistente. O teste de hipótese pode significar qualquer mistura de duas formulações que mudaram com o tempo. Qualquer discussão sobre teste de significância versus teste de hipótese é duplamente vulnerável a confusão.

Fisher achava que o teste de hipótese era uma estratégia útil para realizar o controle de qualidade industrial, no entanto, ele discordava fortemente que o teste de hipótese pudesse ser útil para os cientistas. O teste de hipóteses fornece um meio de encontrar estatísticas de teste usadas em testes de significância. O conceito de poder é útil para explicar as consequências do ajuste do nível de significância e é amplamente utilizado na determinação do tamanho da amostra . Os dois métodos permanecem filosoficamente distintos. Eles geralmente (mas nem sempre ) produzem a mesma resposta matemática. A resposta preferida depende do contexto. Embora a fusão existente das teorias de Fisher e Neyman-Pearson tenha sido fortemente criticada, foi considerada a modificação da fusão para atingir os objetivos bayesianos.

Crítica

A crítica aos testes de hipóteses estatísticas enche volumes. Muitas das críticas podem ser resumidas nas seguintes questões:

  • A interpretação de um valor p depende da regra de parada e da definição de comparação múltipla. O primeiro muda freqüentemente durante o curso de um estudo e o último é inevitavelmente ambíguo. (ou seja, "os valores de p dependem dos (dados) observados e dos outros possíveis (dados) que podem ter sido observados, mas não foram").
  • Confusão resultante (em parte) da combinação dos métodos de Fisher e Neyman-Pearson que são conceitualmente distintos.
  • Ênfase na significância estatística para a exclusão da estimativa e confirmação por experimentos repetidos.
  • Requer rigidamente significância estatística como critério de publicação, resultando em viés de publicação . A maioria das críticas é indireta. Em vez de estar errado, o teste de hipótese estatística é mal compreendido, usado em demasia e mal usado.
  • Quando usado para detectar se existe uma diferença entre os grupos, surge um paradoxo. À medida que melhorias são feitas no projeto experimental (por exemplo, maior precisão de medição e tamanho da amostra), o teste se torna mais tolerante. A menos que se aceite a suposição absurda de que todas as fontes de ruído nos dados se cancelam completamente, a chance de encontrar significância estatística em qualquer direção se aproxima de 100%. No entanto, essa suposição absurda de que a diferença média entre dois grupos não pode ser zero implica que os dados não podem ser independentes e distribuídos de forma idêntica (iid) porque a diferença esperada entre quaisquer dois subgrupos de variáveis ​​aleatórias iid é zero; portanto, a suposição de iid também é absurda.
  • Camadas de preocupações filosóficas. A probabilidade de significância estatística é uma função das decisões tomadas por experimentadores / analistas. Se as decisões são baseadas em convenção, são consideradas arbitrárias ou irracionais, enquanto aquelas que não são baseadas podem ser classificadas como subjetivas. Para minimizar os erros do tipo II, amostras grandes são recomendadas. Em psicologia, praticamente todas as hipóteses nulas são alegadas como falsas para amostras suficientemente grandes, então "... geralmente é absurdo realizar um experimento com o único objetivo de rejeitar a hipótese nula." “Achados estatisticamente significativos são freqüentemente enganosos” em psicologia. A significância estatística não implica significância prática e a correlação não implica causalidade . Lançar dúvidas sobre a hipótese nula está, portanto, longe de apoiar diretamente a hipótese de pesquisa.
  • "[I] t não nos diz o que queremos saber". Listas de dezenas de reclamações estão disponíveis.

Críticos e defensores concordam amplamente com relação às características do teste de significância da hipótese nula (NHST): embora possa fornecer informações críticas, é inadequado como única ferramenta para análise estatística . Rejeitar com sucesso a hipótese nula pode não oferecer suporte para a hipótese de pesquisa. A contínua controvérsia diz respeito à seleção das melhores práticas estatísticas para o futuro próximo, dadas as práticas existentes. No entanto, um projeto de pesquisa adequado pode minimizar esse problema. Os críticos prefeririam banir o NHST completamente, forçando um afastamento completo dessas práticas, enquanto os apoiadores sugerem uma mudança menos absoluta.

A controvérsia sobre os testes de significância, e seus efeitos sobre o viés de publicação em particular, produziu vários resultados. A American Psychological Association reforçou seus requisitos de relatórios estatísticos após a revisão, os editores de periódicos médicos reconheceram a obrigação de publicar alguns resultados que não são estatisticamente significativos para combater o viés de publicação e um periódico ( Jornal de Artigos em Apoio à Hipótese Nula ) foi criado para publicar esses resultados exclusivamente. Os livros didáticos adicionaram alguns cuidados e aumentaram a cobertura das ferramentas necessárias para estimar o tamanho da amostra necessária para produzir resultados significativos. As principais organizações não abandonaram o uso de testes de significância, embora algumas tenham discutido sobre isso.

Alternativas

Uma posição unificadora dos críticos é que as estatísticas não devem levar a uma conclusão ou decisão de aceitação-rejeição, mas a um valor estimado com uma estimativa de intervalo ; essa filosofia de análise de dados é amplamente conhecida como estatísticas de estimativa . Estatísticas de estimativa podem ser realizadas com métodos frequentistas [1] ou Bayesianos.

Um forte crítico dos testes de significância sugeriu uma lista de alternativas de relatórios: tamanhos de efeito para importância, intervalos de predição para confiança, replicações e extensões para replicabilidade, meta-análises para generalidade. Nenhuma dessas alternativas sugeridas produz uma conclusão / decisão. Lehmann disse que a teoria do teste de hipótese pode ser apresentada em termos de conclusões / decisões, probabilidades ou intervalos de confiança. "A distinção entre as ... abordagens é principalmente de relato e interpretação."

Sobre uma "alternativa" não há discordância: o próprio Fisher disse: "Em relação ao teste de significância, podemos dizer que um fenômeno é experimentalmente demonstrável quando sabemos como conduzir um experimento que raramente deixará de nos fornecer uma avaliação estatisticamente significativa resultado." Cohen, um crítico influente do teste de significância, concordou: "... não procure uma alternativa mágica para NHST [teste de significância de hipótese nula] ... Ela não existe." "... dados os problemas de indução estatística, devemos finalmente confiar, como fizeram as ciências mais antigas, na replicação." A "alternativa" para o teste de significância é o teste repetido. A maneira mais fácil de diminuir a incerteza estatística é obter mais dados, seja pelo aumento do tamanho da amostra ou por testes repetidos. Nickerson afirmou nunca ter visto a publicação de um experimento em psicologia reproduzido literalmente. Uma abordagem indireta para a replicação é a meta-análise .

A inferência bayesiana é uma alternativa proposta para o teste de significância. (Nickerson citou 10 fontes sugerindo isso, incluindo Rozeboom (1960)). Por exemplo, a estimativa de parâmetros bayesianos pode fornecer informações valiosas sobre os dados a partir dos quais os pesquisadores podem tirar inferências, enquanto usa antecedentes incertos que exercem apenas uma influência mínima sobre os resultados quando dados suficientes estão disponíveis. O psicólogo John K. Kruschke sugeriu a estimativa bayesiana como uma alternativa para o teste t . Alternativamente, dois modelos / hipóteses concorrentes podem ser comparados usando fatores de Bayes . Os métodos bayesianos podem ser criticados por exigirem informações raramente disponíveis nos casos em que o teste de significância é mais usado. Nem as probabilidades anteriores nem a distribuição de probabilidade da estatística de teste sob a hipótese alternativa estão frequentemente disponíveis nas ciências sociais.

Os defensores de uma abordagem bayesiana às vezes afirmam que o objetivo de um pesquisador é na maioria das vezes avaliar objetivamente a probabilidade de que uma hipótese seja verdadeira com base nos dados que coletaram. Nem o teste de significância de Fisher , nem o teste de hipótese de Neyman-Pearson podem fornecer essas informações, e não reivindicam. A probabilidade de uma hipótese ser verdadeira só pode ser derivada do uso do Teorema de Bayes , que foi insatisfatório para ambos os campos de Fisher e Neyman-Pearson devido ao uso explícito da subjetividade na forma da probabilidade a priori . A estratégia de Fisher é contornar isso com o valor p (um índice objetivo baseado apenas nos dados) seguido por inferência indutiva , enquanto Neyman-Pearson planejou sua abordagem de comportamento indutivo .

Filosofia

O teste de hipóteses e a filosofia se cruzam. A estatística inferencial , que inclui teste de hipótese, é a probabilidade aplicada. Tanto a probabilidade quanto sua aplicação estão interligadas com a filosofia. O filósofo David Hume escreveu: "Todo conhecimento degenera em probabilidade." Definições práticas concorrentes de probabilidade refletem diferenças filosóficas. A aplicação mais comum de teste de hipótese é na interpretação científica de dados experimentais, que é naturalmente estudado pela filosofia da ciência .

Fisher e Neyman se opuseram à subjetividade da probabilidade. Suas opiniões contribuíram para as definições dos objetivos. O núcleo de sua divergência histórica era filosófico.

Muitas das críticas filosóficas dos testes de hipóteses são discutidas por estatísticos em outros contextos, particularmente a correlação não implica causalidade e o projeto de experimentos . O teste de hipóteses é de interesse contínuo para os filósofos.

Educação

A estatística é cada vez mais ensinada nas escolas, sendo o teste de hipóteses um dos elementos ensinados. Muitas conclusões publicadas na imprensa popular (pesquisas de opinião política e estudos médicos) são baseadas em estatísticas. Alguns escritores afirmam que a análise estatística deste tipo permite pensar claramente sobre os problemas que envolvem dados de massa, bem como o relato eficaz de tendências e inferências a partir desses dados, mas alertam que os escritores para um público amplo devem ter um conhecimento sólido do campo. para usar os termos e conceitos corretamente. Uma aula introdutória de estatística na faculdade dá muita ênfase ao teste de hipóteses - talvez metade do curso. Campos como literatura e divindade agora incluem descobertas baseadas em análises estatísticas (veja o Bible Analyzer ). Uma aula introdutória de estatística ensina o teste de hipóteses como um processo de livro de receitas. O teste de hipóteses também é ensinado no nível de pós-graduação. Os estatísticos aprendem como criar bons procedimentos de teste estatístico (como z , t de Student , F e qui-quadrado). O teste de hipóteses estatísticas é considerado uma área madura dentro das estatísticas, mas um desenvolvimento limitado continua.

Um estudo acadêmico afirma que o método do livro de receitas para ensinar estatística introdutória não deixa tempo para história, filosofia ou controvérsia. O teste de hipóteses foi ensinado como método unificado recebido. Pesquisas mostraram que os formandos da classe estavam cheios de equívocos filosóficos (em todos os aspectos da inferência estatística) que persistiam entre os instrutores. Embora o problema tenha sido abordado há mais de uma década e os apelos por uma reforma educacional continuem, os alunos ainda se graduam nas aulas de estatística com conceitos errôneos fundamentais sobre o teste de hipóteses. Ideias para melhorar o ensino do teste de hipóteses incluem encorajar os alunos a procurar erros estatísticos em artigos publicados, ensinar a história da estatística e enfatizar a controvérsia em um assunto geralmente árido.

Veja também

Referências

Leitura adicional

links externos

Calculadoras online