Análise de variância unilateral de Kruskal-Wallis - Kruskal–Wallis one-way analysis of variance

O teste de Kruskal-Wallis, por fileiras, de Kruskal-Wallis H teste (o nome de William Kruskal e W. Allen Wallis ), ou ANOVA one-way em fileiras é um não-paramétrico método para testar se as amostras provenientes da mesma distribuição. É usado para comparar duas ou mais amostras independentes de tamanhos de amostra iguais ou diferentes. Ele estende o teste U de Mann-Whitney , que é usado para comparar apenas dois grupos. O equivalente paramétrico do teste de Kruskal-Wallis é a análise de variância unilateral (ANOVA).

Um teste de Kruskal-Wallis significativo indica que pelo menos uma amostra domina estocasticamente uma outra amostra. O teste não identifica onde ocorre essa dominância estocástica ou para quantos pares de grupos a dominância estocástica ocorre. Para analisar os pares de amostra específicos para dominância estocástica, o teste de Dunn, os testes de Mann-Whitney aos pares com correção de Bonferroni ou o teste de Conover-Iman mais poderoso, mas menos conhecido, são às vezes usados.

Por ser um método não paramétrico, o teste de Kruskal-Wallis não assume uma distribuição normal dos resíduos, ao contrário da análise de variância unilateral análoga. Se o pesquisador puder fazer as suposições de uma distribuição em escala e forma idêntica para todos os grupos, exceto para qualquer diferença nas medianas, então a hipótese nula é que as medianas de todos os grupos são iguais, e a hipótese alternativa é que pelo menos uma mediana da população de um grupo é diferente da mediana da população de pelo menos um outro grupo.

Método

  1. Classifique todos os dados de todos os grupos; ou seja, classifique os dados de 1 a N, ignorando a associação ao grupo. Atribua a quaisquer valores empatados a média das classificações que eles teriam recebido se não estivessem empatados.
  2. A estatística de teste é dada por:
    Onde:
    • é o número total de observações em todos os grupos
    • é o número de grupos
    • é o número de observações no grupo
    • é a classificação (entre todas as observações) de observação do grupo
    • é a classificação média de todas as observações no grupo
    • é a média de todos os .
  3. Se os dados não contiverem empates, o denominador da expressão para é exatamente e . Assim

    A última fórmula contém apenas os quadrados das classificações médias.
  4. Uma correção para empates se usar a fórmula de atalho descrita no ponto anterior pode ser feita dividindo por , onde G é o número de agrupamentos de diferentes classificações empatadas e t i é o número de valores empatados dentro do grupo i que estão empatados em um determinado valor. Essa correção geralmente faz pouca diferença no valor de H, a menos que haja um grande número de empates.
  5. Por fim, a decisão de rejeitar ou não a hipótese nula é feita pela comparação com um valor crítico obtido em uma tabela ou software para uma dada significância ou nível alfa. Se for maior que , a hipótese nula é rejeitada. Se possível (sem empates, amostra não muito grande), deve-se comparar com o valor crítico obtido da distribuição exata de . Caso contrário, a distribuição de H pode ser aproximada por uma distribuição qui-quadrada com g-1 graus de liberdade. Se alguns valores forem pequenos (ou seja, menores que 5), a distribuição de probabilidade exata de pode ser bem diferente desta distribuição qui-quadrada . Se uma tabela de distribuição de probabilidade qui-quadrado estiver disponível, o valor crítico de qui-quadrado,, pode ser encontrado inserindo-se a tabela em g  - 1 grau de liberdade e observando a significância desejada ou nível alfa.
  6. Se a estatística não for significativa, não há evidência de dominância estocástica entre as amostras. No entanto, se o teste for significativo, pelo menos uma amostra domina estocasticamente outra amostra. Portanto, um pesquisador pode usar contrastes de amostra entre pares de amostras individuais ou testes post hoc usando o teste de Dunn, que (1) emprega adequadamente as mesmas classificações que o teste de Kruskal-Wallis e (2) emprega corretamente a variância combinada implícita pelo valor nulo hipótese do teste de Kruskal-Wallis para determinar quais pares de amostras são significativamente diferentes. Ao realizar vários contrastes ou testes de amostra, a taxa de erro Tipo I tende a se tornar inflada, levantando questões sobre múltiplas comparações .

Tabelas de probabilidade exata

Uma grande quantidade de recursos de computação é necessária para calcular as probabilidades exatas para o teste de Kruskal-Wallis. O software existente fornece apenas probabilidades exatas para tamanhos de amostra inferiores a cerca de 30 participantes. Esses programas de software contam com aproximação assintótica para tamanhos de amostra maiores.

Valores exatos de probabilidade para tamanhos de amostra maiores estão disponíveis. Spurrier (2003) publicou tabelas de probabilidade exatas para amostras de até 45 participantes. Meyer e Seaman (2006) produziram distribuições de probabilidade exatas para amostras de até 105 participantes.

Distribuição exata de

Choi et al. fez uma revisão de dois métodos que haviam sido desenvolvidos para calcular a distribuição exata de , propôs um novo e comparou a distribuição exata com sua aproximação qui-quadrado.

Veja também

Referências

Leitura adicional

links externos