Teste U de Mann-Whitney -Mann–Whitney U test

Em estatística , o teste U de Mann-Whitney (também chamado de Mann-Whitney-Wilcoxon ( MWW ), teste de soma de postos de Wilcoxon ou teste de Wilcoxon-Mann-Whitney ) é um teste não paramétrico da hipótese nula que, para valores selecionados aleatoriamente X e Y a partir de duas populações, a probabilidade de X ser maior do que Y é igual à probabilidade de Y ser superior a  X .

Um teste não paramétrico semelhante usado em amostras dependentes é o teste dos postos sinalizados de Wilcoxon .

Suposições e declaração formal de hipóteses

Embora Mann e Whitney tenham desenvolvido o teste U de Mann-Whitney sob a suposição de respostas contínuas com a hipótese alternativa de que uma distribuição é estocasticamente maior do que a outra, há muitas outras maneiras de formular as hipóteses nula e alternativa, como a de Mann-Whitney O teste U dará um teste válido.

Uma formulação muito geral é assumir que:

  1. Todas as observações de ambos os grupos são independentes umas das outras,
  2. As respostas são pelo menos ordinais (ou seja, pode-se pelo menos dizer, de quaisquer duas observações, que é a maior),
  3. Sob a hipótese nula H 0 , as distribuições de ambas as populações são iguais.
  4. A hipótese alternativa H 1 é que as distribuições não são iguais.

De acordo com a formulação geral, o teste só é consistente quando ocorre o seguinte em H 1 :

  1. A probabilidade de uma observação da população X exceder uma observação da população Y é diferente (maior ou menor) do que a probabilidade de uma observação de Y exceder uma observação de X; ou seja, P ( X > Y ) ≠ P ( Y > X ) ou P ( X > Y ) + 0,5 · P ( X = Y ) ≠ 0,5 .

Sob premissas mais estritas do que a formulação geral acima, por exemplo, se as respostas são assumidas como contínuas e a alternativa é restrita a uma mudança na localização, ou seja, F 1 ( x ) = F 2 ( x + δ ) , podemos interpretar um teste U de Mann-Whitney significativo mostrando uma diferença nas medianas. Sob essa suposição de mudança de local, também podemos interpretar o teste U de Mann-Whitney como avaliando se a estimativa de Hodges-Lehmann da diferença na tendência central entre as duas populações difere de zero. A estimativa de Hodges-Lehmann para este problema de duas amostras é a mediana de todas as diferenças possíveis entre uma observação na primeira amostra e uma observação na segunda amostra.

Caso contrário, se ambas as dispersões e formas da distribuição de ambas as amostras forem diferentes, o teste U de Mann-Whitney falha em um teste de medianas. É possível mostrar exemplos, onde as medianas são numericamente iguais, enquanto o teste rejeita a hipótese nula com um pequeno valor de p.

A Mann-Whitney U Wilcoxon test test /-sum classificação não é o mesmo que o Wilcoxon assinado teste -rank , embora ambos sejam não paramétrico e envolvem somatório das fileiras. O teste U de Mann – Whitney é aplicado a amostras independentes. O teste dos postos sinalizados de Wilcoxon é aplicado a amostras correspondentes ou dependentes.

Estatística U

Sejam uma amostra de iid de e uma amostra de iid de e ambas as amostras independentes uma da outra. A estatística U de Mann-Whitney correspondente é definida como:

com

Cálculos

O teste envolve o cálculo de uma estatística , normalmente chamada de U , cuja distribuição sob a hipótese nula é conhecida. No caso de pequenas amostras, a distribuição é tabulada, mas para tamanhos de amostra acima de ~ 20, a aproximação usando a distribuição normal é bastante boa. Alguns livros tabulam estatísticas equivalentes a U , como a soma das classificações em uma das amostras, em vez do próprio U.

O teste U de Mann – Whitney está incluído na maioria dos pacotes estatísticos modernos . Também é facilmente calculado à mão, especialmente para pequenas amostras. Há duas maneiras de fazer isso.

Método um:

Para comparar dois pequenos conjuntos de observações, um método direto é rápido e fornece uma visão sobre o significado da estatística U , que corresponde ao número de vitórias em todas as disputas entre pares (veja o exemplo da tartaruga e da lebre nos Exemplos abaixo). Para cada observação em um conjunto, conte o número de vezes que esse primeiro valor vence qualquer observação no outro conjunto (o outro valor perde se o primeiro for maior). Conte 0,5 para qualquer empate. A soma de vitórias e empates é U (ou seja:) para o primeiro set. U para o outro conjunto é o inverso (ou seja:) .

Método dois:

Para amostras maiores:

  1. Atribua classificações numéricas a todas as observações (coloque as observações de ambos os grupos em um conjunto), começando com 1 para o menor valor. Onde houver grupos de valores empatados, atribua uma classificação igual ao ponto médio das classificações não ajustadas. Por exemplo, as classificações de (3, 5, 5, 5, 5, 8) são (1, 3,5, 3,5, 3,5, 3,5, 6) (a classificação não ajustada seria (1, 2, 3, 4, 5, 6) ) ).
  2. Agora, some as classificações para as observações que vieram da amostra 1. A soma das classificações na amostra 2 é agora determinada, uma vez que a soma de todas as classificações é igual a N ( N + 1) / 2 onde N é o número total de observações .
  3. U é então dado por:
onde n 1 é o tamanho da amostra para a amostra 1 e R 1 é a soma das classificações na amostra 1.
Observe que não importa qual das duas amostras é considerada amostra 1. Uma fórmula igualmente válida para U é
O menor valor de U 1 e U 2 é aquele usado ao consultar as tabelas de significância. A soma dos dois valores é dada por
Sabendo que R 1 + R 2 = N ( N + 1) / 2 e N = n 1 + n 2 , e fazendo alguma álgebra , descobrimos que a soma é
U 1 + U 2 = n 1 n 2 .

Propriedades

O valor máximo de U é o produto dos tamanhos de amostra para as duas amostras (ou seja:) . Nesse caso, o "outro" U seria 0.

Exemplos

Ilustração de métodos de cálculo

Suponha que Esopo esteja insatisfeito com seu experimento clássico em que uma tartaruga derrota uma lebre em uma corrida e decida realizar um teste de significância para descobrir se os resultados podem ser estendidos a tartarugas e lebres em geral. Ele coleta uma amostra de 6 tartarugas e 6 lebres, e faz com que todas corram sua corrida ao mesmo tempo. A ordem em que eles alcançam o posto de chegada (sua ordem de classificação, do primeiro ao último cruzando a linha de chegada) é a seguinte, escrevendo T para uma tartaruga e H para uma lebre:

THHHHHTTTTTH

Qual é o valor de U ?

  • Usando o método direto, pegamos cada tartaruga por vez e contamos o número de lebres que ela bate, obtendo 6, 1, 1, 1, 1, 1, o que significa que U T = 11 . Alternativamente, poderíamos pegar cada lebre por vez e contar o número de tartarugas que ela derrota. Nesse caso, obtemos 5, 5, 5, 5, 5, 0, então U H = 25 . Observe que a soma desses dois valores para U = 36 , que é 6 × 6 .
  • Usando o método indireto:
classifique os animais pelo tempo que eles levam para completar o curso, então dê ao primeiro animal a classificação inicial 12, ao segundo classificação 11 e assim por diante.
a soma das classificações alcançadas pelas tartarugas é 12 + 6 + 5 + 4 + 3 + 2 = 32 .
Portanto, U T = 32 - (6 × 7) / 2 = 32 - 21 = 11 (igual ao método um).
A soma das classificações alcançadas pelas lebres é 11 + 10 + 9 + 8 + 7 + 1 = 46 , levando a U H = 46 - 21 = 25 .

Exemplo de declaração de resultados

Ao relatar os resultados de um teste U de Mann-Whitney , é importante afirmar:

  • Uma medida das tendências centrais dos dois grupos (médias ou medianas; uma vez que o teste U de Mann-Whitney é um teste ordinal, as medianas são geralmente recomendadas)
  • O valor de U (talvez com alguma medida do tamanho do efeito, como o tamanho do efeito da linguagem comum ou correlação bisserial ).
  • Os tamanhos da amostra
  • O nível de significância.

Na prática, algumas dessas informações podem já ter sido fornecidas e o bom senso deve ser usado na decisão de repeti-las. Um relatório típico pode ser executado,

"As latências médias nos grupos E e C foram de 153 e 247 ms; as distribuições nos dois grupos diferiram significativamente (Mann-Whitney U = 10,5 , n 1 = n 2 = 8 , P <0,05 bicaudal)."

Uma declaração que faça justiça ao status estatístico do teste pode ser executada,

"Os resultados dos dois tratamentos foram comparados usando o teste de soma de classificação de duas amostras de Wilcoxon-Mann-Whitney. O efeito do tratamento (diferença entre os tratamentos) foi quantificado usando o estimador de Hodges-Lehmann (HL), que é consistente com o teste de Wilcoxon . Este estimador (HLΔ) é a mediana de todas as possíveis diferenças nos resultados entre um sujeito do grupo B e um sujeito do grupo A. Um intervalo de confiança não paramétrico de 0,95 para HLΔ acompanha essas estimativas, assim como ρ, uma estimativa da probabilidade de que um sujeito escolhido aleatoriamente da população B tem um peso maior do que um sujeito escolhido aleatoriamente da população A. O peso médio [quartis] para os sujeitos no tratamento A e B, respectivamente, são 147 [121, 177] e 151 [130, 180] kg. O tratamento A diminuiu o peso por HLΔ = 5 kg (0,95 CL [2, 9] kg, 2 P = 0,02 , ρ = 0,58 ). "

No entanto, seria raro encontrar um relatório tão extenso em um documento cujo tópico principal não fosse a inferência estatística.

Aproximação normal e correção de empate

Para grandes amostras, U é aproximadamente normalmente distribuído . Nesse caso, o valor padronizado

onde m U e σ U são a média e o desvio padrão de U , é aproximadamente um desvio normal padrão cuja significância pode ser verificada em tabelas da distribuição normal. m U e σ U são dados por

e

A fórmula para o desvio padrão é mais complicada na presença de fileiras empatadas. Se houver empate nas classificações, σ deve ser ajustado da seguinte forma:

onde o lado esquerdo é simplesmente a variância e o lado direito é o ajuste para empates, t k é o número de empates para a k- ésima classificação e K é o número total de classificações únicas com empates.

Uma forma mais eficiente computacionalmente com n 1 n 2 /12 fatoramos está

onde n = n 1 + n 2 .

Se o número de empates for pequeno (e especialmente se não houver faixas de empate grandes), os empates podem ser ignorados ao fazer cálculos à mão. Os pacotes estatísticos do computador usarão a fórmula corretamente ajustada como uma questão de rotina.

Note-se que uma vez que L 1 + L 2 = N 1 N 2 , a média n 1 n 2 /2 utilizado na aproximação normal é a média dos dois valores de L . Portanto, o valor absoluto da estatística z calculada será o mesmo qualquer que seja o valor de U usado.

Tamanhos de efeito

É uma prática amplamente recomendada para cientistas relatar um tamanho de efeito para um teste inferencial.

Proporção de concordância de todos os pares

As três medidas a seguir são equivalentes.

Tamanho do efeito da linguagem comum

Um método de relatar o tamanho do efeito para o teste U de Mann-Whitney é com f , o tamanho do efeito da linguagem comum. Como uma estatística de amostra, o tamanho do efeito da linguagem comum é calculado formando todos os pares possíveis entre os dois grupos e, em seguida, encontrando a proporção de pares que apóiam uma direção (digamos, que os itens do grupo 1 são maiores do que os itens do grupo 2). Para ilustrar, em um estudo com uma amostra de dez lebres e dez tartarugas, o número total de pares ordenados é dez vezes dez ou 100 pares de lebres e tartarugas. Suponha que os resultados mostrem que a lebre corre mais rápido do que a tartaruga em 90 dos 100 pares de amostra; nesse caso, o tamanho do efeito de linguagem comum da amostra é de 90%. Este valor de amostra é um estimador imparcial do valor da população, portanto, a amostra sugere que a melhor estimativa do tamanho do efeito da linguagem comum na população é 90%.

A relação entre f e U de Mann-Whitney (especificamente ) é a seguinte:

Isso é igual à área sob a curva (AUC) para a curva ROC abaixo.

estatística ρ

Uma estatística chamada ρ que é linearmente relacionada a U e amplamente utilizada em estudos de categorização ( aprendizagem de discriminação envolvendo conceitos ), e em outros lugares, é calculada dividindo-se U por seu valor máximo para os tamanhos de amostra dados, que é simplesmente n 1 × n 2 . ρ é, portanto, uma medida não paramétrica da sobreposição entre duas distribuições; pode assumir valores entre 0 e 1 e é uma estimativa de P ( Y > X ) + 0,5 P ( Y = X ) , onde X e Y são observações escolhidas aleatoriamente das duas distribuições. Ambos os valores extremos representam a separação completa das distribuições, enquanto um ρ de 0,5 representa a sobreposição completa. A utilidade da estatística ρ pode ser vista no caso do exemplo ímpar usado acima, onde duas distribuições que eram significativamente diferentes em um teste U de Mann-Whitney , no entanto, tinham medianas quase idênticas: o valor de ρ neste caso é aproximadamente 0,723 a favor das lebres, refletindo corretamente o fato de que, embora a tartaruga mediana vença a lebre mediana, as lebres coletivamente se saíram melhor do que as tartarugas coletivamente.

Estatística de área sob a curva (AUC) para curvas ROC

A estatística U é equivalente à área sob a curva característica de operação do receptor ( AUC ) que pode ser facilmente calculada.

Observe que esta é a mesma definição do tamanho do efeito de linguagem comum da seção acima. ou seja: a probabilidade de que um classificador classifique uma instância positiva escolhida aleatoriamente mais alta do que uma negativa escolhida aleatoriamente (assumindo classificações 'positivas' mais altas do que 'negativas').

Por causa de sua forma probabilística, a estatística U pode ser generalizada para uma medida do poder de separação de um classificador para mais de duas classes:

Onde c é o número de classes, e R k , termo de AUC k , considera apenas a classificação dos itens pertencentes às classes k e (ou seja, itens pertencentes a todas as outras classes são ignorados) de acordo com as estimativas do classificador da probabilidade desses itens pertencerem à classe k . AUC k , k será sempre zero, mas, ao contrário do caso de duas classes, geralmente AUC k , ≠ AUC , k , razão pela qual a medida M soma todos os pares ( k , ), com efeito usando a média de AUC k , e AUC , k .

Correlação rank-bisserial

Um método de relatar o tamanho do efeito para o teste U de Mann-Whitney é com uma medida de correlação de classificação conhecida como correlação de classificação bisserial. Edward Cureton apresentou e nomeou a medida. Como outras medidas correlacionais, a correlação hierárquica bisserial pode variar de menos um a mais um, com um valor de zero indicando nenhum relacionamento.

Há uma fórmula de diferença simples para calcular a correlação bisserial de classificação a partir do tamanho do efeito da linguagem comum: a correlação é a diferença entre a proporção de pares favorável à hipótese ( f ) menos seu complemento (ou seja: a proporção que é desfavorável ( u )). Esta fórmula de diferença simples é apenas a diferença do tamanho do efeito da linguagem comum de cada grupo e é a seguinte:

Por exemplo, considere o exemplo em que lebres correm mais rápido do que tartarugas em 90 de 100 pares. O tamanho do efeito da linguagem comum é de 90%, então a correlação de classificação bisserial é 90% menos 10%, e a classificação bisserial  r = 0,80 .

Uma fórmula alternativa para a classificação bisserial pode ser usada para calculá-la a partir do U de Mann-Whitney (ou ou ) e os tamanhos de amostra de cada grupo:

Esta fórmula é útil quando os dados não estão disponíveis, mas quando há um relatório publicado, porque U e os tamanhos das amostras são relatados rotineiramente. Usando o exemplo acima com 90 pares que favorecem as lebres e 10 pares que favorecem a tartaruga, U 2 é o menor dos dois, então U 2 = 10 . Essa fórmula então dá r = 1 - (2 × 10) / (10 × 10) = 0,80 , que é o mesmo resultado da fórmula de diferença simples acima.

Relação com outros testes

Comparação com o teste t de Student

O teste U de Mann-Whitney testa uma hipótese nula de que a probabilidade de que uma observação tirada aleatoriamente de um grupo seja maior do que uma observação tirada aleatoriamente do outro é igual a 0,5 contra uma alternativa de que essa probabilidade não seja 0,5 (ver Mann-Whitney Teste U # Suposições e declaração formal de hipóteses ). Em contraste, um teste t testa uma hipótese nula de médias iguais em dois grupos contra uma alternativa de médias desiguais. Portanto, exceto em casos especiais, o teste U de Mann-Whitney e o teste t não testam as mesmas hipóteses e devem ser comparados com isso em mente.

Dados ordinais
O teste U de Mann-Whitney é preferível ao teste t quando os dados são ordinais, mas não em escala de intervalo, caso em que o espaçamento entre os valores adjacentes da escala não pode ser assumido como constante.
Robustez
Ao comparar as somas das classificações, o teste U de Mann-Whitney é menos provável do que o teste t para indicar de forma espúria a significância devido à presença de outliers . No entanto, o teste U de Mann-Whitney pode ter pior controle de erro tipo I quando os dados são heterocedásticos e não normais.
Eficiência
Quando a normalidade se mantém, o teste U de Mann-Whitney tem uma eficiência (assintótica) de 3 / π ou cerca de 0,95 quando comparado ao teste t . Para distribuições suficientemente distantes do normal e para tamanhos de amostra suficientemente grandes, o teste U de Mann-Whitney é consideravelmente mais eficiente do que o t . Essa comparação em eficiência, no entanto, deve ser interpretada com cautela, pois Mann-Whitney e o teste t não testam as mesmas quantidades. Se, por exemplo, uma diferença de médias de grupo é de interesse primário, Mann-Whitney não é um teste apropriado.

O teste U de Mann-Whitney fornecerá resultados muito semelhantes à realização de um teste t paramétrico comum de duas amostras nas classificações dos dados.

Distribuições diferentes

Se alguém deseja testar a ordenação estocástica das duas populações (ou seja, a hipótese alternativa ), sem assumir que as formas das distribuições são as mesmas (ou seja, usando a hipótese nula em vez de ), melhores testes estão disponíveis. Entre eles estão o teste de Brunner-Munzel e o teste de Fligner-Policello. Especificamente, sob a hipótese nula mais geral , o teste U de Mann-Whitney inflou as taxas de erro de tipo mesmo em grandes amostras, um problema que as melhores alternativas resolvem. Como resultado, foi sugerido o uso de uma das alternativas (especificamente o teste de Brunner-Munzel) se não puder ser assumido que as distribuições são iguais sob a hipótese nula.

Alternativas

Se alguém deseja uma interpretação de deslocamento simples, o teste U de Mann-Whitney não deve ser usado quando as distribuições das duas amostras são muito diferentes, pois pode dar uma interpretação errônea de resultados significativos. Nessa situação, a versão de variâncias desiguais do teste t pode fornecer resultados mais confiáveis.

Da mesma forma, alguns autores (por exemplo, Conover) sugerem transformar os dados em classificações (se já não forem classificações) e, em seguida, realizar o t -test nos dados transformados, a versão do t -test usada dependendo da população ou não as variações são suspeitas de serem diferentes. As transformações de classificação não preservam as variações, mas as variações são recalculadas a partir de amostras após as transformações de classificação.

O teste Brown-Forsythe foi sugerido como um equivalente não paramétrico apropriado para o teste F para variâncias iguais.

Um teste mais poderoso é o teste de Brunner-Munzel , superando o teste U de Mann-Whitney em caso de suposição violada de permutabilidade .

O teste U de Mann-Whitney é um caso especial do modelo de odds proporcionais , permitindo o ajuste de covariável.

Veja também teste de Kolmogorov – Smirnov .

Estatísticas de teste relacionadas

Tau de Kendall

O teste U de Mann-Whitney está relacionado a vários outros procedimentos estatísticos não paramétricos. Por exemplo, é equivalente ao coeficiente de correlação tau de Kendall se uma das variáveis ​​for binária (ou seja, ela pode assumir apenas dois valores).

Implementações de software

Em muitos pacotes de software, o teste U de Mann-Whitney (da hipótese de distribuições iguais contra alternativas apropriadas) foi mal documentado. Alguns pacotes tratam os laços incorretamente ou não documentam as técnicas assintóticas (por exemplo, correção para continuidade). Uma revisão de 2000 discutiu alguns dos seguintes pacotes:

História

A estatística apareceu em um artigo de 1914 do alemão Gustav Deuchler (com um termo ausente na variação).

Em um único artigo em 1945, Frank Wilcoxon propôs o teste de classificação sinalizada de uma amostra e o teste de soma de classificação de duas amostras, em um teste de significância com uma hipótese nula de ponto contra sua alternativa complementar (ou seja, igual versus diferente) . No entanto, ele tabulou apenas alguns pontos para o caso de tamanho de amostra igual naquele artigo (embora em um artigo posterior ele tenha fornecido tabelas maiores).

Uma análise completa da estatística, que incluiu uma recorrência permitindo o cálculo de probabilidades de cauda para tamanhos de amostra arbitrários e tabelas para tamanhos de amostra de oito ou menos apareceu no artigo de Henry Mann e seu aluno Donald Ransom Whitney em 1947. Este artigo discutiu a alternativa hipóteses, incluindo uma ordenação estocástica (onde as funções de distribuição cumulativa satisfazem a desigualdade pontual F X ( t ) < F Y ( t ) ). Este artigo também calculou os quatro primeiros momentos e estabeleceu a normalidade limite da estatística sob a hipótese nula, estabelecendo assim que ela é assintoticamente livre de distribuição.

Veja também

Notas

Referências

links externos