Qualidade de ajuste - Goodness of fit

A qualidade do ajuste de um modelo estatístico descreve o quão bem ele se ajusta a um conjunto de observações. As medidas de qualidade de ajuste geralmente resumem a discrepância entre os valores observados e os valores esperados de acordo com o modelo em questão. Essas medidas podem ser usadas em testes de hipóteses estatísticas , por exemplo, para testar a normalidade dos resíduos , para testar se duas amostras são retiradas de distribuições idênticas (ver teste de Kolmogorov-Smirnov ), ou se as frequências de resultado seguem uma distribuição especificada (ver qui-quadrado de Pearson teste ). Na análise de variância , um dos componentes em que a variância é particionada pode ser uma soma de quadrados sem ajuste .

Ajuste de distribuições

Ao avaliar se uma determinada distribuição é adequada para um conjunto de dados, os seguintes testes e suas medidas de ajuste subjacentes podem ser usados:

Análise de regressão

Na análise de regressão , os seguintes tópicos estão relacionados à qualidade do ajuste:

Dados categóricos

A seguir estão exemplos que surgem no contexto de dados categóricos .

Teste qui-quadrado de Pearson

O teste qui-quadrado de Pearson usa uma medida de qualidade de ajuste que é a soma das diferenças entre as frequências de resultados observadas e esperadas (ou seja, contagens de observações), cada uma ao quadrado e dividida pela expectativa:

Onde:

O i = uma contagem observada para bin i
E i = uma contagem esperada para bin i , afirmada pela hipótese nula .

A frequência esperada é calculada por:

Onde:

F = a função de distribuição cumulativa para a distribuição de probabilidade que está sendo testada.
Y u = o limite superior para a classe i ,
Y l = o limite inferior para a classe i , e
N = o tamanho da amostra

O valor resultante pode ser comparado com uma distribuição qui-quadrado para determinar a qualidade do ajuste. A distribuição qui-quadrado tem ( k - c ) graus de liberdade , onde k é o número de células não vazias ec é o número de parâmetros estimados (incluindo parâmetros de localização e escala e parâmetros de forma) para a distribuição mais um. Por exemplo, para uma distribuição Weibull de 3 parâmetros , c = 4.

Exemplo: frequências iguais de homens e mulheres

Por exemplo, para testar a hipótese de que uma amostra aleatória de 100 pessoas foi retirada de uma população na qual homens e mulheres são iguais em frequência, o número observado de homens e mulheres seria comparado com as frequências teóricas de 50 homens e 50 mulheres . Se houvesse 44 homens na amostra e 56 mulheres, então

Se a hipótese nula for verdadeira (ou seja, homens e mulheres são escolhidos com probabilidade igual na amostra), a estatística de teste será obtida a partir de uma distribuição qui-quadrado com um grau de liberdade . Embora se possa esperar dois graus de liberdade (um para cada homem e mulher), devemos levar em conta que o número total de homens e mulheres é restrito (100) e, portanto, há apenas um grau de liberdade (2 - 1 ) Em outras palavras, se a contagem masculina é conhecida, a contagem feminina é determinada e vice-versa.

A consulta da distribuição qui-quadrado para 1 grau de liberdade mostra que a probabilidade de observar essa diferença (ou uma diferença mais extrema do que essa) se homens e mulheres forem igualmente numerosos na população é de aproximadamente 0,23. Essa probabilidade é maior do que os critérios convencionais de significância estatística (0,001-0,05), então normalmente não rejeitaríamos a hipótese nula de que o número de homens na população é igual ao número de mulheres (ou seja, consideraríamos nossa amostra dentro do intervalo do que esperávamos para uma proporção homem / mulher de 50/50.)

Observe a suposição de que o mecanismo que gerou a amostra é aleatório, no sentido de seleção aleatória independente com a mesma probabilidade, aqui 0,5 para homens e mulheres. Se, por exemplo, cada um dos 44 machos selecionados trouxe um companheiro, e cada uma das 56 fêmeas trouxe uma companheira, cada um aumentará por um fator de 4, enquanto cada um aumentará por um fator de 2. O valor do a estatística dobrará para 2,88. Conhecendo esse mecanismo subjacente, devemos, é claro, contar pares. Em geral, o mecanismo, se não for defensivamente aleatório, não será conhecido. A distribuição à qual a estatística de teste deve ser referida pode, portanto, ser muito diferente do qui-quadrado.

Caso binomial

Um experimento binomial é uma sequência de tentativas independentes em que as tentativas podem resultar em um de dois resultados, sucesso ou fracasso. Existem n tentativas, cada uma com probabilidade de sucesso, denotada por p . Desde que np i  ≫ 1 para cada i (onde i  = 1, 2, ...,  k ), então

Isso tem aproximadamente uma distribuição qui-quadrado com k  - 1 grau de liberdade. O fato de haver k  - 1 graus de liberdade é uma consequência da restrição . Sabemos que há k contagens de células observadas, no entanto, uma vez que qualquer k  - 1 é conhecido, o restante é determinado de forma única. Basicamente, pode-se dizer, existem apenas k  - 1 contagens de células determinadas livremente, portanto k  - 1 graus de liberdade.

G- teste

Os testes G sãotestes de razão de verossimilhança de significância estatística que estão cada vez mais sendo usados ​​em situações em que os testes do qui-quadrado de Pearson eram recomendados anteriormente.

A fórmula geral para G é

onde e são iguais aos do teste do qui-quadrado, denota o logaritmo natural e a soma é feita sobre todas as células não vazias. Além disso, a contagem total observada deve ser igual à contagem total esperada:

onde é o número total de observações.

Os G -tests foram recomendados pelo menos desde a edição de 1981 do popular livro de estatística de Robert R. Sokal e F. James Rohlf .

Veja também

Referências

  1. ^ Liu, Qiang; Lee, Jason; Jordan, Michael (20 de junho de 2016). "Uma discrepância de Stein com kernel para testes de adequação" . Anais da 33ª Conferência Internacional sobre Aprendizado de Máquina . A 33ª Conferência Internacional sobre Aprendizado de Máquina. Nova York, Nova York, EUA: Proceedings of Machine Learning Research. pp. 276–284.
  2. ^ Chwialkowski, Kacper; Strathmann, Heiko; Gretton, Arthur (20 de junho de 2016). "Um teste de kernel de adequação" . Anais da 33ª Conferência Internacional sobre Aprendizado de Máquina . A 33ª Conferência Internacional sobre Aprendizado de Máquina. New York, New York, USA: Proceedings of Machine Learning Research. pp. 2606–2615.
  3. ^ Zhang, Jin (2002). "Testes poderosos de adequação com base na razão de verossimilhança" (PDF) . JR Stat. Soc. B . 64 : 281–294 . Página visitada em 5 de novembro de 2018 .
  4. ^ Maindonald, JH; Braun, WJ (2010). Análise de dados e gráficos usando R. Uma abordagem baseada em exemplos (terceira ed.). Nova York: Cambridge University Press. pp.  116 -118. ISBN 978-0-521-76293-9.
  5. ^ McDonald, JH (2014). "Teste G de adequação". Handbook of Biological Statistics (Third ed.). Baltimore, Maryland: Sparky House Publishing. pp. 53–58.
  6. ^ Sokal, RR; Rohlf, FJ (1981). Biometria: Os Princípios e Prática de Estatística em Pesquisa Biológica (Segunda ed.). WH Freeman . ISBN 0-7167-2411-1.

Leitura adicional

  • Huber-Carol, C .; Balakrishnan, N .; Nikulin, MS; Mesbah, M., eds. (2002), Goodness-of-Fit Tests and Model Validity , Springer
  • Ingster, Yu. EU.; Suslina, IA (2003), Nonparametric Goodness-of-Fit Testing Under Gaussian Models , Springer
  • Rayner, JCW; Thas, O .; Best, DJ (2009), Smooth Tests of Goodness of Fit (2ª ed.), Wiley
  • Vexlera, Albert; Gurevich, Gregory (2010), "Razões de verossimilhança empíricas aplicadas a testes de qualidade de ajuste com base na entropia da amostra", Computational Statistics & Data Analysis , 54 : 531-545, doi : 10.1016 / j.csda.2009.09.025