t- estatístico - t-statistic

Em estatísticas , o t -statistic é a relação entre a saída do valor estimado de um parâmetro do seu valor hipotético ao seu erro padrão . Ele é usado em testes de hipóteses através de Student t -teste . A estatística t é usada em um teste t para determinar se deve apoiar ou rejeitar a hipótese nula. É muito semelhante ao Z-score, mas com a diferença de que a estatística t é usada quando o tamanho da amostra é pequeno ou o desvio padrão da população é desconhecido. Por exemplo, a estatística t é usada na estimativa da média da população a partir de uma distribuição de amostragem das médias da amostra se o desvio padrão da população for desconhecido. Ele também é usado junto com o valor p ao executar testes de hipótese em que o valor p nos diz quais são as chances de os resultados terem acontecido.

Definição e recursos

Seja um estimador do parâmetro β em algum modelo estatístico . Então, uma estatística t para este parâmetro é qualquer quantidade da forma

onde β 0 é uma constante conhecida não aleatória que pode ou não corresponder ao valor real do parâmetro desconhecido β , e é o erro padrão do estimador para β .

Por padrão, os pacotes estatísticos relatam a estatística t com β 0 = 0 (essas estatísticas t são usadas para testar a significância do regressor correspondente). No entanto, quando a estatística t é necessária para testar a hipótese da forma H 0 : β = β 0 , então um β 0 diferente de zero pode ser usado.

Se for um estimador de mínimos quadrados ordinários no modelo de regressão linear clássico (ou seja, com termos de erro homocedástico e normalmente distribuídos ), e se o valor verdadeiro do parâmetro β for igual a β 0 , então a distribuição de amostragem da estatística t é o de Student t -distribuição com ( n - k ) graus de liberdade, onde n é o número de observações, e k é o número de regressores (incluindo a intercepção).

Na maioria dos modelos, o estimador é consistente para β e é distribuído assintoticamente normalmente . Se o valor verdadeiro do parâmetro β for igual a β 0 e a quantidade estimar corretamente a variância assintótica deste estimador, então a estatística t terá assintoticamente a distribuição normal padrão .

Em alguns modelos, a distribuição da estatística t é diferente da distribuição normal, mesmo assintoticamente. Por exemplo, quando uma série temporal com uma raiz unitária é regredida no teste Dickey-Fuller aumentado , a estatística t de teste terá assintoticamente uma das distribuições Dickey-Fuller (dependendo da configuração do teste).

Usar

Mais frequentemente, t estatísticas são usados em Student t -Testes , uma forma de testes estatísticos de hipóteses , e no cálculo de certos intervalos de confiança .

A principal propriedade da estatística t é que ela é uma quantidade essencial - embora definida em termos da média da amostra, sua distribuição amostral não depende dos parâmetros da população e, portanto, pode ser usada independentemente de quais sejam.

Também se pode dividir um resíduo pelo desvio padrão da amostra :

para calcular uma estimativa para o número de desvios padrão, uma determinada amostra é da média, como uma versão de amostra de um escore z, o escore z que requer os parâmetros da população.

Predição

Dada uma distribuição normal com média e variância desconhecidas, a estatística t de uma observação futura depois que alguém fez n observações, é uma estatística auxiliar - uma quantidade central (não depende dos valores de μ e σ 2 ) que é uma estatística (calculado a partir de observações). Isso permite calcular um intervalo de predição frequentista (um intervalo de confiança preditivo ), por meio da seguinte distribuição t:

Resolver para produz a distribuição de previsão

a partir do qual se pode calcular intervalos de confiança preditivos - dada uma probabilidade p, pode-se calcular intervalos tais que 100 p % do tempo, a próxima observação cairá nesse intervalo.

História

O termo " estatística t " é abreviado de "estatística de teste de hipótese". Em estatística, a distribuição t foi derivada pela primeira vez como uma distribuição posterior em 1876 por Helmert e Lüroth . A distribuição t também apareceu em uma forma mais geral como distribuição de Pearson Tipo IV no artigo de Karl Pearson de 1895. No entanto, a T-Distribution, também conhecida como Student's T Distribution recebe o nome de William Sealy Gosset, que foi o primeiro a publicar o resultado em inglês em seu artigo de 1908 intitulado "The Probable Error of a Mean" (em Biometrika ) usando seu pseudônimo " Estudante "porque seu empregador preferia que seus funcionários usassem pseudônimos ao publicar artigos científicos em vez do nome real, então ele usou o nome" Estudante "para ocultar sua identidade. Gosset trabalhava na Cervejaria Guinness em Dublin , Irlanda , e estava interessado nos problemas de pequenas amostras - por exemplo, as propriedades químicas da cevada, onde os tamanhos das amostras podem ser tão pequenos quanto 3. Daí uma segunda versão da etimologia do termo Aluno é que a Guinness não queria que seus concorrentes soubessem que eles estavam usando o teste t para determinar a qualidade da matéria-prima. Embora tenha sido William Gosset quem criou o termo "Aluno", foi na verdade por meio do trabalho de Ronald Fisher que a distribuição se tornou conhecida como "Distribuição do Aluno" e " Teste t do Aluno "

Conceitos relacionados

Veja também

Referências

links externos