Intervalo de confiança - Confidence interval

Em estatísticas , um intervalo de confiança ( IC ) é um tipo de estimativa calculada a partir dos dados observados. Isso fornece uma faixa de valores para um parâmetro desconhecido (por exemplo, uma média da população). O intervalo possui um nível de confiança associado escolhido pelo investigador. Para uma determinada estimativa em uma determinada amostra, o uso de um nível de confiança mais alto gera um intervalo de confiança mais amplo (ou seja, menos preciso). Em termos gerais, um intervalo de confiança para um parâmetro desconhecido é baseado na amostragem da distribuição de um estimador correspondente .

Isso significa que o nível de confiança representa a frequência teórica de longo prazo (ou seja, a proporção) dos intervalos de confiança que contêm o valor verdadeiro do parâmetro desconhecido da população. Em outras palavras, 90% dos intervalos de confiança calculados no nível de confiança de 90% contêm o parâmetro, 95% dos intervalos de confiança calculados no nível de confiança de 95% contêm o parâmetro, 99% dos intervalos de confiança calculados no nível de confiança de 99% contêm o parâmetro, etc.

O nível de confiança é designado antes de examinar os dados. Mais comumente, um nível de confiança de 95% é usado. No entanto, outros níveis de confiança, como 90% ou 99%, às vezes são usados.

Os fatores que afetam a largura do intervalo de confiança incluem o tamanho da amostra, o nível de confiança e a variabilidade da amostra. Uma amostra maior tenderá a produzir uma estimativa melhor do parâmetro populacional, quando todos os outros fatores são iguais. Um nível de confiança mais alto tende a produzir um intervalo de confiança mais amplo.

Outra forma de expressar a forma do intervalo de confiança é um conjunto de dois parâmetros: (estimativa pontual - limite de erro, estimativa pontual + limite de erro) ou simbolicamente expresso como (–EBM, + EBM) , onde (estimativa pontual) serve como um estimativa para m (a média da população) e EBM é o limite de erro para uma média da população.

A margem de erro (EBM) depende do nível de confiança.

Uma definição geral rigorosa:

Suponha que um conjunto de dados seja fornecido, modelado como realização de variáveis ​​aleatórias . Seja o parâmetro de interesse, e um número entre 0 e 1. Se houver estatísticas de amostra e tais que:

para cada valor de

então , onde e , é chamado de intervalo de confiança para . O número é chamado de nível de confiança .

Base conceitual

Neste gráfico de barras , as extremidades superiores das barras marrons indicam as médias observadas e os segmentos de linha vermelha ("barras de erro") representam os intervalos de confiança em torno deles. Embora as barras de erro sejam mostradas como simétricas em torno das médias, nem sempre é esse o caso. Na maioria dos gráficos, as barras de erro não representam intervalos de confiança (por exemplo, muitas vezes representam erros padrão ou desvios padrão )

Introdução

A estimativa de intervalo pode ser contrastada com a estimativa de ponto . Uma estimativa pontual é um valor único dado como a estimativa de um parâmetro populacional que é de interesse, por exemplo, a média de alguma quantidade. Uma estimativa de intervalo especifica, em vez disso, um intervalo dentro do qual se estima que o parâmetro se encontra. Os intervalos de confiança são comumente relatados em tabelas ou gráficos, juntamente com estimativas pontuais dos mesmos parâmetros, para mostrar a confiabilidade das estimativas.

Por exemplo, um intervalo de confiança pode ser usado para descrever o quão confiáveis ​​são os resultados da pesquisa. Em uma pesquisa de intenção de voto eleitoral, o resultado pode ser que 40% dos entrevistados pretendem votar em um determinado partido. Um intervalo de confiança de 99% para a proporção em toda a população com a mesma intenção na pesquisa pode ser de 30% a 50%. A partir dos mesmos dados pode-se calcular um intervalo de confiança de 90%, que neste caso pode ser de 37% a 43%. Um fator importante que determina a duração de um intervalo de confiança é o tamanho da amostra usada no procedimento de estimativa, por exemplo, o número de pessoas que participam de uma pesquisa.


Significado e interpretação

Várias interpretações de um intervalo de confiança podem ser fornecidas (tomando o intervalo de confiança de 90% como exemplo a seguir).

  • O intervalo de confiança pode ser expresso em termos de amostras (ou amostras repetidas ): " Se este procedimento fosse repetido em várias amostras, a fração dos intervalos de confiança calculados (que seriam diferentes para cada amostra) que abrangem o verdadeiro parâmetro da população tenderia a 90%. "
  • O intervalo de confiança pode ser expresso em termos de uma única amostra: " Há 90% de probabilidade de que o intervalo de confiança calculado de algum experimento futuro englobe o valor real do parâmetro populacional." Esta é uma declaração de probabilidade sobre o intervalo de confiança, não o parâmetro da população. Este considera a probabilidade associada a um intervalo de confiança do ponto de vista pré-experimento, no mesmo contexto em que são apresentados os argumentos para a alocação aleatória de tratamentos aos itens de estudo. Aqui, o experimentador define a maneira pela qual pretende calcular um intervalo de confiança e saber, antes de fazer o experimento real, que o intervalo que eles terminarão calculando tem uma chance particular de cobrir o valor verdadeiro, mas desconhecido. Isso é muito semelhante à interpretação de "amostra repetida" acima, exceto que evita confiar na consideração de repetições hipotéticas de um procedimento de amostragem que podem não ser repetíveis em qualquer sentido significativo. Veja a construção de Neyman .
  • A explicação de um intervalo de confiança pode ser algo como: " O intervalo de confiança representa valores para o parâmetro da população para os quais a diferença entre o parâmetro e a estimativa observada não é estatisticamente significativa ao nível de 10% ". Essa interpretação é comum em artigos científicos que usam intervalos de confiança para validar seus experimentos, embora o excesso de confiança nos intervalos de confiança também possa causar problemas .

Em cada um dos itens acima, aplica-se o seguinte: Se o valor verdadeiro do parâmetro estiver fora do intervalo de confiança de 90%, então ocorreu um evento de amostragem (ou seja, obter uma estimativa pontual do parâmetro pelo menos tão longe do valor verdadeiro do parâmetro ) que tinha uma probabilidade de 10% (ou menos) de acontecer por acaso.

Mal-entendidos

Os intervalos e níveis de confiança são freqüentemente mal compreendidos, e estudos publicados têm mostrado que até mesmo cientistas profissionais freqüentemente os interpretam mal.

  • Um nível de confiança de 95% não significa que, para um determinado intervalo realizado, haja 95% de probabilidade de que o parâmetro da população esteja dentro do intervalo (ou seja, uma probabilidade de 95% de que o intervalo cubra o parâmetro da população). De acordo com a interpretação freqüentista estrita, uma vez que um intervalo é calculado, este intervalo cobre o valor do parâmetro ou não; não é mais uma questão de probabilidade. A probabilidade de 95% está relacionada à confiabilidade do procedimento de estimativa, não a um intervalo específico calculado. O próprio Neyman (o proponente original dos intervalos de confiança) destacou este ponto em seu artigo original:

    "Será notado que na descrição acima, as declarações de probabilidade referem-se aos problemas de estimativa com os quais o estatístico se preocupará no futuro. Na verdade, eu afirmei repetidamente que a frequência de resultados corretos tenderá a α . Considere agora o caso em que uma amostra já foi desenhada, e os cálculos deram [limites particulares]. Podemos dizer que, neste caso particular, a probabilidade do valor verdadeiro [cair entre esses limites] é igual a α ? A resposta está obviamente em o negativo. O parâmetro é uma constante desconhecida, e nenhuma declaração de probabilidade sobre seu valor pode ser feita ... "

Deborah Mayo expande isso ainda mais da seguinte forma:

"Deve-se enfatizar, no entanto, que tendo visto o valor [dos dados], a teoria de Neyman-Pearson nunca permite concluir que o intervalo de confiança específico formado cobre o valor verdadeiro de 0 com (1 -  α ) 100% de probabilidade ou (1 -  α ) 100% de grau de confiança. A observação de Seidenfeld parece enraizada em um desejo (não incomum) de intervalos de confiança de Neyman-Pearson para fornecer algo que eles não podem fornecer legitimamente; ou seja, uma medida do grau de probabilidade, crença, ou suporte de que um valor de parâmetro desconhecido está em um intervalo específico. Seguindo Savage (1962), a probabilidade de um parâmetro estar em um intervalo específico pode ser referida como uma medida de precisão final. Embora uma medida de precisão final possa parecer desejável, e embora os níveis de confiança sejam frequentemente (erroneamente) interpretados como uma medida desse tipo, essa interpretação não é garantida. Admitidamente, essa interpretação errônea é incentivada pela palavra 'confiança'. "

  • Um nível de confiança de 95% não significa que 95% dos dados da amostra estão dentro do intervalo de confiança.
  • Um intervalo de confiança não é um intervalo definitivo de valores plausíveis para o parâmetro da amostra, embora possa ser entendido como uma estimativa de valores plausíveis para o parâmetro da população.
  • Um determinado nível de confiança de 95% calculado a partir de um experimento não significa que haja uma probabilidade de 95% de um parâmetro de amostra de uma repetição do experimento cair dentro desse intervalo.

História

Os intervalos de confiança foram introduzidos nas estatísticas por Jerzy Neyman em um artigo publicado em 1937. No entanto, demorou um pouco para que os intervalos de confiança fossem usados ​​de forma precisa e rotineira.

No mais antigo ensaio clínico controlado moderno de um tratamento médico para acidente vascular cerebral agudo , publicado por Dyken e White em 1959, os pesquisadores foram incapazes de rejeitar a hipótese nula de nenhum efeito do cortisol no acidente vascular cerebral. No entanto, eles concluíram que seu ensaio "claramente não indicava nenhuma vantagem possível do tratamento com cortisona". Dyken e White não calcularam os intervalos de confiança, que eram raros na época na medicina. Quando Peter Sandercock reavaliou os dados em 2015, ele descobriu que o intervalo de confiança de 95% se estendeu de uma redução de 12% no risco para um aumento de 140% no risco. Portanto, a declaração dos autores não foi apoiada por seu experimento. Sandercock concluiu que, especialmente nas ciências médicas, onde os conjuntos de dados podem ser pequenos, os intervalos de confiança são melhores do que os testes de hipótese para quantificar a incerteza em torno do tamanho e da direção de um efeito.

Foi só na década de 1980 que os periódicos exigiram que intervalos de confiança e valores de p fossem relatados em artigos. Em 1992, estimativas imprecisas ainda eram comuns, mesmo para grandes ensaios. Isso impediu uma decisão clara quanto à hipótese nula. Por exemplo, um estudo de terapias médicas para AVC agudo chegou à conclusão de que os tratamentos para AVC podem reduzir a mortalidade ou aumentá-la em 10% a 20%. A estrita admissão ao estudo introduziu erros imprevistos, aumentando ainda mais a incerteza na conclusão. Os estudos persistiram, e só em 1997 um ensaio com uma grande amostra e intervalo de confiança aceitável foi capaz de fornecer uma resposta definitiva: a terapia com cortisol não reduz o risco de AVC agudo.

Questões filosóficas

O princípio por trás dos intervalos de confiança foi formulado para fornecer uma resposta à questão levantada na inferência estatística de como lidar com a incerteza inerente aos resultados derivados de dados que são eles próprios apenas um subconjunto selecionado aleatoriamente de uma população. Existem outras respostas, notadamente a fornecida pela inferência bayesiana na forma de intervalos confiáveis . Os intervalos de confiança correspondem a uma regra escolhida para determinar os limites de confiança, onde esta regra é essencialmente determinada antes de quaisquer dados serem obtidos, ou antes de um experimento ser feito. A regra é definida de forma que, sobre todos os conjuntos de dados possíveis que podem ser obtidos, haja uma alta probabilidade ("alto" é especificamente quantificado) de que o intervalo determinado pela regra incluirá o valor verdadeiro da quantidade em consideração. A abordagem bayesiana parece oferecer intervalos que podem, sujeito à aceitação de uma interpretação de "probabilidade" como probabilidade bayesiana , ser interpretada como significando que o intervalo específico calculado a partir de um determinado conjunto de dados tem uma probabilidade particular de incluir o valor verdadeiro, condicional ao dados e outras informações disponíveis. A abordagem do intervalo de confiança não permite isso, pois nesta formulação e neste mesmo estágio, tanto os limites do intervalo quanto os valores verdadeiros são valores fixos e não há aleatoriedade envolvida. Por outro lado, a abordagem bayesiana é tão válida quanto a probabilidade anterior usada no cálculo, enquanto o intervalo de confiança não depende de suposições sobre a probabilidade anterior.

As questões sobre como um intervalo que expressa a incerteza em uma estimativa pode ser formulado e como esses intervalos podem ser interpretados não são problemas estritamente matemáticos e são filosoficamente problemáticos. A matemática pode assumir o controle uma vez que os princípios básicos de uma abordagem para 'inferência' tenham sido estabelecidos, mas tem apenas um papel limitado em dizer por que uma abordagem deve ser preferida a outra: por exemplo, um nível de confiança de 95% é frequentemente usado em as ciências biológicas , mas esta é uma questão de convenção ou arbitragem. Nas ciências físicas , um nível muito mais alto pode ser usado.

Relacionamento com outros tópicos estatísticos

Teste de hipótese estatística

Os intervalos de confiança estão intimamente relacionados aos testes de significância estatística . Por exemplo, se para algum parâmetro estimado θ se deseja testar a hipótese nula de que θ  = 0 contra a alternativa de θ  ≠ 0, então este teste pode ser realizado determinando se o intervalo de confiança para θ contém 0.

De forma mais geral, dada a disponibilidade de um procedimento de teste de hipótese que pode testar a hipótese nula θ  =  θ 0 contra a alternativa que θ  ≠  θ 0 para qualquer valor de θ 0 , então um intervalo de confiança com nível de confiança  γ  = 1 -  α pode ser definido como contendo qualquer número θ 0 para o qual a hipótese nula correspondente não é rejeitada no nível de significância  α .

Se as estimativas de dois parâmetros (por exemplo, os valores médios de uma variável em dois grupos independentes) têm intervalos de confiança que não se sobrepõem, então a diferença entre os dois valores é mais significativa do que a indicada pelos valores individuais de α . Portanto, esse "teste" é muito conservador e pode levar a um resultado mais significativo do que os valores individuais de α indicariam. Se dois intervalos de confiança se sobrepõem, as duas médias ainda podem ser significativamente diferentes. Consequentemente, e consistente com o teste de qui-quadrado de Mantel-Haenszel , é uma correção proposta em que se reduz os limites de erro para as duas médias multiplicando-os pela raiz quadrada de ½ (0,707107) antes de fazer a comparação.

Embora as formulações das noções de intervalos de confiança e de teste de hipótese estatística sejam distintas, elas são em alguns sentidos relacionadas e, em certa medida, complementares. Embora nem todos os intervalos de confiança sejam construídos desta forma, uma abordagem de propósito geral para construir intervalos de confiança é definir um intervalo de confiança de 100 (1 -  α )% para consistir em todos os valores θ 0 para os quais um teste da hipótese θ  =  θ 0 não é rejeitado a um nível de significância de 100α%. Tal abordagem pode nem sempre estar disponível, uma vez que pressupõe a disponibilidade prática de um teste de significância apropriado. Naturalmente, quaisquer suposições necessárias para o teste de significância seriam transportadas para os intervalos de confiança.

Pode ser conveniente fazer a correspondência geral de que os valores dos parâmetros dentro de um intervalo de confiança são equivalentes aos valores que não seriam rejeitados por um teste de hipótese, mas isso seria perigoso. Em muitos casos, os intervalos de confiança citados são apenas aproximadamente válidos, talvez derivados de "mais ou menos duas vezes o erro padrão", e as implicações disso para os testes de hipótese supostamente correspondentes geralmente são desconhecidas.

É importante notar que o intervalo de confiança de um parâmetro não é o mesmo que a região de aceitação de um teste para esse parâmetro, como às vezes se pensa. O intervalo de confiança faz parte do espaço de parâmetros, enquanto a região de aceitação faz parte do espaço de amostra. Pelo mesmo motivo, o nível de confiança não é igual à probabilidade complementar do nível de significância.

Região de confiança

As regiões de confiança generalizam o conceito de intervalo de confiança para lidar com várias quantidades. Essas regiões podem indicar não apenas a extensão dos erros de amostragem prováveis , mas também podem revelar se (por exemplo) é o caso de que se a estimativa para uma quantidade não for confiável, então a outra também provavelmente não será confiável.

Banda de confiança

Uma banda de confiança é usada em análise estatística para representar a incerteza em uma estimativa de uma curva ou função com base em dados limitados ou ruidosos. Da mesma forma, uma banda de previsão é usada para representar a incerteza sobre o valor de um novo ponto de dados na curva, mas sujeito a ruído. As bandas de confiança e previsão são freqüentemente usadas como parte da apresentação gráfica dos resultados de uma análise de regressão .

As bandas de confiança estão intimamente relacionadas aos intervalos de confiança, que representam a incerteza em uma estimativa de um único valor numérico. "Como os intervalos de confiança, por construção, referem-se apenas a um único ponto, eles são mais estreitos (neste ponto) do que uma banda de confiança que supostamente se mantém simultaneamente em muitos pontos."

Etapas básicas

Este exemplo assume que as amostras são retiradas de uma distribuição normal . O procedimento básico para calcular um intervalo de confiança para uma média populacional é o seguinte:

  1. Identifique a média da amostra ,.
  2. Identifique se o desvio padrão da população é conhecido, ou é desconhecido e é estimado pelo desvio padrão da amostra .
    • Se o desvio padrão da população for conhecido , então , onde é o nível de confiança e é o CDF da distribuição normal padrão , usado como o valor crítico. Este valor depende apenas do nível de confiança do teste. Os níveis de confiança bilateral típicos são:
      C z *
      99% 2.576
      98% 2.326
      95% 1,96
      90% 1.645
    • Se o desvio padrão da população for desconhecido, a distribuição t de Student será usada como o valor crítico. Este valor depende do nível de confiança (C) para o teste e graus de liberdade. Os graus de liberdade são encontrados subtraindo um do número de observações, n  - 1. O valor crítico é encontrado na tabela de distribuição t. Nesta tabela o valor crítico é escrito como , onde estão os graus de liberdade e .
  3. Substitua os valores encontrados nas equações apropriadas:
    • Para um desvio padrão conhecido:
    • Para um desvio padrão desconhecido:
Distribuição normal: representação gráfica da quebra do intervalo de confiança e relação dos intervalos de confiança com os escores z e t.

Significado das tabelas t e tabelas z

Os intervalos de confiança podem ser calculados usando dois valores diferentes: valores t ou valores z, conforme mostrado no exemplo básico acima. Ambos os valores são tabulados em tabelas, com base nos graus de liberdade e na cauda de uma distribuição de probabilidade. Mais frequentemente, os valores z são usados. Esses são os valores críticos da distribuição normal com probabilidade de cauda direita. No entanto, os valores t são usados ​​quando o tamanho da amostra é inferior a 30 e o desvio padrão é desconhecido.

Quando a variância é desconhecida, devemos usar um estimador diferente: . Isso permite a formação de uma distribuição que depende apenas e cuja densidade pode ser expressa de forma explícita.

Definição: Uma variável aleatória contínua tem uma distribuição t com parâmetro m, onde é um inteiro, se sua densidade de probabilidade for dada por para , onde . Essa distribuição é denotada por e é chamada de distribuição t com m graus de liberdade.

Exemplo

Usando a tabela de distribuição t

  1. Encontre graus de liberdade (df) a partir do tamanho da amostra:
    Se o tamanho da amostra = 10, df = 9.
  2. Subtraia o intervalo de confiança (CL) de 1 e, em seguida, divida-o por dois. Este valor é o nível alfa. (alfa + CL = 1)
  3. Veja df e alpha na tabela de distribuição t. Para df = 9 e alfa = 0,01, a tabela fornece um valor de 2,821. Este valor obtido da tabela é o t-score.

Teoria estatística

Definição

Seja X uma amostra aleatória de uma distribuição de probabilidade com parâmetro estatístico θ , que é uma quantidade a ser estimada, e φ , representando quantidades que não são de interesse imediato. Um intervalo de confiança para o parâmetro θ , com nível de confiança ou coeficiente de confiança γ , é um intervalo com desfechos aleatórios ( u ( X ),  v ( X )), determinado pelo par de variáveis ​​aleatórias u ( X ) ev ( X ) , com a propriedade:

As quantidades φ nas quais não há interesse imediato são chamadas de parâmetros incômodos , pois a teoria estatística ainda precisa encontrar uma maneira de lidar com elas. O número γ , com valores típicos próximos a, mas não maiores que 1, às vezes é dado na forma 1 -  α (ou como uma porcentagem 100% · (1 -  α )), onde α é um pequeno número não negativo, próximo a 0.

Aqui Pr θ , φ indica a distribuição de probabilidade de X caracterizada por ( θφ ). Uma parte importante desta especificação é que o intervalo aleatório ( u ( X ),  v ( X )) cobre o valor desconhecido θ com uma alta probabilidade, não importa qual seja o valor verdadeiro de θ .

Observe que aqui Pr θ , φ não precisa se referir a uma família parametrizada explicitamente dada de distribuições, embora freqüentemente o faça. Assim como a variável aleatória X corresponde, em teoria, a outras realizações possíveis de x da mesma população ou da mesma versão da realidade, os parâmetros ( θφ ) indicam que precisamos considerar outras versões da realidade em que a distribuição de X pode têm características diferentes.

Em uma situação específica, quando x é o resultado da amostra X , o intervalo ( u ( x ),  v ( x )) também é referido como um intervalo de confiança para θ . Observe que não é mais possível dizer que o intervalo (observado) ( u ( x ),  v ( x )) tem probabilidade γ de conter o parâmetro θ . Este intervalo observado é apenas uma realização de todos os intervalos possíveis para os quais a declaração de probabilidade é válida.

Intervalos de confiança aproximados

Em muitas aplicações, os intervalos de confiança que têm exatamente o nível de confiança necessário são difíceis de construir. Mas intervalos praticamente úteis ainda podem ser encontrados: a regra para construir o intervalo pode ser aceita como fornecendo um intervalo de confiança no nível se

a um nível aceitável de aproximação. Alternativamente, alguns autores simplesmente exigem que

o que é útil se as probabilidades são apenas parcialmente identificadas ou imprecisas , e também quando se trata de distribuições discretas . Limites de confiança de forma e são chamados de conservadores ; consequentemente, fala-se de intervalos de confiança conservadores e, em geral, regiões.

Propriedades desejáveis

Ao aplicar os procedimentos estatísticos padrão, freqüentemente haverá maneiras padronizadas de construir intervalos de confiança. Eles terão sido planejados de modo a atender a certas propriedades desejáveis, que serão válidas, visto que as suposições nas quais o procedimento se baseia são verdadeiras. Essas propriedades desejáveis ​​podem ser descritas como: validade, otimização e invariância. Destes, "validade" é o mais importante, seguido de perto por "otimização". A "invariância" pode ser considerada uma propriedade do método de derivação de um intervalo de confiança, e não da regra de construção do intervalo. Em aplicações não padronizadas, as mesmas propriedades desejáveis ​​seriam buscadas.

  • Validade. Isso significa que a probabilidade de cobertura nominal (nível de confiança) do intervalo de confiança deve ser mantida, exatamente ou com uma boa aproximação.
  • Optimality. Isso significa que a regra para construir o intervalo de confiança deve fazer o máximo uso possível das informações do conjunto de dados. Lembre-se de que é possível descartar metade de um conjunto de dados e ainda assim derivar um intervalo de confiança válido. Uma maneira de avaliar a otimização é pela duração do intervalo, de forma que uma regra para construir um intervalo de confiança seja julgada melhor do que outra se levar a intervalos cujos comprimentos são tipicamente mais curtos.
  • Invariância. Em muitas aplicações, a quantidade estimada pode não ser bem definida como tal. Por exemplo, uma pesquisa pode resultar em uma estimativa da renda mediana de uma população, mas também pode ser considerada como uma estimativa do logaritmo da renda mediana, visto que esta é uma escala comum para apresentação de resultados gráficos. Seria desejável que o método usado para construir um intervalo de confiança para a renda mediana desse resultados equivalentes quando aplicado à construção de um intervalo de confiança para o logaritmo da renda mediana: especificamente os valores nas extremidades do último intervalo seriam os logaritmos dos valores no final do intervalo anterior.

Métodos de derivação

Para aplicações não padronizadas, existem várias rotas que podem ser seguidas para derivar uma regra para a construção de intervalos de confiança. As regras estabelecidas para procedimentos padrão podem ser justificadas ou explicadas por meio de várias dessas rotas. Normalmente, uma regra para construir intervalos de confiança está intimamente ligada a uma maneira particular de encontrar uma estimativa pontual da quantidade que está sendo considerada.

Estatísticas de resumo
Isso está intimamente relacionado ao método dos momentos de estimativa. Surge um exemplo simples onde a quantidade a ser estimada é a média, caso em que uma estimativa natural é a média da amostra. Os argumentos usuais indicam que a variância da amostra pode ser usada para estimar a variância da média da amostra. Um intervalo de confiança para a média verdadeira pode ser construído centrado na média da amostra com uma largura que é um múltiplo da raiz quadrada da variância da amostra.
Teoria da verossimilhança
Quando as estimativas são construídas usando o princípio de máxima verossimilhança , a teoria para isso fornece duas maneiras de construir intervalos de confiança ou regiões de confiança para as estimativas. Uma maneira é usar o teorema de Wilks para encontrar todos os valores possíveis de que cumpram a seguinte restrição:
Estimando equações
A abordagem de estimação aqui pode ser considerada tanto uma generalização do método dos momentos quanto uma generalização da abordagem de máxima verossimilhança. Existem generalizações correspondentes dos resultados da teoria de máxima verossimilhança que permitem que intervalos de confiança sejam construídos com base em estimativas derivadas de equações de estimativa .
Testando hipóteses
Se os testes de significância estiverem disponíveis para os valores gerais de um parâmetro, então os intervalos / regiões de confiança podem ser construídos incluindo na região de confiança de 100 p % todos aqueles pontos para os quais o teste de significância da hipótese nula de que o valor verdadeiro é o valor dado é não rejeitado a um nível de significância de (1 -  p ).
Bootstrapping
Em situações em que as suposições de distribuição para os métodos acima são incertas ou violadas, os métodos de reamostragem permitem a construção de intervalos de confiança ou intervalos de previsão. A distribuição de dados observada e as correlações internas são usadas como substituto para as correlações na população mais ampla.

Exemplos

Exemplos médicos

A pesquisa médica freqüentemente estima os efeitos de uma intervenção ou exposição em uma determinada população. Normalmente, os pesquisadores determinaram a significância dos efeitos com base no valor p; no entanto, recentemente houve um impulso para mais informações estatísticas a fim de fornecer uma base mais sólida para as estimativas. Uma maneira de resolver esse problema é também exigir o relatório do intervalo de confiança. Abaixo estão dois exemplos de como os intervalos de confiança são usados ​​e relatados para pesquisa.

Em um estudo de 2004, Briton e colegas realizaram um estudo sobre a avaliação da relação da infertilidade com o câncer de ovário. A taxa de incidência de 1,98 foi relatada para um intervalo de confiança (IC) de 95% com uma faixa de razão de 1,4 a 2,6. A estatística foi relatada como o seguinte no artigo: “(razão de incidência padronizada = 1,98; IC de 95%, 1,4–2,6).” Isso significa que, com base na amostra estudada, mulheres inférteis apresentam incidência de câncer de ovário 1,98 vezes maior do que mulheres não inférteis. Além disso, também significa que estamos 95% confiantes de que a verdadeira razão de incidência em toda a população feminina infértil está na faixa de 1,4 a 2,6. No geral, o intervalo de confiança forneceu mais informações estatísticas, pois relatou os menores e maiores efeitos que são prováveis ​​de ocorrer para a variável estudada, ao mesmo tempo em que fornece informações sobre a significância dos efeitos observados.

Em um estudo de 2018, a prevalência e a carga da doença da dermatite atópica na população adulta dos EUA foram compreendidas com o uso de intervalos de confiança de 95%. Foi relatado que entre 1.278 adultos participantes, a prevalência de dermatite atópica foi de 7,3% (5,9–8,8). Além disso, 60,1% (56,1-64,1) dos participantes foram classificados como tendo dermatite atópica leve, enquanto 28,9% (25,3-32,7) moderada e 11% (8,6-13,7) grave. O estudo confirmou que há uma alta prevalência e carga de doença da dermatite atópica na população.

Exemplo teórico

Suponha { X 1 , ...,  X n } é um independente amostra de um normalmente distribuído população com desconhecidos ( parâmetros ) média μ e variância σ 2 . Deixar

Onde X é a média da amostra e S 2 é a variância da amostra . Então

tem uma distribuição t de Student com n - 1 graus de liberdade. Observe que a distribuição de T não depende dos valores dos parâmetros não observáveis μ e σ 2 ; ou seja, é uma quantidade fundamental . Suponha que desejamos calcular um intervalo de confiança de 95% para  μ . Então, denotando c como o percentil 97,5 desta distribuição,

Observe que "97.5th" e "0.95" estão corretos nas expressões anteriores. Há 2,5% de chance de que seja menor que e 2,5% de chance de que seja maior que . Portanto, a probabilidade de estar entre e é de 95%.

Consequentemente,

e temos um intervalo de confiança teórico (estocástico) de 95% para  µ .

Depois de observar a amostra, encontramos valores x para X e é por S , a partir do qual calculamos o intervalo de confiança

um intervalo com números fixos como pontos finais, do qual não podemos mais dizer que há uma certa probabilidade de que contenha o parâmetro  µ ; ou μ está neste intervalo ou não está.

Alternativas e críticas

Os intervalos de confiança são um método de estimativa de intervalo e o mais amplamente usado nas estatísticas frequentistas . Um conceito análogo na estatística bayesiana são intervalos confiáveis , enquanto um método frequentista alternativo é o de intervalos de predição que, ao invés de estimar parâmetros, estimam o resultado de amostras futuras . Para outras abordagens para expressar a incerteza usando intervalos, consulte estimativa de intervalo .

Comparação com intervalos de predição

Um intervalo de predição para uma variável aleatória é definido de forma semelhante a um intervalo de confiança para um parâmetro estatístico . Considere um adicional variável aleatória Y , que pode ou não ser estatisticamente dependente do acaso amostra X . Então ( u ( X ),  v ( X )) fornece um intervalo de predição para o valor y de Y, ainda a ser observado, se

Aqui Pr θ , φ indica a distribuição de probabilidade conjunta das variáveis ​​aleatórias ( XY ), onde esta distribuição depende dos parâmetros estatísticos  ( θφ ).

Comparação com estimativas de intervalo bayesiano

Uma estimativa de intervalo bayesiana é chamada de intervalo confiável . Usando muito da mesma notação acima, a definição de um intervalo confiável para o valor verdadeiro desconhecido de θ é, para um dado γ ,

Aqui Θ é usado para enfatizar que o valor desconhecido de θ está sendo tratado como uma variável aleatória. As definições dos dois tipos de intervalos podem ser comparadas como segue.

  • A definição de um intervalo de confiança envolve probabilidades calculadas a partir da distribuição de X para um dado ( θφ ) (ou condicional a esses valores) e a condição precisa ser válida para todos os valores de ( θφ ).
  • A definição de um intervalo de credibilidade envolve probabilidades calculadas a partir da distribuição de Θ condicional aos valores observados de X  =  x e marginalizados (ou em média) sobre os valores de Φ, onde esta última quantidade é a variável aleatória correspondente à incerteza sobre o incômodo parâmetros em  φ .

Observe que o tratamento dos parâmetros incômodos acima é frequentemente omitido das discussões que comparam intervalos de confiança e credíveis, mas é marcadamente diferente entre os dois casos.

Em alguns casos, um intervalo de confiança e intervalo de credibilidade calculado para um determinado parâmetro usando um determinado conjunto de dados são idênticos. Mas, em outros casos, os dois podem ser muito diferentes, especialmente se a informação prévia informativa for incluída na análise bayesiana .

Há desacordo sobre qual desses métodos produz os resultados mais úteis: a matemática dos cálculos raramente está em questão - intervalos de confiança sendo baseados em distribuições de amostragem, intervalos confiáveis ​​sendo baseados no teorema de Bayes - mas a aplicação desses métodos, a utilidade e a interpretação das estatísticas produzidas é debatida.

Intervalos de confiança para proporções e quantidades relacionadas

Um intervalo de confiança aproximado para uma média populacional pode ser construído para variáveis ​​aleatórias que não são normalmente distribuídas na população, baseando-se no teorema do limite central , se os tamanhos de amostra e contagens forem grandes o suficiente. As fórmulas são idênticas ao caso acima (onde a média da amostra é, na verdade, normalmente distribuída em relação à média da população). A aproximação será muito boa com apenas algumas dezenas de observações na amostra se a distribuição de probabilidade da variável aleatória não for muito diferente da distribuição normal (por exemplo, sua função de distribuição cumulativa não tem descontinuidades e sua assimetria é moderada).

Um tipo de média da amostra é a média de uma variável indicadora , que assume o valor 1 para verdadeiro e o valor 0 para falso. A média dessa variável é igual à proporção que tem a variável igual a um (tanto na população quanto em qualquer amostra). Esta é uma propriedade útil das variáveis ​​indicadoras, especialmente para teste de hipóteses. Para aplicar o teorema do limite central, deve-se usar uma amostra grande o suficiente. Uma regra geral é que se deve ver pelo menos 5 casos em que o indicador é 1 e pelo menos 5 em que é 0. Intervalos de confiança construídos usando as fórmulas acima podem incluir números negativos ou números maiores que 1, mas proporções obviamente não pode ser negativo ou exceder 1. Além disso, as proporções da amostra só podem assumir um número finito de valores, portanto, o teorema do limite central e a distribuição normal não são as melhores ferramentas para construir um intervalo de confiança. Consulte " Intervalo de confiança da proporção binomial " para obter os melhores métodos específicos para este caso.

Contra-exemplos

Desde que a teoria do intervalo de confiança foi proposta, vários contra-exemplos à teoria foram desenvolvidos para mostrar como a interpretação dos intervalos de confiança pode ser problemática, pelo menos se alguém os interpreta ingenuamente.

Procedimento de confiança para localização uniforme

Welch apresentou um exemplo que mostra claramente a diferença entre a teoria dos intervalos de confiança e outras teorias de estimativa de intervalo (incluindo intervalos fiduciais de Fisher e intervalos bayesianos objetivos ). Robinson chamou esse exemplo de "[p] ossivelmente o contra-exemplo mais conhecido para a versão de Neyman da teoria do intervalo de confiança". Para Welch, mostrou a superioridade da teoria do intervalo de confiança; para os críticos da teoria, mostra uma deficiência. Aqui apresentamos uma versão simplificada.

Suponha que sejam observações independentes de uma distribuição Uniforme ( θ - 1/2, θ + 1/2). Então, o procedimento ideal de 50% de confiança é

Um argumento bayesiano fiducial ou objetivo pode ser usado para derivar a estimativa do intervalo

que também é um procedimento de confiança de 50%. Welch mostrou que o primeiro procedimento de confiança domina o segundo, de acordo com os desideratos da teoria do intervalo de confiança; para cada , a probabilidade que o primeiro procedimento contém é menor ou igual à probabilidade que o segundo procedimento contém . A largura média dos intervalos do primeiro procedimento é menor que a do segundo. Portanto, o primeiro procedimento é preferido na teoria clássica do intervalo de confiança.

No entanto, quando os intervalos do primeiro procedimento são garantidos para conter o valor verdadeiro : Portanto, o coeficiente de confiança nominal de 50% não está relacionado à incerteza que devemos ter de que um intervalo específico contém o valor verdadeiro. O segundo procedimento não possui essa propriedade.

Além disso, quando o primeiro procedimento gera um intervalo muito curto, isso indica que estão muito próximos e, portanto, só oferecem a informação em um único ponto de dados. No entanto, o primeiro intervalo excluirá quase todos os valores razoáveis ​​do parâmetro devido à sua largura curta. O segundo procedimento não possui essa propriedade.

As duas propriedades contra-intuitivas do primeiro procedimento - 100% de cobertura quando estão distantes e quase 0% de cobertura quando estão próximas - se equilibram para render 50% de cobertura em média. No entanto, apesar do primeiro procedimento ser ótimo, seus intervalos não oferecem uma avaliação da precisão da estimativa nem uma avaliação da incerteza que se deve ter de que o intervalo contenha o valor verdadeiro.

Este contra-exemplo é usado para argumentar contra interpretações ingênuas de intervalos de confiança. Se for afirmado que um procedimento de confiança tem propriedades além da cobertura nominal (como relação com a precisão ou uma relação com inferência Bayesiana), essas propriedades devem ser provadas; eles não decorrem do fato de que um procedimento é um procedimento de confiança.

Procedimento de confiança para ω 2

Steiger sugeriu uma série de procedimentos de confiança para medidas de tamanho de efeito comum em ANOVA . Morey et al. apontar que vários desses procedimentos de confiança, incluindo aquele para ω 2 , têm a propriedade de que, conforme a estatística F se torna cada vez mais pequena, indicando desajuste com todos os valores possíveis de ω 2, o intervalo de confiança diminui e pode até conter apenas um único valor ω 2  = 0; ou seja, o IC é infinitesimalmente estreito (isso ocorre quando para um IC).

Esse comportamento é consistente com a relação entre o procedimento de confiança e o teste de significância: conforme F se torna tão pequeno que as médias do grupo estão muito mais próximas do que esperaríamos ao acaso, um teste de significância pode indicar rejeição para a maioria ou todos os valores de ω 2 . Conseqüentemente, o intervalo será muito estreito ou mesmo vazio (ou, por uma convenção sugerida por Steiger, contendo apenas 0). No entanto, isso não indica que a estimativa de ω 2 seja muito precisa. Em certo sentido, indica o oposto: que a confiabilidade dos próprios resultados pode estar em dúvida. Isso é contrário à interpretação comum de intervalos de confiança de que eles revelam a precisão da estimativa.

Veja também

Intervalo de confiança para distribuições específicas

Referências

Bibliografia

links externos