Fundamentos da estatística - Foundations of statistics

Os fundamentos da estatística dizem respeito ao debate epistemológico nas estatísticas sobre como se deve conduzir a inferência indutiva a partir dos dados. Entre as questões consideradas na inferência estatística estão a questão da inferência bayesiana versus inferência frequentista , a distinção entre o "teste de significância" de Fisher e o "teste de hipótese" de Neyman - Pearson , e se o princípio da verossimilhança deve ser seguido. Algumas dessas questões foram debatidas por até 200 anos sem resolução.

Bandyopadhyay & Forster descrevem quatro paradigmas estatísticos: "(i) estatística clássica ou estatística de erro, (ii) estatística bayesiana, (iii) estatística baseada na probabilidade e (iv) estatística baseada no critério de informação de Akaikean ".

O texto Foundations of Statistics de Savage foi citado mais de 15.000 vezes no Google Scholar . Ele afirma o seguinte.

É unanimidade que a estatística depende de alguma forma da probabilidade. Mas, quanto ao que é a probabilidade e como ela está conectada com as estatísticas, raramente houve discordância e quebra de comunicação tão completos desde a Torre de Babel. Sem dúvida, grande parte da discordância é meramente terminológica e desapareceria sob uma análise suficientemente precisa.

"Teste de significância" de Fisher vs. "Teste de hipótese" de Neyman-Pearson

No desenvolvimento da estatística clássica no segundo quarto do século 20, dois modelos concorrentes de testes estatísticos indutivos foram desenvolvidos. Seus méritos relativos foram calorosamente debatidos (por mais de 25 anos) até a morte de Fisher. Embora um híbrido dos dois métodos seja amplamente ensinado e usado, as questões filosóficas levantadas no debate não foram resolvidas.

Teste de significância

Fisher popularizou os testes de significância, principalmente em dois livros populares e altamente influentes. O estilo de escrita de Fisher nesses livros era forte em exemplos e relativamente fraco em explicações. Os livros careciam de provas ou derivações de estatísticas de teste de significância (que colocavam a prática estatística à frente da teoria estatística). A escrita mais explicativa e filosófica de Fisher foi escrita muito mais tarde. Parece haver algumas diferenças entre suas práticas anteriores e suas opiniões posteriores.

Fisher estava motivado a obter resultados experimentais científicos sem a influência explícita de opinião prévia. O teste de significância é uma versão probabilística do Modus tollens , uma forma clássica de inferência dedutiva. O teste de significância pode ser afirmado de forma simplista: "Se a evidência for suficientemente discordante com a hipótese, rejeite a hipótese". Na aplicação, uma estatística é calculada a partir dos dados experimentais, uma probabilidade de exceder essa estatística é determinada e a probabilidade é comparada a um limite. O limite (a versão numérica de "suficientemente discordante") é arbitrário (geralmente decidido por convenção). Uma aplicação comum do método é decidir se um tratamento tem um efeito relatável com base em um experimento comparativo. A significância estatística é uma medida de probabilidade, não de importância prática. Pode ser considerado um requisito colocado no sinal / ruído estatístico. O método é baseado na suposta existência de uma população infinita imaginária correspondente à hipótese nula.

O teste de significância requer apenas uma hipótese. O resultado do teste é rejeitar a hipótese (ou não), uma simples dicotomia. O teste distingue entre a verdade da hipótese e a insuficiência de evidências para refutar a hipótese; portanto, é como um julgamento criminal em que a culpa do réu é avaliada contra uma hipótese nula em que o réu é considerado inocente até prova em contrário.

Testando hipóteses

Neyman & Pearson colaboraram em um problema diferente, mas relacionado - a seleção entre hipóteses concorrentes com base apenas nas evidências experimentais. De seus artigos conjuntos, o mais citado foi de 1933. O famoso resultado desse artigo é o lema de Neyman-Pearson . O lema diz que uma razão de probabilidades é um excelente critério para selecionar uma hipótese (com o limite para comparação sendo arbitrário). O artigo provou uma otimização do teste t de Student (um dos testes de significância). Neyman expressou a opinião de que o teste de hipótese era uma generalização e uma melhoria no teste de significância. A justificativa para seus métodos é encontrada em seus documentos conjuntos.

O teste de hipóteses requer várias hipóteses. Uma hipótese é sempre selecionada, uma escolha múltipla. A falta de evidências não é uma consideração imediata. O método é baseado no pressuposto de uma amostragem repetida da mesma população (o pressuposto frequentista clássico), embora esse pressuposto tenha sido criticado por Fisher (Rubin, 2020).

Motivos de discordância

A extensão da disputa permitiu o debate de uma ampla gama de questões consideradas fundamentais para as estatísticas.

Um exemplo de troca de 1955–1956
Ataque de Fisher Refutação de Neyman Discussão
Amostragem repetida da mesma população A teoria de inferência fiducial de Fisher é falha
  • Paradoxos são comuns
O ataque de Fisher com base na probabilidade frequentista falhou, mas teve resultados. Ele identificou um caso específico (tabela 2 × 2) em que as duas escolas de teste alcançaram resultados diferentes. Este é um dos vários casos que ainda são preocupantes. Os comentaristas acreditam que a resposta "certa" depende do contexto. A probabilidade fiducial não se saiu bem, estando virtualmente sem defensores, enquanto a probabilidade frequentista permanece uma interpretação dominante.
Erros tipo II
  • Que resultam de uma hipótese alternativa
Uma teoria puramente probabilística de testes requer uma hipótese alternativa O ataque de Fisher aos erros do tipo II diminuiu com o tempo. Nos anos intermediários, as estatísticas separaram o exploratório do confirmatório. No ambiente atual, o conceito de erros do tipo II é usado em cálculos de poder para a determinação do tamanho da amostra do teste de hipótese confirmatória .
Comportamento indutivo O ataque de Fisher ao comportamento indutivo foi amplamente bem-sucedido por causa de sua escolha do campo de batalha. Embora as decisões operacionais sejam rotineiramente feitas com base em uma variedade de critérios (como custo), as conclusões científicas da experimentação são normalmente feitas apenas com base na probabilidade.

Nessa troca, Fisher também discutiu os requisitos para inferência indutiva, com críticas específicas às funções de custo que penalizam julgamentos errôneos. Neyman rebateu que Gauss e Laplace os usaram. Essa troca de argumentos ocorreu 15 anos depois que os livros didáticos começaram a ensinar uma teoria híbrida de testes estatísticos.

Fisher e Neyman discordaram sobre os fundamentos das estatísticas (embora unidos em oposição veemente à visão bayesiana):

  • A interpretação da probabilidade
    • A discordância entre o raciocínio indutivo de Fisher e o comportamento indutivo de Neyman continha elementos da divisão bayesiana / freqüentista. Fisher estava disposto a alterar sua opinião (chegando a uma conclusão provisória) com base em uma probabilidade calculada, enquanto Neyman estava mais disposto a mudar seu comportamento observável (tomar uma decisão) com base em um custo calculado.
  • A formulação adequada de questões científicas com especial preocupação para a modelagem
  • Se é razoável rejeitar uma hipótese com base em uma probabilidade baixa sem saber a probabilidade de uma alternativa
  • Se uma hipótese poderia ser aceita com base em dados
    • Na matemática, a dedução prova, contra-exemplos refutam
    • Na filosofia popperiana da ciência, avanços são feitos quando as teorias são refutadas
  • Subjetividade: Enquanto Fisher e Neyman lutaram para minimizar a subjetividade, ambos reconheceram a importância do "bom senso". Cada um acusava o outro de subjetividade.
    • Fisher escolheu subjetivamente a hipótese nula.
    • Neyman – Pearson escolheu subjetivamente o critério de seleção (que não se limitou a uma probabilidade).
    • Ambos os limites numéricos determinados subjetivamente .

Fisher e Neyman eram separados por atitudes e talvez linguagem. Fisher era um cientista e um matemático intuitivo. O raciocínio indutivo era natural. Neyman era um matemático rigoroso. Ele foi convencido pelo raciocínio dedutivo, em vez de um cálculo de probabilidade baseado em um experimento. Assim, havia um conflito subjacente entre o aplicado e o teórico, entre a ciência e a matemática.

História relacionada

Neyman, que ocupava o mesmo prédio na Inglaterra que Fisher, aceitou um cargo na costa oeste dos Estados Unidos da América em 1938. Sua mudança encerrou efetivamente sua colaboração com Pearson e o desenvolvimento de testes de hipóteses. O desenvolvimento posterior foi continuado por outros.

Os livros didáticos forneciam uma versão híbrida de significância e teste de hipóteses em 1940. Nenhum dos diretores tinha qualquer envolvimento pessoal conhecido no desenvolvimento posterior do híbrido ensinado na introdução à estatística hoje.

As estatísticas posteriormente desenvolvidas em diferentes direções, incluindo a teoria da decisão (e possivelmente a teoria dos jogos), estatística Bayesiana, análise exploratória de dados, estatística robusta e estatística não paramétrica. O teste de hipótese de Neyman-Pearson contribuiu fortemente para a teoria da decisão, que é muito usada (no controle de qualidade estatístico, por exemplo). Testes de hipóteses prontamente generalizados para aceitar probabilidades anteriores que lhes conferiam um sabor bayesiano. O teste de hipótese de Neyman-Pearson tornou-se um assunto matemático abstrato ensinado em estatística de pós-graduação, enquanto a maior parte do que é ensinado para graduandos e usado sob a bandeira de teste de hipótese é de Fisher.

Opinião contemporânea

Nenhuma grande batalha entre as duas escolas clássicas de teste irrompeu por décadas, mas o tiroteio continua (talvez encorajado por partidários de outras controvérsias). Após gerações de disputas, não há virtualmente nenhuma chance de que uma das teorias dos testes estatísticos substitua a outra em um futuro previsível.

O híbrido das duas escolas de teste concorrentes pode ser visto de maneira muito diferente - como a união imperfeita de duas ideias matematicamente complementares ou como a união fundamentalmente falha de ideias filosoficamente incompatíveis. Fisher desfrutou de alguma vantagem filosófica, enquanto Neyman & Pearson empregaram matemática mais rigorosa. O teste de hipóteses é controverso entre alguns usuários, mas a alternativa mais popular (intervalos de confiança) é baseada na mesma matemática.

A história do desenvolvimento deixou o teste sem uma única fonte confiável citada para a teoria híbrida que reflete a prática estatística comum. A terminologia mesclada também é um tanto inconsistente. Há fortes evidências empíricas de que os graduados (e instrutores) de uma aula introdutória de estatística têm uma compreensão fraca do significado do teste de hipóteses.

Resumo

  • A interpretação da probabilidade não foi resolvida (mas a probabilidade fiducial é órfã).
  • Nenhum método de teste foi rejeitado. Ambos são muito usados ​​para finalidades diferentes.
  • Os textos mesclaram os dois métodos de teste sob o termo teste de hipótese.
    • Os matemáticos afirmam (com algumas exceções) que os testes de significância são um caso especial de testes de hipótese.
    • Outros tratam os problemas e métodos como distintos (ou incompatíveis).
  • A disputa afetou negativamente a educação estatística.

Inferência bayesiana versus inferência frequentista

Duas interpretações diferentes de probabilidade (com base em evidências objetivas e graus subjetivos de crença) existem há muito tempo. Gauss e Laplace poderiam ter debatido alternativas há mais de 200 anos. Como consequência, duas escolas concorrentes de estatística se desenvolveram. A estatística inferencial clássica foi amplamente desenvolvida no segundo quarto do século 20, em grande parte em reação à probabilidade (bayesiana) da época, que utilizava o controverso princípio da indiferença para estabelecer probabilidades anteriores. A reabilitação da inferência bayesiana foi uma reação às limitações da probabilidade frequentista. Mais reações se seguiram. Embora as interpretações filosóficas sejam antigas, a terminologia estatística não é. Os termos estatísticos atuais "bayesiano" e "frequentista" estabilizaram-se na segunda metade do século XX. A terminologia (filosófica, matemática, científica, estatística) é confusa: a interpretação "clássica" da probabilidade é bayesiana, enquanto a estatística "clássica" é frequentista. "Frequentista" também tem interpretações variadas - diferentes na filosofia e na física.

As nuances das interpretações de probabilidade filosófica são discutidas em outro lugar. Em estatística, as interpretações alternativas permitem a análise de dados diferentes usando métodos diferentes com base em modelos diferentes para atingir objetivos ligeiramente diferentes. Qualquer comparação estatística das escolas concorrentes considera critérios pragmáticos além do filosófico.

Principais contribuintes

Dois contribuintes principais para os métodos frequentistas (clássicos) foram Fisher e Neyman . A interpretação de Fisher da probabilidade foi idiossincrática (mas fortemente não bayesiana). As opiniões de Neyman eram rigorosamente frequentistas. Três grandes contribuintes para a filosofia, matemática e métodos estatísticos bayesianos do século 20 foram de Finetti , Jeffreys e Savage . Savage popularizou as idéias de de Finetti no mundo anglófono e tornou a matemática bayesiana rigorosa. Em 1965, o trabalho de 2 volumes de Dennis Lindley "Introdução à Probabilidade e Estatística de um Ponto de Vista Bayesiano" trouxe os métodos bayesianos para um grande público. As estatísticas avançaram nas últimas três gerações; As visões "autorizadas" dos primeiros colaboradores não são todas atuais.

Abordagens contrastantes

Inferência freqüentista

A inferência freqüentista é parcial e sucintamente descrita acima em ("teste de significância" de Fisher vs. "teste de hipótese" de Neyman-Pearson). A inferência freqüentista combina várias visões diferentes. O resultado é capaz de apoiar conclusões científicas, tomar decisões operacionais e estimar parâmetros com ou sem intervalos de confiança . A inferência freqüentista é baseada unicamente em (um conjunto de) evidências.

Inferência bayesiana

Uma distribuição de frequência clássica descreve a probabilidade dos dados. O uso do teorema de Bayes permite um conceito mais abstrato - a probabilidade de uma hipótese (correspondente a uma teoria) dados os dados. O conceito já foi conhecido como "probabilidade inversa". A inferência bayesiana atualiza a estimativa de probabilidade para uma hipótese conforme evidência adicional é adquirida. A inferência bayesiana é explicitamente baseada na evidência e opinião prévia, o que permite que seja baseada em múltiplos conjuntos de evidências.

Comparações de características

Frequentistas e bayesianos usam modelos diferentes de probabilidade. Freqüentemente, os freqüentistas consideram os parâmetros fixos, mas desconhecidos, enquanto os bayesianos atribuem distribuições de probabilidade a parâmetros semelhantes. Conseqüentemente, os bayesianos falam de probabilidades que não existem para os frequentistas; Um bayesiano fala da probabilidade de uma teoria, enquanto um verdadeiro frequentista pode falar apenas da consistência da evidência com a teoria. Exemplo: Um frequentista não diz que há 95% de probabilidade de que o valor verdadeiro de um parâmetro esteja dentro de um intervalo de confiança, dizendo, em vez disso, que 95% dos intervalos de confiança contêm o valor verdadeiro.

Adjetivos comparativos de Efron
Bayes Freqüentista
  • Base
  • Característica Resultante
  • _
  • Aplicação Ideal
  • Público-alvo
  • Característica de modelagem
  • Crença (anterior)
  • Filosofia de Princípios
  • Uma distribuição
  • Dinâmico (amostragem repetida)
  • Individual (subjetivo)
  • Agressivo
  • Comportamento (método)
  • Métodos Oportunistas
  • Muitas distribuições (bootstrap?)
  • Estático (uma amostra)
  • Comunidade (objetivo)
  • Defensiva
Comparação alternativa
Bayesiano Freqüentista
Strengths
  • Completo
  • Coerente
  • Prescritivo
  • _
  • _
  • _
  • _
  • _
  • Forte inferência do modelo
  • Inferências bem calibradas
  • Não há necessidade de especificar distribuições anteriores
  • Gama flexível de procedimentos
    • Imparcialidade, suficiência, ancilaridade ...
    • Amplamente aplicável e confiável
    • Teoria assintótica
    • Fácil de interpretar
    • Pode ser calculado manualmente
  • Formulação e avaliação de modelo forte
Weaknesses
  • Muito subjetivo para inferência científica
  • Nega o papel de randomização para design
  • Requer e depende da especificação completa de um modelo (probabilidade e anterior)
  • _
  • _
  • _
  • Formulação e avaliação do modelo fraco
  • Incompleto
  • Ambíguo
  • Incoerente
  • Não prescritivo
  • Sem teoria unificada
  • (Acima?) Ênfase nas propriedades assintóticas
  • Inferência fraca do modelo

Resultados matemáticos

Nenhuma das escolas está imune à crítica matemática e nem a aceita sem luta. O paradoxo de Stein (por exemplo) ilustrou que encontrar uma distribuição de probabilidade anterior "plana" ou "não informativa" em dimensões altas é sutil. Os bayesianos consideram isso periférico ao cerne de sua filosofia, embora achem que o frequentismo está repleto de inconsistências, paradoxos e mau comportamento matemático. Os freqüentadores podem explicar mais. Alguns dos exemplos "ruins" são situações extremas - como estimar o peso de uma manada de elefantes medindo o peso de um ("elefantes de Basu"), o que não permite estimativa estatística da variabilidade dos pesos. O princípio da probabilidade tem sido um campo de batalha.

Resultados estatísticos

Ambas as escolas obtiveram resultados impressionantes na solução de problemas do mundo real. A estatística clássica efetivamente tem o registro mais longo porque numerosos resultados foram obtidos com calculadoras mecânicas e tabelas impressas de funções estatísticas especiais. Os métodos bayesianos têm sido muito bem-sucedidos na análise de informações que são amostradas naturalmente de forma sequencial (radar e sonar). Muitos métodos bayesianos e alguns métodos frequentistas recentes (como o bootstrap) requerem o poder computacional amplamente disponível apenas nas últimas décadas. Há uma discussão ativa sobre a combinação de métodos bayesianos e frequentistas, mas reservas são expressas sobre o significado dos resultados e a redução da diversidade de abordagens.

Resultados filosóficos

Bayesianos estão unidos em oposição às limitações do frequentismo, mas são filosoficamente divididos em vários campos (empírico, hierárquico, objetivo, pessoal, subjetivo), cada um com uma ênfase diferente. Um filósofo da estatística (frequentista) notou um recuo do campo estatístico para interpretações de probabilidade filosófica nas últimas duas gerações. Há uma percepção de que o sucesso nas aplicações bayesianas não justifica a filosofia de suporte. Os métodos bayesianos geralmente criam modelos úteis que não são usados ​​para inferências tradicionais e que pouco devem à filosofia. Nenhuma das interpretações filosóficas de probabilidade (frequentista ou bayesiana) parece robusta. A visão frequentista é muito rígida e limitante, enquanto a visão bayesiana pode ser simultaneamente objetiva e subjetiva, etc.

Citações ilustrativas

  • "usada com cuidado, a abordagem frequentista produz respostas amplamente aplicáveis, embora às vezes desajeitadas"
  • "Insistir em técnicas imparciais [frequentistas] pode levar a estimativas negativas (mas imparciais) de uma variância; o uso de valores p em vários testes pode levar a contradições flagrantes; regiões de confiança convencionais de 0,95 podem na verdade consistir na linha real inteira. Não é de admirar que os matemáticos muitas vezes achem difícil acreditar que os métodos estatísticos convencionais são um ramo da matemática. "
  • "O bayesianismo é uma filosofia limpa e totalmente baseada em princípios, enquanto o freqüentismo é uma coleção de métodos oportunistas e individualmente ótimos."
  • "em problemas de multiparâmetros, a priori plana pode gerar respostas muito ruins"
  • "[A regra de Bayes] diz que há uma maneira simples e elegante de combinar informações atuais com experiência anterior, a fim de afirmar o quanto se sabe. Isso implica que dados suficientemente bons farão com que observadores previamente díspares concordem. Faz pleno uso dos dados disponíveis informações e produz decisões com a menor taxa de erro possível. "
  • "A estatística bayesiana trata de fazer declarações de probabilidade, a estatística frequentista trata de avaliar declarações de probabilidade."
  • "[S] tatísticos são frequentemente colocados em um cenário que lembra o paradoxo de Arrow, onde somos solicitados a fornecer estimativas informativas e imparciais e declarações de confiança que são condicionais corretas nos dados e também no parâmetro verdadeiro subjacente." (Esses são requisitos conflitantes.)
  • "aspectos inferenciais formais são frequentemente uma parte relativamente pequena da análise estatística"
  • "As duas filosofias, bayesiana e frequentista, são mais ortogonais do que antitéticas."
  • "Uma hipótese que pode ser verdadeira é rejeitada porque falhou em prever resultados observáveis ​​que não ocorreram. Este parece um procedimento notável."

Resumo

  • A teoria bayesiana tem uma vantagem matemática
    • A probabilidade freqüentista tem problemas de existência e consistência
    • Mas, encontrar bons antecedentes para aplicar a teoria Bayesiana permanece (muito?) Difícil
  • Ambas as teorias têm registros impressionantes de aplicação bem-sucedida
  • Nenhuma das interpretações filosóficas de probabilidade é robusta
  • Há um ceticismo crescente em relação à conexão entre aplicação e filosofia
  • Alguns estatísticos estão recomendando colaboração ativa (além de um cessar-fogo)

O princípio da probabilidade

Probabilidade é um sinônimo de probabilidade de uso comum. Nas estatísticas isso não é verdade. Uma probabilidade se refere a dados variáveis ​​para uma hipótese fixa, enquanto uma probabilidade se refere a hipóteses variáveis ​​para um conjunto fixo de dados. Medições repetidas de comprimento fixo com uma régua geram um conjunto de observações. Cada conjunto fixo de condições observacionais está associado a uma distribuição de probabilidade e cada conjunto de observações pode ser interpretado como uma amostra dessa distribuição - a visão frequentista da probabilidade. Alternativamente, um conjunto de observações pode resultar da amostragem de qualquer uma de uma série de distribuições (cada uma resultante de um conjunto de condições de observação). A relação probabilística entre uma amostra fixa e uma distribuição variável (resultante de uma hipótese de variável) é denominada verossimilhança - uma visão bayesiana da probabilidade. Um conjunto de medidas de comprimento pode implicar leituras feitas por observadores cuidadosos, sóbrios, descansados ​​e motivados com boa iluminação.

A probabilidade é uma probabilidade (ou não) com outro nome que existe por causa da definição frequentista limitada de probabilidade. Probabilidade é um conceito introduzido e desenvolvido por Fisher por mais de 40 anos (embora existam referências anteriores ao conceito e o apoio de Fisher tenha sido indiferente). O conceito foi aceito e substancialmente alterado por Jeffreys . Em 1962, Birnbaum "provou" o princípio da probabilidade a partir de premissas aceitáveis ​​para a maioria dos estatísticos. A "prova" foi contestada por estatísticos e filósofos. O princípio diz que todas as informações em uma amostra estão contidas na função de verossimilhança , que é aceita como uma distribuição de probabilidade válida pelos bayesianos (mas não pelos frequentistas).

Alguns testes de significância (frequentistas) não são consistentes com o princípio da verossimilhança. Os bayesianos aceitam o princípio que é consistente com sua filosofia (talvez encorajado pelo constrangimento dos frequentistas). "A abordagem de verossimilhança é compatível com a inferência estatística bayesiana no sentido de que a distribuição de Bayes posterior para um parâmetro é, pelo teorema de Bayes, encontrada multiplicando a distribuição anterior pela função de verossimilhança." Os freqüentadores interpretam o princípio de maneira adversa para os bayesianos, não implicando nenhuma preocupação com a confiabilidade das evidências. "O princípio da probabilidade da estatística bayesiana implica que as informações sobre o desenho experimental a partir do qual as evidências são coletadas não entram na análise estatística dos dados." Muitos bayesianos (Savage, por exemplo) reconhecem essa implicação como uma vulnerabilidade.

O princípio da probabilidade tornou-se um embaraço para as duas principais escolas filosóficas de estatística; Enfraqueceu ambos, em vez de favorecer nenhum dos dois. Seus maiores apoiadores afirmam que ele oferece uma base melhor para estatísticas do que qualquer uma das duas escolas. "[L] ikelihood parece realmente muito bom quando comparado com essas alternativas [bayesianas e frequentistas]." Esses apoiadores incluem estatísticos e filósofos da ciência. Embora os bayesianos reconheçam a importância da probabilidade para o cálculo, eles acreditam que a distribuição de probabilidade posterior é a base adequada para inferência.

Modelagem

A estatística inferencial é baseada em modelos estatísticos . Muitos dos testes de hipóteses clássicas, por exemplo, foram baseados na normalidade assumida dos dados. Estatísticas robustas e não paramétricas foram desenvolvidas para reduzir a dependência dessa suposição. A estatística bayesiana interpreta novas observações da perspectiva do conhecimento prévio - assumindo uma continuidade modelada entre o passado e o presente. O planejamento de experimentos pressupõe algum conhecimento desses fatores a serem controlados, variados, randomizados e observados. Os estatísticos estão bem cientes das dificuldades em provar a causalidade (mais uma limitação de modelagem do que matemática), dizendo que " correlação não implica causalidade ".

Estatísticas mais complexas utilizam modelos mais complexos, geralmente com a intenção de encontrar uma estrutura latente subjacente a um conjunto de variáveis. À medida que os modelos e conjuntos de dados aumentaram em complexidade, questões fundamentais foram levantadas sobre a justificativa dos modelos e a validade das inferências extraídas deles. A gama de opiniões conflitantes expressas sobre modelagem é grande.

  • Os modelos podem ser baseados em teoria científica ou em análises de dados ad-hoc. As abordagens usam métodos diferentes. Existem defensores de cada um.
  • A complexidade do modelo é um meio-termo. O critério de informação de Akaikean e o critério de informação Bayesiano são duas abordagens menos subjetivas para alcançar esse compromisso.
  • Reservas fundamentais foram expressas até mesmo sobre os modelos de regressão simples usados ​​nas ciências sociais. Uma longa lista de suposições inerentes à validade de um modelo normalmente não é mencionada nem verificada. Uma comparação favorável entre as observações e o modelo costuma ser considerada suficiente.
  • A estatística bayesiana concentra-se tão fortemente na probabilidade posterior que ignora a comparação fundamental de observações e modelo.
  • Os modelos tradicionais baseados em observação são inadequados para resolver muitos problemas importantes. Uma gama muito mais ampla de modelos, incluindo modelos algorítmicos, deve ser utilizada. "Se o modelo é uma emulação pobre da natureza, as conclusões podem estar erradas."
  • A modelagem geralmente é mal feita (os métodos errados são usados) e mal relatada.

Na ausência de uma revisão de forte consenso filosófico de modelagem estatística, muitos estatísticos aceitam as palavras de advertência do estatístico George Box : " Todos os modelos estão errados , mas alguns são úteis. "

Outra leitura

Para uma breve introdução aos fundamentos da estatística, consulte Stuart, A .; Ord, JK (1994). "Cap. 8 - Probabilidade e inferência estatística". Teoria Avançada de Estatística de Kendall . Vol. I: Teoria da Distribuição (6ª ed.). Edward Arnold.

Em seu livro Statistics as Principled Argument , Robert P. Abelson articula a posição de que a estatística serve como um meio padronizado de resolver disputas entre cientistas que poderiam, de outra forma, argumentar os méritos de suas próprias posições ad infinitum . Desse ponto de vista, a estatística é uma forma de retórica; como acontece com qualquer meio de solução de controvérsias, os métodos estatísticos podem ter sucesso apenas se todas as partes concordarem com a abordagem usada.

Veja também

Notas de rodapé

Citações

Referências

Leitura adicional

links externos