Uso indevido de estatísticas - Misuse of statistics

As estatísticas , quando usadas de forma enganosa, podem induzir o observador casual a acreditar em algo diferente do que os dados mostram. Ou seja, um mau uso da estatística ocorre quando um argumento estatístico afirma uma falsidade . Em alguns casos, o uso indevido pode ser acidental. Em outros, é proposital e para o ganho do perpetrador. Quando a razão estatística envolvida é falsa ou mal aplicada, isso constitui uma falácia estatística .

A armadilha das estatísticas falsas pode ser bastante prejudicial para a busca pelo conhecimento. Por exemplo, na ciência médica, corrigir uma falsidade pode levar décadas e custar vidas.

O uso indevido pode ser fácil de cair. Cientistas profissionais, mesmo matemáticos e estatísticos profissionais, podem ser enganados até por alguns métodos simples, mesmo que tenham o cuidado de verificar tudo. Os cientistas costumam se enganar com estatísticas devido à falta de conhecimento da teoria da probabilidade e à falta de padronização de seus testes .

Definição, limitações e contexto

Uma definição utilizável é: "Uso indevido de estatísticas: usar números de tal maneira que - seja por intenção ou por ignorância ou descuido - as conclusões sejam injustificadas ou incorretas." Os "números" incluem gráficos enganosos discutidos em outro lugar. O termo não é comumente encontrado em textos de estatística e nenhuma definição oficial é conhecida. É uma generalização de mentir com estatísticas que foi ricamente descrita por exemplos de estatísticos 60 anos atrás.

A definição enfrenta alguns problemas (alguns são abordados pela fonte):

A estatística geralmente produz probabilidades; conclusões são provisórias
As conclusões provisórias apresentam erros e taxas de erro. Normalmente 5% das conclusões provisórias dos testes de significância estão erradas
Os estatísticos não estão totalmente de acordo sobre os métodos ideais
Os métodos estatísticos são baseados em premissas que raramente são totalmente atendidas
A coleta de dados geralmente é limitada por restrições éticas, práticas e financeiras.

How to Lie with Statistics reconhece que as estatísticas podem legitimamente assumir muitas formas. Se as estatísticas mostram que um produto é "leve e econômico" ou "frágil e barato" pode ser debatido sejam quais forem os números. Alguns se opõem à substituição da liderança moral pela correção estatística (por exemplo) como um objetivo. Atribuir a culpa por abusos costuma ser difícil porque cientistas, pesquisadores, estatísticos e repórteres costumam ser funcionários ou consultores.

Um uso indevido (?) Insidioso de estatísticas é realizado pelo ouvinte / observador / público / jurado. O fornecedor fornece as "estatísticas" na forma de números ou gráficos (ou fotografias de antes / depois), permitindo ao consumidor tirar conclusões (possivelmente injustificadas ou incorretas). O mau estado da alfabetização estatística pública e a natureza não estatística da intuição humana permitem enganar sem produzir explicitamente conclusões errôneas. A definição é fraca quanto à responsabilidade do consumidor de estatísticas.

Um historiador listou mais de 100 falácias em uma dúzia de categorias, incluindo aquelas de generalização e aquelas de causalidade. Algumas das falácias são explícita ou potencialmente estatísticas, incluindo amostragem, absurdo estatístico, probabilidade estatística, extrapolação falsa, interpolação falsa e generalização insidiosa. Todos os problemas técnicos / matemáticos de probabilidade aplicada se encaixariam na única falácia listada de probabilidade estatística. Muitas das falácias poderiam ser acopladas à análise estatística, permitindo a possibilidade de uma falsa conclusão decorrente de uma análise estatística sem culpa.

Um exemplo de uso de estatísticas é na análise de pesquisas médicas. O processo inclui planejamento experimental, a condução do experimento, análise de dados, tirar as conclusões lógicas e apresentação / relatório. O relatório é resumido pela imprensa popular e por anunciantes. O uso indevido de estatísticas pode resultar de problemas em qualquer etapa do processo. Os padrões estatísticos impostos idealmente ao relatório científico são muito diferentes daqueles impostos à imprensa popular e aos anunciantes; no entanto, existem casos de publicidade disfarçada de ciência . A definição do uso indevido de estatísticas é insuficiente quanto à abrangência exigida dos relatórios estatísticos. A opinião é que os jornais devem fornecer pelo menos a fonte das estatísticas relatadas.

Causas simples

Muitos usos indevidos de estatísticas ocorrem porque

A fonte é um especialista no assunto, não um especialista em estatísticas. A fonte pode usar um método incorretamente ou interpretar um resultado.
A fonte é um estatístico, não um especialista no assunto. Um especialista deve saber quando os números comparados descrevem coisas diferentes. Os números mudam, ao contrário da realidade, quando as definições legais ou as fronteiras políticas mudam.
O assunto em estudo não está bem definido. Embora os testes de QI estejam disponíveis e sejam numéricos, é difícil definir o que eles medem; Inteligência é um conceito evasivo. Publicar "impacto" tem o mesmo problema. Uma pergunta aparentemente simples sobre o número de palavras na língua inglesa imediatamente encontra questões sobre formas arcaicas, responsáveis por prefixos e sufixos, múltiplas definições de uma palavra, grafias variantes, dialetos, criações fantasiosas (como ectoplastísticas de ectoplasma e estatísticas), vocabulário técnico ...
A qualidade dos dados é ruim. Vestuário é um exemplo. As pessoas têm uma grande variedade de tamanhos e formas corporais. É óbvio que o tamanho do vestuário deve ser multidimensional. Em vez disso, é complexo de maneiras inesperadas. Algumas roupas são vendidas apenas por tamanho (sem consideração explícita do formato do corpo), os tamanhos variam de acordo com o país e o fabricante e alguns tamanhos são deliberadamente enganosos. Embora os tamanhos sejam numéricos, apenas a mais crua das análises estatísticas é possível usando os números dos tamanhos com cuidado.
A imprensa popular tem experiência limitada e motivos mistos. Se os fatos não forem "dignos de notícia" (o que pode exigir um exagero), eles não podem ser publicados. Os motivos dos anunciantes são ainda mais mistos.
"Políticos usam estatísticas da mesma forma que um bêbado usa postes de luz - para suporte em vez de iluminação" - Andrew Lang (WikiQuote) "O que aprendemos com essas duas maneiras de olhar para os mesmos números? Aprendemos que um propagandista inteligente , direita ou esquerda, quase sempre pode encontrar uma maneira de apresentar os dados sobre o crescimento econômico que parecem apoiar seu caso. E, portanto, também aprendemos a tomar qualquer análise estatística de uma fonte fortemente política com um punhado de sal. " O termo estatística origina-se de números gerados e utilizados pelo estado. O bom governo pode exigir números precisos, mas o governo popular pode exigir números de apoio (não necessariamente os mesmos). "O uso e mau uso de estatísticas por parte dos governos é uma arte milenar."

Tipos de uso indevido

Descartando observações desfavoráveis

Tudo o que uma empresa precisa fazer para promover um produto neutro (inútil) é encontrar ou realizar, por exemplo, 40 estudos com um nível de confiança de 95%. Se o produto for realmente inútil, isso produziria em média um estudo mostrando que o produto era benéfico, um estudo mostrando que era prejudicial e trinta e oito estudos inconclusivos (38 são 95% de 40). Essa tática se torna mais eficaz quanto mais estudos estiverem disponíveis. Organizações que não publicam todos os estudos que realizam, como empresas de tabaco que negam uma ligação entre o fumo e o câncer, grupos de defesa do fumo e meios de comunicação que tentam provar uma ligação entre o fumo e várias doenças, ou fornecedores de pílulas milagrosas, provavelmente irão use essa tática.

Ronald Fisher considerou essa questão em seu famoso experimento de exemplo de degustação de uma senhora (de seu livro de 1935, The Design of Experiments ). Com relação a experimentos repetidos, ele disse: "Isso seria claramente ilegítimo e roubaria nosso cálculo de sua base, se os resultados malsucedidos não fossem todos contabilizados."

Outro termo relacionado a este conceito é colheita seletiva .

Ignorando recursos importantes

Conjuntos de dados multivariáveis têm dois ou mais recursos / dimensões . Se poucos desses recursos forem escolhidos para análise (por exemplo, se apenas um recurso for escolhido e a regressão linear simples for realizada em vez da regressão linear múltipla ), os resultados podem ser enganosos. Isso deixa o analista vulnerável a qualquer um dos vários paradoxos estatísticos ou, em alguns (não todos) casos, falsa causalidade, como a seguir.

Questões carregadas

As respostas às pesquisas podem muitas vezes ser manipuladas formulando a pergunta de forma a induzir uma prevalência para uma determinada resposta do entrevistado. Por exemplo, nas pesquisas de apoio a uma guerra, as perguntas:

Você apóia a tentativa dos Estados Unidos de levar liberdade e democracia a outros lugares do mundo?
Você apóia a ação militar não provocada pelos EUA?

provavelmente resultará em dados enviesados em direções diferentes, embora ambos estejam pesquisando sobre o apoio à guerra. Uma maneira melhor de formular a pergunta seria "Você apóia a atual ação militar dos EUA no exterior?" Uma forma ainda mais neutra de fazer essa pergunta é "Qual é a sua opinião sobre a atual ação militar dos EUA no exterior?" A questão deve ser que a pessoa que está sendo questionada não tem como adivinhar pelo texto o que o questionador pode querer ouvir.

Outra maneira de fazer isso é preceder a pergunta com informações que apóiem a resposta "desejada". Por exemplo, mais pessoas provavelmente responderão "sim" à pergunta "Dada a carga crescente de impostos sobre as famílias de classe média, você apóia cortes no imposto de renda?" do que à pergunta "Considerando o crescente déficit orçamentário federal e a necessidade desesperada de mais receita, você apóia cortes no imposto de renda?"

A formulação adequada das perguntas pode ser muito sutil. As respostas a duas perguntas podem variar drasticamente, dependendo da ordem em que são feitas. "Uma pesquisa que perguntou sobre 'propriedade de ações' descobriu que a maioria dos fazendeiros do Texas possuía ações, embora provavelmente não do tipo negociado na Bolsa de Valores de Nova York."

Supergeneralização

A supergeneralização é uma falácia que ocorre quando uma estatística sobre uma determinada população é considerada válida entre os membros de um grupo para o qual a população original não é uma amostra representativa.

Por exemplo, suponha que 100% das maçãs sejam vermelhas no verão. A afirmação "Todas as maçãs são vermelhas" seria um exemplo de generalização excessiva porque a estatística original era verdadeira apenas para um subconjunto específico de maçãs (aquelas no verão), que não deve ser representativo da população de maçãs como um todo.

Um exemplo do mundo real da falácia da supergeneralização pode ser observado como um artefato das técnicas modernas de votação, que proíbem ligar para telefones celulares para pesquisas políticas por telefone. Como os jovens são mais propensos do que outros grupos demográficos a não ter um telefone "fixo" convencional, uma pesquisa de telefone que analisa exclusivamente os respondentes de chamadas de telefones fixos pode fazer com que os resultados da pesquisa subestimem as opiniões dos jovens, se nenhuma outra medida for tomada para explicar essa distorção da amostragem. Assim, uma enquete examinando as preferências de voto de jovens usando esta técnica pode não ser uma representação perfeitamente precisa das verdadeiras preferências de voto dos jovens como um todo sem generalizar, porque a amostra usada exclui jovens que carregam apenas telefones celulares, que podem ou pode não ter preferências de voto diferentes do resto da população.

A generalização excessiva geralmente ocorre quando a informação é passada por fontes não técnicas, em particular os meios de comunicação de massa.

Amostras tendenciosas

Os cientistas aprenderam com grande custo que reunir bons dados experimentais para análise estatística é difícil. Exemplo: O efeito placebo (mente sobre o corpo) é muito poderoso. 100% dos indivíduos desenvolveram erupção cutânea quando expostos a uma substância inerte que foi falsamente chamada de hera venenosa, enquanto poucos desenvolveram erupção cutânea em um objeto "inofensivo" que na verdade era hera venenosa. Os pesquisadores combatem esse efeito por meio de experimentos comparativos randomizados duplo-cegos . Os estatísticos normalmente se preocupam mais com a validade dos dados do que com a análise. Isso se reflete em um campo de estudo dentro da estatística conhecido como projeto de experimentos .

Os pesquisadores aprenderam com grande custo que reunir bons dados de pesquisa para análise estatística é difícil. O efeito seletivo dos telefones celulares na coleta de dados (discutido na seção Supergeneralização) é um exemplo potencial; Se os jovens com telefones tradicionais não forem representativos, a amostra pode ser tendenciosa. As pesquisas por amostragem têm muitas armadilhas e exigem muito cuidado na execução. Um esforço exigiu quase 3.000 chamadas telefônicas para obter 1.000 respostas. A amostra aleatória simples da população "não é simples e pode não ser aleatória".

Relatório incorreto ou incompreensão do erro estimado

Se uma equipe de pesquisa deseja saber como 300 milhões de pessoas se sentem sobre um determinado assunto, seria impraticável perguntar a todos eles. No entanto, se a equipe escolher uma amostra aleatória de cerca de 1000 pessoas, eles podem ter certeza de que os resultados fornecidos por este grupo são representativos do que o grupo maior teria dito se todos eles tivessem sido questionados.

Essa confiança pode realmente ser quantificada pelo teorema do limite central e outros resultados matemáticos. A confiança é expressa como uma probabilidade de o resultado verdadeiro (para o grupo maior) estar dentro de um certo intervalo da estimativa (o valor para o grupo menor). Este é o valor "mais ou menos" frequentemente citado para pesquisas estatísticas. A parte da probabilidade do nível de confiança geralmente não é mencionada; em caso afirmativo, presume-se que seja um número padrão como 95%.

Os dois números estão relacionados. Se uma pesquisa tem um erro estimado de ± 5% com 95% de confiança, também tem um erro estimado de ± 6,6% com 99% de confiança. ± % com 95% de confiança é sempre ± % com 99% de confiança para uma população normalmente distribuída. ${\ displaystyle x}$ ${\ displaystyle 1,32x}$

Quanto menor o erro estimado, maior será a amostra necessária, em um determinado nível de confiança; por exemplo, com 95,4% de confiança:

± 1% exigiria 10.000 pessoas.
± 2% exigiria 2.500 pessoas.
± 3% exigiria 1.111 pessoas.
± 4% exigiria 625 pessoas.
± 5% exigiria 400 pessoas.
± 10% exigiria 100 pessoas.
± 20% exigiria 25 pessoas.
± 25% exigiria 16 pessoas.
± 50% exigiria 4 pessoas.

As pessoas podem presumir, porque o valor de confiança é omitido, que há 100% de certeza de que o resultado verdadeiro está dentro do erro estimado. Isso não é matematicamente correto.

Muitas pessoas podem não perceber que a aleatoriedade da amostra é muito importante. Na prática, muitas pesquisas de opinião são realizadas por telefone, o que distorce a amostra de várias formas, inclusive excluindo pessoas que não possuem telefone, favorecendo a inclusão de pessoas que possuem mais de um telefone, favorecendo a inclusão de pessoas que estão dispostas a participar de uma pesquisa por telefone sobre aqueles que se recusam, etc. A amostragem não aleatória torna o erro estimado não confiável.

Por outro lado, as pessoas podem considerar que as estatísticas são inerentemente não confiáveis porque nem todos são chamados ou porque eles próprios nunca são consultados. As pessoas podem pensar que é impossível obter dados sobre a opinião de dezenas de milhões de pessoas apenas pesquisando alguns milhares. Isso também é impreciso. Uma enquete com amostragem imparcial perfeita e respostas verdadeiras tem uma margem de erro determinada matematicamente , que depende apenas do número de pessoas pesquisadas.

No entanto, muitas vezes, apenas uma margem de erro é relatada para uma pesquisa. Quando os resultados são relatados para subgrupos da população, uma margem de erro maior será aplicada, mas isso pode não estar claro. Por exemplo, uma pesquisa com 1000 pessoas pode conter 100 pessoas de um determinado grupo étnico ou econômico. Os resultados focados nesse grupo serão muito menos confiáveis do que os resultados para a população total. Se a margem de erro para a amostra completa fosse de 4%, digamos, então a margem de erro para tal subgrupo poderia ser em torno de 13%.

Existem também muitos outros problemas de medição em pesquisas populacionais.

Os problemas mencionados acima se aplicam a todos os experimentos estatísticos, não apenas aos levantamentos populacionais.

Falsa causalidade

Quando um teste estatístico mostra uma correlação entre A e B, geralmente existem seis possibilidades:

A causa B.
B causa A.
A e B causam parcialmente um ao outro.
A e B são ambos causados por um terceiro fator, C.
B é causado por C, que está correlacionado a A.
A correlação observada foi devida puramente ao acaso.

A sexta possibilidade pode ser quantificada por testes estatísticos que podem calcular a probabilidade de que a correlação observada seja tão grande quanto é apenas por acaso se, de fato, não houver relação entre as variáveis. No entanto, mesmo que essa possibilidade tenha uma probabilidade pequena, ainda existem as outras cinco.

Se o número de pessoas que compram sorvete na praia estiver estatisticamente relacionado ao número de pessoas que se afogam na praia, ninguém diria que sorvete causa afogamento, porque é óbvio que não é. (Neste caso, tanto o afogamento quanto a compra de sorvete estão claramente relacionados por um terceiro fator: o número de pessoas na praia).

Essa falácia pode ser usada, por exemplo, para provar que a exposição a um produto químico causa câncer. Substitua "número de pessoas comprando sorvete" por "número de pessoas expostas ao produto químico X" e "número de pessoas que se afogam" por "número de pessoas que desenvolveram câncer", e muitas pessoas acreditarão em você. Em tal situação, pode haver uma correlação estatística, mesmo que não haja nenhum efeito real. Por exemplo, se houver a percepção de que uma instalação química é "perigosa" (mesmo que realmente não seja), os valores das propriedades na área diminuirão, o que levará mais famílias de baixa renda a se mudarem para aquela área. Se famílias de baixa renda têm mais probabilidade de ter câncer do que famílias de alta renda (devido a uma dieta pobre, por exemplo, ou menos acesso a cuidados médicos), então as taxas de câncer irão subir, mesmo que o produto químico em si não seja perigoso. Acredita-se que isso seja exatamente o que aconteceu com alguns dos primeiros estudos mostrando uma ligação entre EMF ( campos eletromagnéticos ) de linhas de transmissão e câncer .

Em estudos bem elaborados, o efeito da falsa causalidade pode ser eliminado designando algumas pessoas em um "grupo de tratamento" e algumas pessoas em um "grupo de controle" aleatoriamente, e dando ao grupo de tratamento o tratamento e não dando ao grupo de controle o tratamento. No exemplo acima, um pesquisador pode expor um grupo de pessoas ao produto químico X e deixar um segundo grupo sem exposição. Se o primeiro grupo tinha taxas de câncer mais altas, o pesquisador sabe que não há um terceiro fator que afetou se uma pessoa foi exposta porque ela controlou quem foi exposto ou não, e ele designou as pessoas aos grupos exposto e não exposto aleatoriamente. No entanto, em muitas aplicações, fazer um experimento dessa maneira é proibitivamente caro, inviável, antiético, ilegal ou totalmente impossível. Por exemplo, é altamente improvável que um IRB aceite um experimento que envolva a exposição intencional de pessoas a uma substância perigosa para testar sua toxicidade. As implicações éticas óbvias de tais tipos de experimentos limitam a capacidade dos pesquisadores de testar empiricamente a causalidade.

Prova da hipótese nula

Em um teste estatístico, a hipótese nula ( ) é considerada válida até que dados suficientes provem que ela está errada. Em seguida, é rejeitado e a hipótese alternativa ( ) é considerada comprovada como correta. Por acaso, isso pode acontecer, embora seja verdade, com uma probabilidade denotada (o nível de significância). Isso pode ser comparado ao processo judicial, onde o acusado é considerado inocente ( ) até que se prove a culpa ( ) sem qualquer dúvida razoável ( ). ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {A}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle \ alpha}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {A}}$ ${\ displaystyle \ alpha}$

Mas se os dados não nos fornecem provas suficientes para rejeitar isso , isso não prova automaticamente que está correto. Se, por exemplo, um produtor de tabaco deseja demonstrar que seus produtos são seguros, ele pode facilmente realizar um teste com uma pequena amostra de fumantes versus uma pequena amostra de não fumantes. É improvável que algum deles desenvolva câncer de pulmão (e mesmo que o faça, a diferença entre os grupos tem que ser muito grande para rejeitar ). Portanto, é provável - mesmo quando fumar é perigoso - que nosso teste não rejeite . Se for aceito, isso não significa que fumar seja comprovadamente inofensivo. O teste não tem poder de rejeição , então o teste é inútil e o valor da "prova" de também é nulo. ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$

Isso pode - usando o análogo judicial acima - ser comparado com o réu verdadeiramente culpado que é libertado apenas porque a prova não é suficiente para um veredicto de culpado. Isso não prova a inocência do réu, mas apenas que não há provas suficientes para um veredicto de culpado.

"... a hipótese nula nunca é provada ou estabelecida, mas possivelmente é refutada, no curso da experimentação. Pode-se dizer que toda experiência existe apenas para dar aos fatos uma chance de refutar a hipótese nula." (Fisher em The Design of Experiments ) Existem muitas razões para confusão, incluindo o uso de lógica dupla negativa e terminologia resultante da fusão do "teste de significância" de Fisher (onde a hipótese nula nunca é aceita) com o "teste de hipótese" (onde alguma hipótese é sempre aceito).

Confundir significância estatística com significância prática

A significância estatística é uma medida de probabilidade; o significado prático é uma medida do efeito. A cura da calvície é estatisticamente significativa se uma penugem esparsa de pêssego geralmente cobre o couro cabeludo previamente nu. A cura é praticamente significativa quando o chapéu não é mais necessário no frio e o barbeiro pergunta quanto tirar da cartola. Os carecas desejam uma cura que seja estatisticamente e praticamente significativa; Provavelmente funcionará e, se funcionar, terá um grande efeito cabeludo. A publicação científica geralmente requer apenas significância estatística. Isso gerou reclamações (nos últimos 50 anos) de que o teste de significância estatística é um uso indevido da estatística.

Dragagem de dados

A dragagem de dados é um abuso da mineração de dados . Na dragagem de dados, grandes compilações de dados são examinadas para encontrar uma correlação, sem qualquer escolha pré-definida de uma hipótese a ser testada. Uma vez que o intervalo de confiança necessário para estabelecer uma relação entre dois parâmetros é geralmente escolhido como 95% (o que significa que há 95% de chance de que a relação observada não seja devida ao acaso), há, portanto, 5% de chance de encontrar um correlação entre quaisquer dois conjuntos de variáveis completamente aleatórias. Dado que os esforços de dragagem de dados normalmente examinam grandes conjuntos de dados com muitas variáveis e, portanto, números ainda maiores de pares de variáveis, resultados espúrios, mas aparentemente estatisticamente significativos, são quase certos de serem encontrados por qualquer estudo desse tipo.

Observe que a dragagem de dados é uma forma válida de encontrar uma hipótese possível, mas essa hipótese deve então ser testada com dados não usados na dragagem original. O uso indevido surge quando essa hipótese é declarada como um fato sem validação adicional.

"Você não pode testar legitimamente uma hipótese com os mesmos dados que sugeriram pela primeira vez essa hipótese. O remédio é claro. Depois de ter uma hipótese, projete um estudo para pesquisar especificamente o efeito que você agora acha que existe. Se o resultado desse teste for estatisticamente significativo, você finalmente tem evidências reais. "

Manipulação de dados

Informalmente chamada de "falsificação de dados", essa prática inclui relatórios seletivos (ver também viés de publicação ) e até mesmo simplesmente inventar dados falsos.

Abundam os exemplos de relatórios seletivos. Os exemplos mais fáceis e comuns envolvem a escolha de um grupo de resultados que segue um padrão consistente com a hipótese preferida, enquanto ignora outros resultados ou "execuções de dados" que contradizem a hipótese.

Os cientistas, em geral, questionam a validade dos resultados do estudo que não podem ser reproduzidos por outros pesquisadores. No entanto, alguns cientistas se recusam a publicar seus dados e métodos.

A manipulação de dados é uma questão / consideração séria nas análises estatísticas mais honestas. Outliers, dados ausentes e não normalidade podem afetar adversamente a validade da análise estatística. É apropriado estudar os dados e reparar problemas reais antes do início da análise. "Em qualquer diagrama de dispersão, haverá alguns pontos mais ou menos destacados da parte principal da nuvem: esses pontos devem ser rejeitados apenas por justa causa."

Outras falácias

A pseudoreplicação é um erro técnico associado à análise de variância . A complexidade oculta o fato de que a análise estatística está sendo tentada em uma única amostra (N = 1). Para este caso degenerado, a variância não pode ser calculada (divisão por zero). Um (N = 1) sempre dará ao pesquisador a correlação estatística mais alta entre o viés de intenção e os resultados reais.

A falácia do jogador assume que um evento para o qual uma probabilidade futura pode ser medida tinha a mesma probabilidade de acontecer uma vez que já tenha ocorrido. Assim, se alguém já jogou 9 moedas e cada uma deu cara, as pessoas tendem a supor que a probabilidade de um décimo lançamento também ser cara é 1023 para 1 contra (o que era antes da primeira moeda ser lançada) quando na verdade o a chance da décima cara é de 50% (assumindo que a moeda é imparcial).

A falácia do promotor levou, no Reino Unido, a Sally Clark a ser injustamente condenada pelo assassinato de seus dois filhos. No tribunal, a baixa probabilidade estatística (1 em 73 milhões) de dois filhos de uma mulher morrendo de Síndrome de Morte Súbita Infantil dada pelo professor Sir Roy Meadow foi mal interpretada como sugerindo uma baixa probabilidade de sua inocência. Mesmo se a probabilidade fornecida de SIDS duplo, que mais tarde foi questionada pela Royal Statistical Society , fosse correta, é preciso pesar todas as explicações possíveis umas contra as outras para chegar a uma conclusão sobre a que provavelmente causou a morte inexplicada das duas crianças. Os dados disponíveis sugerem que as probabilidades seriam a favor do duplo SIDS em comparação com o duplo homicídio por um fator de nove. ”A condenação de Sally Clark acabou sendo anulada.

A falácia lúdica . As probabilidades são baseadas em modelos simples que ignoram possibilidades reais (se remotas). Os jogadores de pôquer não consideram que um oponente pode sacar uma arma em vez de uma carta. O segurado (e os governos) presumem que as seguradoras permanecerão solventes, mas veja AIG e risco sistêmico .

Outros tipos de uso indevido

Outros usos indevidos incluem comparar maçãs e laranjas , usar a média errada, regressão à média e a frase guarda-chuva garbage in, garbage out . Algumas estatísticas são simplesmente irrelevantes para um problema.

O quarteto de Anscombe é um conjunto de dados inventado que exemplifica as deficiências da estatística descritiva simples (e o valor da plotagem de dados antes da análise numérica).

Veja também

Referências

Notas

Fontes

Leitura adicional

Campbell, Stephen (1974). Falhas e falácias no pensamento estatístico . Prentice Hall. ISBN 0-486-43598-9.
Christensen, R .; Reichert, T. (1976). "Violações de medida de unidade no reconhecimento de padrões, ambigüidade e irrelevância". Reconhecimento de padrões . 8 (4): 239–245. doi : 10.1016 / 0031-3203 (76) 90044-3 .
Ercan I, Yazici B, Yang Y, Ozkaya G, Cangur S, Ediz B, Kan I (2007). "Uso indevido de estatísticas em pesquisas médicas" (PDF) . European Journal of General Medicine . 4 (3): 127–133. doi : 10.29333 / ejgm / 82507 . Arquivado do original em 13 de novembro de 2014.CS1 maint: usa o parâmetro de autores ( link ) CS1 maint: URL impróprio ( link )
Ercan I, Yazici B, Ocakoglu G, Sigirli D, Kan I (2007). "Revisão da confiabilidade e fatores que afetam a confiabilidade" (PDF) . InterStat . Arquivado do original em 28 de agosto de 2013.CS1 maint: usa o parâmetro de autores ( link ) CS1 maint: URL impróprio ( link )
Freedman, David; Pisani, Robert; Purves, Roger (1998). Estatísticas (3ª ed.). WW Norton. ISBN 978-0-393-97083-8.
Hooke, Robert (1983). Como distinguir os mentirosos dos estatísticos . Nova York: M. Dekker. ISBN 0-8247-1817-8.
Huff, Darrell (1954). Como mentir com estatísticas . WW Norton & Company. LCCN 53013322 . OL 6138576M .
Kahneman, Daniel (2013). Pensando, rápido e devagar . Nova York: Farrar, Straus e Giroux. ISBN 9780374533557.
Moore, David; McCabe, George P. (2003). Introdução à prática da estatística (4ª ed.). Nova York: WH Freeman and Co. ISBN 0716796570.
Moore, David; Notz, William I. (2006). Estatística: conceitos e controvérsias (6ª ed.). Nova York: WH Freeman. ISBN 9780716786368.
Spirer, Herbert; Spirer, Louise; Jaffe, AJ (1998). Estatísticas mal utilizadas (revisadas e expandidas 2ª ed.). Nova York: M. Dekker. ISBN 978-0824702113. O livro é baseado em várias centenas de exemplos de uso indevido.
Oldberg, T. e R. Christensen (1995) "Erratic Measure" em NDE para a Indústria de Energia 1995 , The American Society of Mechanical Engineers. ISBN 0-7918-1298-7 (páginas 1–6) Republicado na Web por ndt.net
Oldberg, T. (2005) "Um problema ético nas estatísticas de confiabilidade do teste de detecção de defeitos", Discurso para o capítulo Golden Gate da American Society for Nondestructive Testing . Publicado na Web por ndt.net
Stone, M. (2009) Failing to Figure: Costly's Costly Neglect of Statistical Reasoning , Civitas, Londres de Whitehall . ISBN 1-906837-07-4
Galbraith, J .; Stone, M. (2011). "O abuso da regressão nas fórmulas de alocação do Serviço Nacional de Saúde: Resposta ao ' artigo de pesquisa de alocação de recursos' do Departamento de Saúde de 2007 ". Journal of Royal Statistical Society, Série A . 174 (3): 517–528. doi : 10.1111 / j.1467-985X.2010.00700.x .

Languages

In other projects