Dragagem de dados - Data dredging

Um exemplo de resultado produzido por dragagem de dados, mostrando uma correlação entre o número de letras na palavra vencedora do Scripps National Spelling Bee e o número de pessoas nos Estados Unidos mortas por aranhas venenosas .

Dragagem de dados (ou pesca de dados , espionagem de dados , carnificina de dados ), também conhecida como perseguição de significância , busca de significância , inferência seletiva e p -hacking é o uso indevido da análise de dados para encontrar padrões nos dados que podem ser apresentados como estatisticamente significativos , portanto aumentando e subestimando dramaticamente o risco de falsos positivos. Isso é feito realizando muitos testes estatísticos nos dados e relatando apenas aqueles que apresentam resultados significativos.

O processo de dragagem de dados envolve testar hipóteses múltiplas, utilizando um único conjunto de dados por exaustivamente procura -Talvez para combinações de variáveis que pode mostrar uma correlação , e talvez para grupos de casos ou observações que mostram diferenças na sua média, ou em sua repartição por alguma outra variável.

Os testes convencionais de significância estatística são baseados na probabilidade de que um determinado resultado surgisse se apenas o acaso estivesse em ação, e necessariamente aceitam algum risco de conclusões equivocadas de um certo tipo (rejeições equivocadas da hipótese nula). Este nível de risco é chamado de significância . Quando um grande número de testes é executado, alguns produzem resultados falsos desse tipo; portanto, 5% das hipóteses escolhidas aleatoriamente podem ser (erroneamente) relatadas como estatisticamente significativas no nível de significância de 5%, 1% pode ser (erroneamente) relatado como estatisticamente significativo no nível de significância de 1%, e assim por diante, apenas por acaso . Quando hipóteses suficientes são testadas, é virtualmente certo que algumas serão relatadas como estatisticamente significativas (mesmo que isso seja enganoso), uma vez que quase todos os conjuntos de dados com qualquer grau de aleatoriedade provavelmente conterão (por exemplo) algumas correlações espúrias . Se não forem cautelosos, os pesquisadores que usam técnicas de mineração de dados podem ser facilmente enganados por esses resultados.

A dragagem de dados é um exemplo de desconsideração do problema de comparações múltiplas . Uma forma é quando os subgrupos são comparados sem alertar o leitor sobre o número total de comparações de subgrupos examinados.

Tirar conclusões dos dados

O procedimento de teste de hipótese estatística frequentista convencional é formular uma hipótese de pesquisa, como "pessoas em classes sociais mais altas vivem mais", coletar dados relevantes, seguido de realizar um teste de significância estatística para ver a probabilidade de tais resultados serem encontrados se o acaso sozinhos estavam no trabalho. (A última etapa é chamada de teste contra a hipótese nula .)

Um ponto-chave na análise estatística adequada é testar uma hipótese com evidências (dados) que não foram usados na construção da hipótese. Isso é crítico porque cada conjunto de dados contém alguns padrões inteiramente devido ao acaso. Se a hipótese não for testada em um conjunto de dados diferente da mesma população estatística , é impossível avaliar a probabilidade de que o acaso sozinho produziria tais padrões. Veja as hipóteses de teste sugeridas pelos dados .

Aqui está um exemplo simples. Jogar uma moeda cinco vezes, com um resultado de 2 caras e 3 coroas, pode levar a hipotetizar que a moeda favorece coroas em 3/5 a 2/5. Se essa hipótese for testada no conjunto de dados existente, ela será confirmada, mas a confirmação não terá sentido. O procedimento apropriado teria sido formar com antecedência uma hipótese de qual é a probabilidade de coroa e, em seguida, jogar a moeda várias vezes para ver se a hipótese é rejeitada ou não. Se três coroas e duas caras forem observadas, outra hipótese, de que a probabilidade de coroas é 3/5, poderia ser formada, mas só poderia ser testada por um novo conjunto de cara ou coroa. É importante perceber que a significância estatística sob o procedimento incorreto é completamente espúria - os testes de significância não protegem contra a dragagem de dados.

Hipótese sugerida por dados não representativos

Suponha que um estudo de uma amostra aleatória de pessoas inclua exatamente duas pessoas com aniversário em 7 de agosto: Maria e João. Alguém envolvido em espionagem de dados pode tentar encontrar outras semelhanças entre Maria e João. Ao passar por centenas ou milhares de semelhanças potenciais entre os dois, cada um com uma baixa probabilidade de ser verdade, uma semelhança incomum pode quase certamente ser encontrada. Talvez John e Mary sejam as únicas duas pessoas no estudo que trocaram de menor três vezes na faculdade. Uma hipótese, tendenciosa por espionagem de dados, poderia então ser "Pessoas nascidas em 7 de agosto têm uma chance muito maior de trocar de menores mais do que duas vezes na faculdade."

Os próprios dados retirados do contexto podem ser vistos como um forte suporte para essa correlação, uma vez que ninguém com um aniversário diferente mudou de menor três vezes na faculdade. No entanto, se (como é provável) esta for uma hipótese espúria, esse resultado provavelmente não será reproduzível ; qualquer tentativa de verificar se outras pessoas com aniversário de 7 de agosto têm uma taxa semelhante de mudança de menores provavelmente obterá resultados contraditórios quase imediatamente.

Tendência

O viés é um erro sistemático na análise. Por exemplo, os médicos direcionaram os pacientes com HIV de alto risco cardiovascular a um tratamento específico para o HIV, o abacavir , e os pacientes de baixo risco, a outros medicamentos, evitando uma avaliação simples do abacavir em comparação com outros tratamentos. Uma análise que não corrigiu esse viés penalizou injustamente o abacavir, uma vez que seus pacientes eram de maior risco, então mais deles tiveram ataques cardíacos. Este problema pode ser muito grave, por exemplo, no estudo observacional .

Fatores ausentes, fatores de confusão não medidos e perda de acompanhamento também podem levar a viés. Ao selecionar artigos com um valor p significativo , os estudos negativos são selecionados contra - que é o viés de publicação . Isso também é conhecido como "enviesamento do arquivo", porque os resultados do valor p menos significativos são deixados no arquivo e nunca publicados.

Modelagem Múltipla

Outro aspecto do condicionamento dos testes estatísticos pelo conhecimento dos dados pode ser visto durante o uso do sistema ou análise de máquina e regressão linear para observar a frequência dos dados. . Uma etapa crucial no processo é decidir quais covariáveis incluir em um relacionamento explicando uma ou mais outras variáveis. Existem considerações estatísticas (veja regressão Stepwise ) e substantivas que levam os autores a favorecer alguns de seus modelos em detrimento de outros, e há um uso liberal de testes estatísticos. No entanto, descartar uma ou mais variáveis de uma relação explicativa com base nos dados significa que não se pode aplicar validamente procedimentos estatísticos padrão às variáveis retidas na relação como se nada tivesse acontecido. Na natureza do caso, as variáveis retidas tiveram que passar por algum tipo de teste preliminar (possivelmente um teste intuitivo impreciso) de que as variáveis descartadas falharam. Em 1966, Selvin e Stuart compararam as variáveis retidas no modelo aos peixes que não caem pela rede - no sentido de que seus efeitos tendem a ser maiores do que aqueles que caem pela rede. Isso não apenas altera o desempenho de todos os testes subsequentes no modelo explicativo retido, mas pode introduzir viés e alterar o erro quadrático médio na estimativa.

Exemplos em meteorologia e epidemiologia

Na meteorologia , as hipóteses são frequentemente formuladas usando dados meteorológicos até o presente e testadas contra dados meteorológicos futuros, o que garante que, mesmo inconscientemente, os dados futuros não poderiam influenciar a formulação da hipótese. Claro, tal disciplina necessita esperar que novos dados entrem, para mostrar o poder preditivo da teoria formulada versus a hipótese nula . Esse processo garante que ninguém possa acusar o pesquisador de ajustar manualmente o modelo preditivo aos dados disponíveis, uma vez que o clima que se aproxima ainda não está disponível.

Como outro exemplo, suponha que os observadores notem que uma determinada cidade parece ter um aglomerado de câncer , mas não têm uma hipótese firme de por que isso acontece. No entanto, eles têm acesso a uma grande quantidade de dados demográficos sobre a cidade e arredores, contendo medidas para a área de centenas ou milhares de variáveis diferentes, em sua maioria não correlacionadas. Mesmo que todas essas variáveis sejam independentes da taxa de incidência de câncer, é altamente provável que pelo menos uma variável se correlacione significativamente com a taxa de câncer em toda a área. Embora isso possa sugerir uma hipótese, mais testes usando as mesmas variáveis, mas com dados de um local diferente, são necessários para confirmar. Observe que um valor p de 0,01 sugere que 1% das vezes um resultado pelo menos aquele extremo seria obtido por acaso; se centenas ou milhares de hipóteses (com variáveis independentes mutuamente relativamente não correlacionadas) forem testadas, é provável que se obtenha um valor p menor que 0,01 para muitas hipóteses nulas.

Remédios

A procura de padrões nos dados é legítima. Aplicar um teste estatístico de significância , ou teste de hipótese, aos mesmos dados de onde emerge um padrão está errado. Uma maneira de construir hipóteses e ao mesmo tempo evitar a dragagem de dados é conduzir testes aleatórios fora da amostra . O pesquisador coleta um conjunto de dados e o particiona aleatoriamente em dois subconjuntos, A e B. Apenas um subconjunto - digamos, o subconjunto A - é examinado para a criação de hipóteses. Uma vez que a hipótese é formulada, ela deve ser testada no subconjunto B, que não foi usado para construir a hipótese. Somente onde B também apóia tal hipótese é razoável acreditar que a hipótese pode ser válida. (Este é um tipo simples de validação cruzada e é frequentemente denominado teste de treinamento ou validação de divisão pela metade.)

Outro remédio para a dragagem de dados é registrar o número de todos os testes de significância conduzidos durante o estudo e simplesmente dividir o critério de significância ("alfa") por esse número; esta é a correção de Bonferroni . No entanto, esta é uma métrica muito conservadora. Um alfa familiar de 0,05, dividido dessa forma por 1.000 para contabilizar 1.000 testes de significância, produz um alfa por hipótese muito restrito de 0,00005. Métodos particularmente úteis na análise de variância e na construção de bandas de confiança simultâneas para regressões envolvendo funções de base são o método de Scheffé e, se o pesquisador tiver em mente apenas comparações de pares, o método de Tukey . O uso da taxa de falsas descobertas de Benjamini e Hochberg é uma abordagem mais sofisticada que se tornou um método popular para o controle de testes de múltiplas hipóteses.

Quando nenhuma das abordagens é prática, pode-se fazer uma distinção clara entre análises de dados que são confirmatórias e análises exploratórias . A inferência estatística é apropriada apenas para a primeira.

Em última análise, a significância estatística de um teste e a confiança estatística de um achado são propriedades conjuntas dos dados e do método usado para examinar os dados. Assim, se alguém diz que um determinado evento tem probabilidade de 20% ± 2% 19 vezes em 20, isso significa que se a probabilidade do evento for estimada pelo mesmo método usado para obter a estimativa de 20%, o resultado fica entre 18% e 22% com probabilidade de 0,95. Nenhuma afirmação de significância estatística pode ser feita apenas olhando, sem a devida consideração ao método usado para avaliar os dados.

Os periódicos acadêmicos mudam cada vez mais para o formato de relatório registrado , que visa neutralizar problemas muito sérios, como dragagem de dados e HARKing , que tornaram a pesquisa de teste de teoria muito pouco confiável: por exemplo, a Nature Human Behavior adotou o formato de relatório registrado, pois “ muda [s] a ênfase dos resultados da pesquisa para as questões que norteiam a pesquisa e os métodos usados para respondê-las ”. O European Journal of Personality define este formato da seguinte forma: “Num relatório registado, os autores criam uma proposta de estudo que inclui o enquadramento teórico e empírico, questões / hipóteses de investigação e dados piloto (se disponíveis). Após a submissão, esta proposta será então revisada antes da coleta de dados e, se aceita, o artigo resultante deste procedimento revisado por pares será publicado, independentemente dos resultados do estudo. ”

Métodos e resultados também podem ser disponibilizados publicamente, como na abordagem de ciência aberta , tornando ainda mais difícil a realização da dragagem de dados.

Veja também

Referências

Leitura adicional

Ioannidis, John PA (30 de agosto de 2005). "Por que a maioria das descobertas de pesquisas publicadas são falsas" . PLOS Medicine . San Francisco: Public Library of Science. 2 (8): e124. doi : 10.1371 / journal.pmed.0020124 . ISSN 1549-1277 . PMC 1182327 . PMID 16060722 .
Chefe, Megan L .; Holman, Luke; Lanfear, Rob; Kahn, Andrew T .; Jennions, Michael D. (13 de março de 2015). "The Extent and Consequences of P-Hacking in Science" . PLOS Biology . 13 (3): e1002106. doi : 10.1371 / journal.pbio.1002106 . PMC 4359000 . PMID 25768323 .
Insel, Thomas (14 de novembro de 2014). "P-Hacking" . Blog do Diretor do NIMH .
Smith, Gary (2016). Desvios padrão: suposições erradas, dados torturados e outras maneiras de mentir com estatísticas . Gerald Duckworth & Co. ISBN 9780715649749.

links externos

Uma bibliografia sobre o viés da espionagem de dados
Correlações espúrias , uma galeria de exemplos de correlações implausíveis
StatQuest: armadilhas de valor- P e cálculos de poder no YouTube
Vídeo explicando p-hacking por " Neuroskeptic ", um blogueiro da Discover Magazine
Step Away From Stepwise , um artigo no Journal of Big Data criticando a regressão stepwise.

Languages

In other projects