Estatísticas descritivas - Descriptive statistics

Uma estatística descritiva (no sentido do substantivo contável) é uma estatística resumida que descreve ou resume quantitativamente os recursos de uma coleção de informações , enquanto a estatística descritiva (no sentido do substantivo massivo ) é o processo de usar e analisar essas estatísticas. A estatística descritiva se distingue da estatística inferencial (ou estatística indutiva) por seu objetivo de resumir uma amostra , em vez de usar os dados para aprender sobre a população que a amostra de dados representa. Isso geralmente significa que a estatística descritiva, ao contrário da estatística inferencial, não é desenvolvida com base na teoria da probabilidade e frequentemente é estatística não paramétrica . Mesmo quando uma análise de dados tira suas principais conclusões usando a estatística inferencial, a estatística descritiva geralmente também é apresentada. Por exemplo, em artigos que relatam assuntos humanos, normalmente uma tabela é incluída dando o tamanho geral da amostra , tamanhos de amostra em subgrupos importantes (por exemplo, para cada tratamento ou grupo de exposição) e características demográficas ou clínicas, como a idade média , a proporção de sujeitos de cada sexo, a proporção de sujeitos com comorbidades relacionadas , etc.

Algumas medidas comumente usadas para descrever um conjunto de dados são medidas de tendência central e medidas de variabilidade ou dispersão . As medidas de tendência central incluem a média , mediana e moda , enquanto as medidas de variabilidade incluem o desvio padrão (ou variância ), os valores mínimo e máximo das variáveis, curtose e assimetria .

Use em análises estatísticas

As estatísticas descritivas fornecem resumos simples sobre a amostra e sobre as observações que foram feitas. Esses resumos podem ser quantitativos , isto é, estatísticas de resumo , ou visuais, ou seja, gráficos simples de entender. Esses resumos podem formar a base da descrição inicial dos dados como parte de uma análise estatística mais extensa ou podem ser suficientes por si próprios para uma investigação específica.

Por exemplo, a porcentagem de arremessos no basquete é uma estatística descritiva que resume o desempenho de um jogador ou de uma equipe. Este número é o número de fotos tiradas dividido pelo número de fotos tiradas. Por exemplo, um jogador que arremessa 33% está fazendo aproximadamente um arremesso em cada três. A porcentagem resume ou descreve vários eventos discretos. Considere também a média de notas . Este único número descreve o desempenho geral de um aluno em toda a gama de suas experiências de curso.

O uso de estatísticas descritivas e resumidas tem uma história extensa e, de fato, a simples tabulação de populações e de dados econômicos foi a primeira forma de surgimento do tema estatística . Mais recentemente, uma coleção de técnicas de sumarização foi formulada sob o título de análise exploratória de dados : um exemplo de tal técnica é o box plot .

No mundo dos negócios, as estatísticas descritivas fornecem um resumo útil de muitos tipos de dados. Por exemplo, os investidores e corretores podem usar um relato histórico do comportamento do retorno, realizando análises empíricas e analíticas sobre seus investimentos, a fim de tomar melhores decisões de investimento no futuro.

Análise univariada

A análise univariada envolve a descrição da distribuição de uma única variável, incluindo sua tendência central (incluindo a média , mediana e modo ) e dispersão (incluindo o intervalo e quartis do conjunto de dados e medidas de dispersão, como a variância e o desvio padrão ) A forma da distribuição também pode ser descrita por meio de índices, como assimetria e curtose . As características da distribuição de uma variável também podem ser representadas em formato gráfico ou tabular, incluindo histogramas e exibição de haste e folha .

Análise bivariada e multivariada

Quando uma amostra consiste em mais de uma variável, a estatística descritiva pode ser usada para descrever a relação entre pares de variáveis. Nesse caso, as estatísticas descritivas incluem:

A principal razão para diferenciar a análise univariada da bivariada é que a análise bivariada não é apenas uma análise descritiva simples, mas também descreve a relação entre duas variáveis ​​diferentes. As medidas quantitativas de dependência incluem correlação (como r de Pearson quando ambas as variáveis ​​são contínuas, ou rho de Spearman se uma ou ambas não forem) e covariância (que reflete as variáveis ​​de escala nas quais são medidas). A inclinação, na análise de regressão, também reflete a relação entre as variáveis. A inclinação não padronizada indica a mudança de unidade na variável de critério para uma mudança de uma unidade no preditor . A inclinação padronizada indica esta mudança em unidades padronizadas ( pontuação z ). Os dados altamente distorcidos são freqüentemente transformados por meio de logaritmos. O uso de logaritmos torna os gráficos mais simétricos e mais semelhantes à distribuição normal , tornando-os mais fáceis de interpretar intuitivamente.

Referências

links externos