Distribuição de frequência - Frequency distribution

Em estatística , uma distribuição de frequência é uma lista, tabela (ou seja: tabela de frequência ) ou gráfico (ou seja: gráfico de barra ou histograma ) que exibe a frequência de vários resultados em uma amostra . Cada entrada na tabela contém a frequência ou contagem das ocorrências de valores em um determinado grupo ou intervalo.

Exemplo

Aqui está um exemplo de uma tabela de frequência univariada (= variável única ). A frequência de cada resposta a uma pergunta da pesquisa é mostrada.

Classificação Grau de concordância Número
1 Concordo plenamente 22
2 Concordo um pouco 30
3 Não tenho certeza 20
4 Discordo um pouco 15
5 Discordo fortemente 15

Um esquema de tabulação diferente agrega valores em compartimentos de forma que cada compartimento englobe um intervalo de valores. Por exemplo, as alturas dos alunos em uma classe podem ser organizadas na seguinte tabela de frequência.

Amplitude de altura Número de estudantes Número cumulativo
menos de 5,0 pés 25 25
5,0-5,5 pés 35 60
5,5–6,0 pés 20 80
6,0–6,5 pés 20 100
Exemplo de gráfico de pizza

Uma distribuição de frequência nos mostra um agrupamento resumido de dados divididos em classes mutuamente exclusivas e o número de ocorrências em uma classe. É uma forma de mostrar dados não organizados, principalmente para mostrar resultados de uma eleição, renda de pessoas para uma determinada região, vendas de um produto em um determinado período, valores de empréstimos estudantis de graduados, etc. Alguns dos gráficos que podem ser usados ​​com as distribuições de frequência são histogramas , gráficos de linhas , gráficos de barras e gráficos circulares . As distribuições de frequência são usadas para dados qualitativos e quantitativos.

Construção

  1. Decida o número de aulas. Muitas classes ou poucas classes podem não revelar a forma básica do conjunto de dados, também será difícil interpretar essa distribuição de frequência. O número ideal de classes pode ser determinado ou estimado pela fórmula: (log base 10), ou pela fórmula de escolha da raiz quadrada onde n é o número total de observações nos dados. (O último será muito grande para grandes conjuntos de dados, como estatísticas populacionais.) No entanto, essas fórmulas não são uma regra rígida e o número resultante de classes determinado pela fórmula pode nem sempre ser exatamente adequado aos dados que estão sendo tratados.
  2. Calcule o intervalo dos dados (Intervalo = Máx - Min) encontrando os valores de dados mínimo e máximo. O intervalo será usado para determinar o intervalo ou largura da classe.
  3. Decida a largura das classes, denotadas por he obtidas por (assumindo que os intervalos das classes são os mesmos para todas as classes).

Geralmente, o intervalo ou largura da classe é o mesmo para todas as classes. Todas as classes tomadas em conjunto devem cobrir pelo menos a distância do valor mais baixo (mínimo) nos dados até o valor mais alto (máximo). Intervalos de classes iguais são preferidos na distribuição de frequência, enquanto intervalos de classes desiguais (por exemplo, intervalos logarítmicos) podem ser necessários em certas situações para produzir uma boa distribuição de observações entre as classes e evitar um grande número de classes vazias ou quase vazias.

  1. Decida os limites da classe individual e selecione um ponto de partida adequado da primeira classe que seja arbitrário; pode ser menor ou igual ao valor mínimo. Normalmente é iniciado antes do valor mínimo de forma que o ponto médio (a média dos limites inferior e superior da classe da primeira turma) seja devidamente colocado.
  2. Faça uma observação e marque uma barra vertical (|) para uma classe à qual ela pertence. Uma contagem contínua é mantida até a última observação.
  3. Encontre as frequências, frequência relativa, frequência cumulativa etc. conforme necessário.

Distribuições de frequência conjunta

As distribuições de frequência conjunta bivariada são frequentemente apresentadas como tabelas de contingência (bidirecionais) :

Tabela de contingência bidirecional com frequências marginais
Dança Esportes televisão Total
Homens 2 10 8 20
Mulheres 16 6 8 30
Total 18 16 16 50

A linha total e a coluna total relatam as frequências marginais ou distribuição marginal , enquanto o corpo da tabela relata as frequências conjuntas.

Formulários

Gerenciar e operar em dados tabulados de frequência é muito mais simples do que operar em dados brutos. Existem algoritmos simples para calcular mediana, média, desvio padrão, etc. a partir dessas tabelas.

O teste de hipótese estatística baseia-se na avaliação das diferenças e semelhanças entre as distribuições de frequência. Essa avaliação envolve medidas de tendência central ou médias , como média e mediana , e medidas de variabilidade ou dispersão estatística , como desvio padrão ou variância .

Diz-se que uma distribuição de frequência é distorcida quando sua média e mediana são significativamente diferentes ou, mais geralmente, quando é assimétrica . A curtose de uma distribuição de frequência é uma medida da proporção de valores extremos (outliers), que aparecem nas extremidades do histograma . Se a distribuição for mais propensa a outliers do que a distribuição normal , é considerada leptocúrtica; se menos propenso a outliers, é considerado platicúrtico.

As distribuições de frequência de letras também são usadas na análise de frequência para decifrar cifras e são usadas para comparar as frequências relativas de letras em diferentes idiomas e outras línguas são frequentemente usadas como grego, latim, etc.

Veja também

Notas

links externos