Dados ordinais - Ordinal data

Os dados ordinais são um tipo de dados categóricos e estatísticos em que as variáveis ​​têm categorias naturais ordenadas e as distâncias entre as categorias não são conhecidas. Esses dados existem em uma escala ordinal , um dos quatro níveis de medição descritos por SS Stevens em 1946. A escala ordinal se distingue da escala nominal por ter uma classificação . Também difere da escala de intervalo e da escala de razão por não ter larguras de categoria que representam incrementos iguais do atributo subjacente.

Exemplos de dados ordinais

Um exemplo bem conhecido de dados ordinais é a escala Likert . Um exemplo de escala Likert é:

Gostar Como um pouco Neutro Não gosto um pouco Não gosto
1 2 3 4 5

Exemplos de dados ordinais são freqüentemente encontrados em questionários: por exemplo, a pergunta da pesquisa "Seu estado geral de saúde é ruim, razoável, bom ou excelente?" podem ter essas respostas codificadas respectivamente como 1, 2, 3 e 4. Às vezes, os dados em uma escala de intervalo ou escala de razão são agrupados em uma escala ordinal: por exemplo, indivíduos cuja renda é conhecida podem ser agrupados nas categorias de renda $ 0– $ 19.999 , $ 20.000– $ 39.999, $ 40.000– $ 59.999, ..., que então podem ser codificados como 1, 2, 3, 4, .... Outros exemplos de dados ordinais incluem status socioeconômico, postos militares e notas escolares para cursos.

Maneiras de analisar dados ordinais

A análise de dados ordinais requer um conjunto diferente de análises do que outras variáveis ​​qualitativas. Esses métodos incorporam a ordem natural das variáveis ​​para evitar perda de potência. Calcular a média de uma amostra de dados ordinais é desencorajado; outras medidas de tendência central, incluindo a mediana ou moda, são geralmente mais apropriadas.

Em geral

Stevens (1946) argumentou que, porque a suposição de distância igual entre categorias não é válida para dados ordinais, o uso de médias e desvios-padrão para a descrição de distribuições ordinais e de estatísticas inferenciais baseadas em médias e desvios-padrão não era apropriado. Em vez disso, medidas posicionais como mediana e percentis, além de estatísticas descritivas apropriadas para dados nominais (número de casos, moda, correlação de contingência), devem ser usadas. Métodos não paramétricos têm sido propostos como os procedimentos mais adequados para a estatística inferencial envolvendo dados ordinais, especialmente aqueles desenvolvidos para a análise de medidas ordenadas. No entanto, o uso de estatísticas paramétricas para dados ordinais pode ser permitido com certas ressalvas para tirar proveito da maior variedade de procedimentos estatísticos disponíveis.

Estatísticas univariadas

No lugar de médias e desvios-padrão, as estatísticas univariadas apropriadas para dados ordinais incluem a mediana, outros percentis (como quartis e decis) e o desvio quartil. Os testes de uma amostra para dados ordinais incluem o teste de uma amostra de Kolmogorov-Smirnov , o teste de execuções de uma amostra e o teste de ponto de mudança.

Estatísticas bivariadas

Em vez de testar as diferenças nas médias com testes t , as diferenças nas distribuições de dados ordinais de duas amostras independentes podem ser testadas com Mann-Whitney , execuções , Smirnov e testes de classificações sinalizadas . O teste para duas amostras relacionadas ou combinadas inclui o teste de sinal e o teste de classificações sinalizadas de Wilcoxon . A análise de variância com classificações e o teste de Jonckheere para alternativas ordenadas podem ser conduzidos com dados ordinais no lugar de ANOVA de amostras independentes . Os testes para mais de duas amostras relacionadas incluem a análise de variância bidirecional de Friedman por classificações e o teste de página para alternativas ordenadas . As medidas de correlação apropriadas para duas variáveis ​​com escala ordinal incluem tau , gama , r s e d yx / d xy de Kendall .

Aplicações de regressão

Os dados ordinais podem ser considerados como uma variável quantitativa. Na regressão logística , a equação

é o modelo e c assume os níveis atribuídos da escala categórica. Na análise de regressão , os resultados ( variáveis ​​dependentes ) que são variáveis ​​ordinais podem ser previstos usando uma variante da regressão ordinal , como logit ordenado ou probit ordenado .

Na análise de regressão / correlação múltipla, os dados ordinais podem ser acomodados usando polinômios de potência e por meio da normalização de pontuações e classificações.

Tendências lineares

As tendências lineares também são usadas para encontrar associações entre dados ordinais e outras variáveis ​​categóricas, normalmente em tabelas de contingência . Uma correlação r é encontrada entre as variáveis ​​onde r está entre -1 e 1. Para testar a tendência, uma estatística de teste:

é usado onde n é o tamanho da amostra.

R pode ser encontrado, permitindo ser as pontuações das linhas e as pontuações das colunas. Let ser a média das pontuações da linha enquanto . Então é a probabilidade da linha marginal e é a probabilidade da coluna marginal. R é calculado por:

Métodos de classificação

Métodos de classificação também foram desenvolvidos para dados ordinais. Os dados são divididos em diferentes categorias, de forma que cada observação é semelhante a outras. A dispersão é medida e minimizada em cada grupo para maximizar os resultados da classificação. A função de dispersão é usada na teoria da informação .

Modelos estatísticos para dados ordinais

Existem vários modelos diferentes que podem ser usados ​​para descrever a estrutura dos dados ordinais. Quatro classes principais de modelo são descritas abaixo, cada uma definida para uma variável aleatória , com níveis indexados por .

Observe que nas definições de modelo abaixo, os valores de e não serão os mesmos para todos os modelos para o mesmo conjunto de dados, mas a notação é usada para comparar a estrutura dos diferentes modelos.

Modelo de odds proporcionais

O modelo mais comumente usado para dados ordinais é o modelo de probabilidades proporcionais, definido por onde os parâmetros descrevem a distribuição de base dos dados ordinais, são as covariáveis ​​e são os coeficientes que descrevem os efeitos das covariáveis.

Este modelo pode ser generalizado definindo o modelo usando em vez de , e isso tornaria o modelo adequado para dados nominais (nos quais as categorias não têm ordenação natural), bem como dados ordinais. No entanto, essa generalização pode tornar muito mais difícil ajustar o modelo aos dados.

Modelo de logit de categoria de linha de base

O modelo de categoria de linha de base é definido por

Este modelo não impõe uma ordem nas categorias e, portanto, pode ser aplicado tanto a dados nominais quanto a dados ordinais.

Modelo de estereótipo ordenado

O modelo de estereótipo ordenado é definido por onde os parâmetros de pontuação são restringidos de forma que .

Este é um modelo mais parcimonioso e mais especializado do que o modelo logit de categoria de linha de base: pode ser considerado semelhante a .

O modelo de estereótipo não ordenado tem a mesma forma que o modelo de estereótipo ordenado, mas sem a ordem imposta . Este modelo pode ser aplicado a dados nominais.

Observe que as pontuações ajustadas,, indicam como é fácil distinguir entre os diferentes níveis de . Se, então, isso indica que o conjunto atual de dados para as covariáveis não fornece muitas informações para distinguir entre os níveis e , mas isso não significa necessariamente que os valores reais e estão distantes. E se os valores das covariáveis mudar, então para que os novos dados a pontuação embutidos e pode, então, ser afastadas.

Modelo logit de categorias adjacentes

O modelo de categorias adjacentes é definido por, embora a forma mais comum, referida em Agresti (2010) como a "forma de probabilidades proporcionais" seja definida por

Esse modelo só pode ser aplicado a dados ordinais, uma vez que modelar as probabilidades de mudanças de uma categoria para a próxima implica que existe uma ordenação dessas categorias.

O modelo logit de categorias adjacentes pode ser considerado um caso especial do modelo logit de categoria de linha de base, onde . O modelo logit de categorias adjacentes também pode ser pensado como um caso especial do modelo de estereótipo ordenado, onde , ou seja, as distâncias entre os são definidas antecipadamente, em vez de serem estimadas com base nos dados.

Comparações entre os modelos

O modelo de probabilidades proporcionais tem uma estrutura muito diferente dos outros três modelos e também um significado subjacente diferente. Observe que o tamanho da categoria de referência no modelo de probabilidades proporcionais varia com , uma vez que é comparado com , enquanto nos outros modelos o tamanho da categoria de referência permanece fixo, como é comparado com ou .

Diferentes funções de link

Existem variantes de todos os modelos que usam funções de link diferentes, como o link probit ou o link log-log complementar.

Visualização e exibição

Os dados ordinais podem ser visualizados de várias maneiras diferentes. As visualizações comuns são o gráfico de barras ou um gráfico de pizza . As tabelas também podem ser úteis para exibir dados ordinais e frequências. Os gráficos de mosaico podem ser usados ​​para mostrar a relação entre uma variável ordinal e uma variável nominal ou ordinal. Um gráfico de relevo - um gráfico de linha que mostra a classificação relativa de itens de um ponto no tempo para o próximo - também é apropriado para dados ordinais.

A gradação de cores ou tons de cinza pode ser usada para representar a natureza ordenada dos dados. Uma escala de direção única, como faixas de renda, pode ser representada com um gráfico de barras onde aumentar (ou diminuir) a saturação ou claridade de uma única cor indica renda mais alta (ou mais baixa). A distribuição ordinal de uma variável medida em uma escala de direção dupla, como uma escala Likert, também pode ser ilustrada com cores em um gráfico de barras empilhadas. Uma cor neutra (branco ou cinza) pode ser usada para o ponto do meio (zero ou neutro) com cores contrastantes usadas nas direções opostas do ponto médio, onde o aumento da saturação ou escuridão das cores pode indicar categorias na distância crescente do ponto médio. Os mapas coropléticos também usam sombreamento colorido ou em tons de cinza para exibir dados ordinais.

Exemplo de gráfico de barra de opinião sobre gastos com defesa.
Exemplo de gráfico de opinião sobre gastos de defesa por partido político.
Exemplo de plotagem em mosaico de opinião sobre gastos com defesa por partido político.
Exemplo de gráfico de barras empilhadas de opinião sobre gastos com defesa por partido político.

Formulários

O uso de dados ordinais pode ser encontrado na maioria das áreas de pesquisa onde são gerados dados categóricos. As configurações em que os dados ordinais são frequentemente coletados incluem as ciências sociais e comportamentais e as configurações governamentais e de negócios, onde as medições são coletadas de pessoas por meio de observação, teste ou questionários . Alguns contextos comuns para a coleta de dados ordinais incluem pesquisa de levantamento ; e testes de inteligência , aptidão e personalidade .

O cálculo do 'tamanho do efeito' (Cliff's Delta d ) usando dados ordinais foi recomendado como uma medida de dominância estatística. {Cliff, N. (1993). Estatísticas de dominância: análises ordinais para responder a perguntas ordinais. Psychological Bulletin, 114, 494-509.}

Veja também

Referências

Leitura adicional

  • Agresti, Alan (2010). Análise de dados categóricos ordinais (2ª ed.). Hoboken, Nova Jersey: Wiley. ISBN 978-0470082898.