Variável categórica - Categorical variable

Em estatística , uma variável categórica (também chamada de variável qualitativa ) é uma variável que pode assumir um de um número limitado e geralmente fixo de valores possíveis, atribuindo cada indivíduo ou outra unidade de observação a um determinado grupo ou categoria nominal no com base em alguma propriedade qualitativa . Na ciência da computação e em alguns ramos da matemática, as variáveis ​​categóricas são chamadas de enumerações ou tipos enumerados . Normalmente (embora não neste artigo), cada um dos valores possíveis de uma variável categórica é referido como um nível . A distribuição de probabilidade associada a uma variável categórica aleatória é chamada de distribuição categórica .

Os dados categóricos são o tipo de dados estatísticos que consiste em variáveis ​​categóricas ou em dados que foram convertidos nesse formato, por exemplo, dados agrupados . Mais especificamente, os dados categóricos podem derivar de observações feitas de dados qualitativos que são resumidos como contagens ou tabulações cruzadas , ou de observações de dados quantitativos agrupados em determinados intervalos. Freqüentemente, os dados puramente categóricos são resumidos na forma de uma tabela de contingência . No entanto, particularmente ao considerar a análise de dados, é comum usar o termo "dados categóricos" para se aplicar a conjuntos de dados que, embora contenham algumas variáveis ​​categóricas, também podem conter variáveis ​​não categóricas.

Uma variável categórica que pode assumir exatamente dois valores é denominada variável binária ou variável dicotômica ; um caso especial importante é a variável Bernoulli . Variáveis ​​categóricas com mais de dois valores possíveis são chamadas de variáveis ​​politômicas ; as variáveis ​​categóricas são freqüentemente consideradas politômicas, a menos que especificado de outra forma. Discretização é tratar dados contínuos como se fossem categóricos. Dicotomização é tratar dados contínuos ou variáveis ​​politômicas como se fossem variáveis ​​binárias. A análise de regressão frequentemente trata a associação à categoria com uma ou mais variáveis ​​dummy quantitativas .

Exemplos de variáveis ​​categóricas

Exemplos de valores que podem ser representados em uma variável categórica:

  • O lançamento de um dado de seis lados: os resultados possíveis são 1,2,3,4,5 ou 6.
  • Informação demográfica de uma população: sexo, estado da doença.
  • O tipo sanguíneo de uma pessoa: A, B, AB ou O.
  • O partido político em que um eleitor pode votar, e. g. Partido Verde , Democrata Cristão , Social Democrata , etc.
  • O tipo de rocha: ígnea , sedimentar ou metamórfica .
  • A identidade de uma determinada palavra (por exemplo, em um modelo de linguagem ): Um dos V escolhas possíveis, para um vocabulário de tamanho V .

Notação

Para facilitar o processamento estatístico, variáveis ​​categóricas podem receber índices numéricos, por exemplo, 1 a K para uma variável categórica K -way (ou seja, uma variável que pode expressar exatamente K valores possíveis). Em geral, entretanto, os números são arbitrários e não têm significado além de simplesmente fornecer um rótulo conveniente para um valor específico. Em outras palavras, os valores em uma variável categórica existem em uma escala nominal : cada um deles representa um conceito logicamente separado, não pode ser necessariamente ordenado de forma significativa e não pode ser manipulado de outra forma como os números. Em vez disso, as operações válidas são equivalência , associação ao conjunto e outras operações relacionadas ao conjunto.

Como resultado, a tendência central de um conjunto de variáveis ​​categóricas é dada por seu modo ; nem a média nem a mediana podem ser definidas. Como exemplo, dado um conjunto de pessoas, podemos considerar o conjunto de variáveis ​​categóricas correspondentes aos seus sobrenomes. Podemos considerar operações como equivalência (se duas pessoas têm o mesmo sobrenome), definir associação (se uma pessoa tem um nome em uma determinada lista), contar (quantas pessoas têm um determinado sobrenome) ou encontrar o modo ( qual nome ocorre com mais frequência). No entanto, não podemos calcular significativamente a "soma" de Smith + Johnson ou perguntar se Smith é "menor que" ou "maior que" Johnson. Como resultado, não podemos perguntar de forma significativa qual é o "nome médio" (a média) ou o "nome mais do meio" (a mediana) em um conjunto de nomes.

Observe que isso ignora o conceito de ordem alfabética , que é uma propriedade que não é inerente aos nomes em si, mas à maneira como construímos os rótulos. Por exemplo, se escrevermos os nomes em cirílico e considerarmos a ordem cirílica das letras, poderemos obter um resultado diferente da avaliação de "Smith <Johnson" do que se escrevermos os nomes no alfabeto latino padrão ; e se escrevermos os nomes em caracteres chineses , não podemos avaliar significativamente "Smith <Johnson", porque nenhuma ordem consistente é definida para tais caracteres. No entanto, se considerarmos os nomes como escritos, por exemplo, no alfabeto latino, e definirmos uma ordem correspondente à ordem alfabética padrão, então os teremos efetivamente convertido em variáveis ​​ordinais definidas em uma escala ordinal .

Número de valores possíveis

Categóricas variáveis aleatórias são normalmente descritos estatisticamente por uma distribuição categórica , que permite uma arbitrária K de direcções categórica variável a ser expresso com probabilidades separadas especificadas para cada um dos K possíveis resultados. Essas variáveis ​​categóricas de múltiplas categorias são frequentemente analisadas usando uma distribuição multinomial , que conta a frequência de cada combinação possível de números de ocorrências das várias categorias. A análise de regressão em resultados categóricos é realizada por meio de regressão logística multinomial , probit multinomial ou um tipo relacionado de modelo de escolha discreta .

Variáveis ​​categóricas que têm apenas dois resultados possíveis (por exemplo, "sim" x "não" ou "sucesso" x "falha") são conhecidas como variáveis ​​binárias (ou variáveis ​​de Bernoulli ). Devido à sua importância, essas variáveis ​​são frequentemente consideradas uma categoria separada, com uma distribuição separada (a distribuição de Bernoulli ) e modelos de regressão separados ( regressão logística , regressão probit , etc.). Como resultado, o termo "variável categórica" ​​é freqüentemente reservado para casos com 3 ou mais resultados, às vezes denominada uma variável de múltiplas vias em oposição a uma variável binária.

Também é possível considerar variáveis ​​categóricas onde o número de categorias não é fixado de antemão. Por exemplo, para uma variável categórica que descreve uma palavra específica, podemos não saber com antecedência o tamanho do vocabulário e gostaríamos de permitir a possibilidade de encontrar palavras que ainda não vimos. Modelos estatísticos padrão, como aqueles que envolvem a distribuição categórica e regressão logística multinomial , presumem que o número de categorias é conhecido com antecedência, e alterar o número de categorias em tempo real é complicado. Nesses casos, técnicas mais avançadas devem ser usadas. Um exemplo é o processo de Dirichlet , que se enquadra no domínio das estatísticas não paramétricas . Nesse caso, é logicamente assumido que existe um número infinito de categorias, mas a qualquer momento a maioria delas (na verdade, todas menos um número finito) nunca foi vista. Todas as fórmulas são formuladas em termos do número de categorias realmente vistas até agora, em vez do número total (infinito) de categorias potenciais existentes, e métodos são criados para atualização incremental de distribuições estatísticas, incluindo a adição de "novas" categorias.

Variáveis ​​categóricas e regressão

Variáveis ​​categóricas representam um método qualitativo de pontuação de dados (isto é, representam categorias ou membros de grupos). Elas podem ser incluídas como variáveis ​​independentes em uma análise de regressão ou como variáveis ​​dependentes em regressão logística ou regressão probit , mas devem ser convertidas em dados quantitativos para poder analisar os dados. Isso é feito por meio do uso de sistemas de codificação. As análises são conduzidas de forma que apenas g -1 ( sendo g o número de grupos) sejam codificados. Isso minimiza a redundância, embora ainda represente o conjunto de dados completo, já que nenhuma informação adicional seria obtida com a codificação dos grupos g totais : por exemplo, ao codificar gênero (onde g = 2: masculino e feminino), se codificarmos apenas mulheres, todos os que sobraram o fariam necessariamente ser do sexo masculino. Em geral, o grupo para o qual não se codifica é o de menor interesse.

Existem três sistemas de codificação principais normalmente usados ​​na análise de variáveis ​​categóricas na regressão: codificação fictícia, codificação de efeitos e codificação de contraste. A equação de regressão assume a forma de Y = bX + a , onde b é a inclinação e dá o peso empiricamente atribuído a um explicador, X é a variável explicativa e a é o intercepto Y , e esses valores assumem significados diferentes com base no sistema de codificação usado. A escolha do sistema de codificação não afeta as estatísticas F ou R 2 . No entanto, escolhe-se um sistema de codificação com base na comparação de interesse, uma vez que a interpretação dos valores de b irá variar.

Codificação fictícia

A codificação fictícia é usada quando há um controle ou grupo de comparação em mente. Trata-se, portanto, de analisar os dados de um grupo em relação ao grupo de comparação: a representa a média do grupo controle eb é a diferença entre a média do grupo experimental e a média do grupo controle. É sugerido que três critérios sejam atendidos para especificar um grupo de controle adequado: o grupo deve ser um grupo bem estabelecido (por exemplo, não deve ser uma "outra" categoria), deve haver uma razão lógica para selecionar este grupo como uma comparação ( por exemplo, espera-se que o grupo tenha a pontuação mais alta na variável dependente) e, finalmente, o tamanho da amostra do grupo deve ser substantivo e não pequeno em comparação com os outros grupos.

Na codificação fictícia, o grupo de referência recebe um valor de 0 para cada variável de código, o grupo de interesse para comparação com o grupo de referência recebe um valor de 1 para sua variável de código especificada, enquanto todos os outros grupos são atribuídos a 0 para aquele particular variável de código.

Os valores de b devem ser interpretados de forma que o grupo experimental seja comparado com o grupo controle. Portanto, produzir um valor de b negativo implicaria que o grupo experimental tivesse pontuado menos do que o grupo de controle na variável dependente . Para ilustrar isso, suponha que estejamos medindo o otimismo entre várias nacionalidades e decidimos que os franceses serviriam como um controle útil. Se estivermos comparando-os com os italianos e observarmos um valor b negativo , isso sugere que os italianos obtêm, em média, pontuações de otimismo mais baixas.

A tabela a seguir é um exemplo de codificação fictícia com o francês como grupo de controle e C1, C2 e C3, respectivamente, sendo os códigos para italiano , alemão e outro (nem francês, nem italiano, nem alemão):

Nacionalidade C1 C2 C3
francês 0 0 0
italiano 1 0 0
alemão 0 1 0
De outros 0 0 1

Codificação de efeitos

No sistema de codificação de efeitos, os dados são analisados ​​por meio da comparação de um grupo com todos os outros grupos. Ao contrário da codificação fictícia, não há grupo de controle. Em vez disso, a comparação está sendo feita na média de todos os grupos combinados ( a agora é a grande média ). Portanto, não se busca dados em relação a outro grupo, mas sim em relação à grande média.

A codificação de efeitos pode ser ponderada ou não. A codificação de efeitos ponderados é simplesmente calcular uma grande média ponderada, levando em consideração o tamanho da amostra em cada variável. Isso é mais apropriado em situações em que a amostra é representativa da população em questão. A codificação de efeitos não ponderados é mais apropriada em situações em que as diferenças no tamanho da amostra são o resultado de fatores acidentais. A interpretação de b é diferente para cada um: nos efeitos não ponderados, a codificação b é a diferença entre a média do grupo experimental e a grande média, enquanto na situação ponderada é a média do grupo experimental menos a grande média ponderada.

Na codificação de efeitos, codificamos o grupo de interesse com 1, da mesma forma que faríamos para a codificação fictícia. A principal diferença é que codificamos -1 para o grupo em que estamos menos interessados. Como continuamos a usar um esquema de codificação g - 1, é de fato o grupo codificado -1 que não produzirá dados, daí o fato de que estão menos interessados ​​nesse grupo. Um código de 0 é atribuído a todos os outros grupos.

Os valores de b devem ser interpretados de forma que o grupo experimental esteja sendo comparado com a média de todos os grupos combinados (ou grande média ponderada no caso de codificação de efeitos ponderados). Portanto, produzir um valor de b negativo implicaria no grupo codificado como tendo pontuado menos do que a média de todos os grupos na variável dependente. Usando nosso exemplo anterior de pontuações de otimismo entre nacionalidades, se o grupo de interesse for de italianos, observar um valor b negativo sugere que eles obtêm uma pontuação de otimismo mais baixa.

A tabela a seguir é um exemplo de codificação de efeitos com Outro como o grupo de menor interesse.

Nacionalidade C1 C2 C3
francês 0 0 1
italiano 1 0 0
alemão 0 1 0
De outros -1 -1 -1

Codificação de contraste

O sistema de codificação de contraste permite que um pesquisador faça perguntas específicas diretamente. Em vez de ter o sistema de codificação ditar a comparação sendo feita (isto é, contra um grupo de controle como na codificação fictícia, ou contra todos os grupos como na codificação de efeitos), pode-se projetar uma comparação única atendendo a uma questão de pesquisa específica. Esta hipótese adaptada é geralmente baseada em teorias e / ou pesquisas anteriores. As hipóteses propostas são geralmente as seguintes: primeiro, há a hipótese central que postula uma grande diferença entre dois conjuntos de grupos; a segunda hipótese sugere que, dentro de cada conjunto, as diferenças entre os grupos são pequenas. Por meio de suas hipóteses focadas a priori , a codificação de contraste pode gerar um aumento no poder do teste estatístico quando comparado com os sistemas de codificação anteriores menos direcionados.

Certas diferenças surgem quando comparamos nossos coeficientes a priori entre ANOVA e regressão. Ao contrário de quando usado em ANOVA, onde fica a critério do pesquisador se eles escolhem valores de coeficientes ortogonais ou não ortogonais, na regressão, é essencial que os valores dos coeficientes atribuídos na codificação de contraste sejam ortogonais. Além disso, na regressão, os valores dos coeficientes devem estar na forma fracionária ou decimal. Eles não podem assumir valores de intervalo.

A construção de códigos de contraste é restrita por três regras:

  1. A soma dos coeficientes de contraste por cada variável de código deve ser igual a zero.
  2. A diferença entre a soma dos coeficientes positivos e a soma dos coeficientes negativos deve ser igual a 1.
  3. Variáveis ​​codificadas devem ser ortogonais.

A violação da regra 2 produz valores de R 2 e F precisos , indicando que chegaríamos às mesmas conclusões sobre se há ou não uma diferença significativa; no entanto, não podemos mais interpretar os valores de b como uma diferença média.

Para ilustrar a construção dos códigos de contraste, considere a tabela a seguir. Os coeficientes foram escolhidos para ilustrar nossas hipóteses a priori: Hipótese 1: Franceses e italianos terão pontuação mais alta em otimismo do que alemães (francês = +0,33, italiano = +0,33, alemão = -0,66). Isso é ilustrado pela atribuição do mesmo coeficiente às categorias francesa e italiana e outro diferente às alemãs. Os sinais atribuídos indicam a direção do relacionamento (portanto, dar aos alemães um sinal negativo é indicativo de suas pontuações de otimismo hipotéticas mais baixas). Hipótese 2: Espera-se que franceses e italianos difiram em suas pontuações de otimismo (francês = +0,50, italiano = -0,50, alemão = 0). Aqui, atribuir um valor zero aos alemães demonstra a sua não inclusão na análise desta hipótese. Novamente, os sinais atribuídos são indicativos da relação proposta.

Nacionalidade C1 C2
francês +0,33 +0,50
italiano +0,33 -0,50
alemão -0,66 0

Codificação sem sentido

A codificação sem sentido ocorre quando se usa valores arbitrários no lugar dos “0” s, “1” se “-1” s designados vistos nos sistemas de codificação anteriores. Embora produza valores médios corretos para as variáveis, o uso de codificação sem sentido não é recomendado, pois levará a resultados estatísticos não interpretáveis.

Embeddings

Embeddings são codificações de valores categóricos em espaços vetoriais de valor real de alta dimensão (às vezes de valor complexo ), geralmente de tal forma que valores "semelhantes" são atribuídos a vetores "semelhantes", ou em relação a algum outro tipo de critério tornando o vetores úteis para a respectiva aplicação. Um caso especial comum são embeddings de palavras , em que os valores possíveis da variável categórica são as palavras em um idioma e palavras com significados semelhantes devem receber vetores semelhantes.

Interações

Uma interação pode surgir quando se considera a relação entre três ou mais variáveis ​​e descreve uma situação em que a influência simultânea de duas variáveis ​​em uma terceira não é aditiva. As interações podem surgir com variáveis ​​categóricas de duas maneiras: categóricas por interações de variáveis ​​categóricas ou categóricas por interações de variáveis ​​contínuas.

Interações categóricas por variáveis ​​categóricas

Esse tipo de interação surge quando temos duas variáveis ​​categóricas. Para investigar esse tipo de interação, seria necessário codificar usando o sistema que aborda a hipótese do pesquisador de forma mais adequada. O produto dos códigos produz a interação. Pode-se então calcular o valor b e determinar se a interação é significativa.

Categórico por interações variáveis ​​contínuas

A análise de declives simples é um teste post hoc comum usado na regressão que é semelhante à análise de efeitos simples em ANOVA, usado para analisar interações. Neste teste, estamos examinando as inclinações simples de uma variável independente em valores específicos da outra variável independente. Esse teste não se limita ao uso com variáveis ​​contínuas, mas também pode ser empregado quando a variável independente é categórica. Não podemos simplesmente escolher valores para sondar a interação como faríamos no caso da variável contínua devido à natureza nominal dos dados (ou seja, no caso contínuo, pode-se analisar os dados em níveis alto, moderado e baixo atribuindo 1 desvio padrão acima da média, na média e em um desvio padrão abaixo da média, respectivamente). Em nosso caso categórico, usaríamos uma equação de regressão simples para cada grupo para investigar as inclinações simples. É prática comum padronizar ou centralizar variáveis ​​para tornar os dados mais interpretáveis ​​em análises simples de declives; no entanto, as variáveis ​​categóricas nunca devem ser padronizadas ou centralizadas. Este teste pode ser usado com todos os sistemas de codificação.

Veja também

Referências

Leitura adicional