Tipo de dados estatísticos - Statistical data type

Em estatísticas , de grupos individuais de dados pontos podem ser classificados como pertencentes a qualquer um de vários tipos de dados estatísticos , por exemplo categórica (, "azul", "verde" "vermelho"), número real (1,68, -5, 1,7E + 6) , número ímpar (1,3,5) etc. o tipo de dados é um componente fundamental do conteúdo semântico da variável, e que os tipos de controlos distribuições de probabilidade podem, logicamente, ser utilizados para descrever a variável, as operações permitidas na variável, o tipo de análises de regressão usadas para prever a variável, etc a noção de tipo de dados é semelhante ao conceito de nível de medição , mas mais específico: por exemplo, dados de contagem requerem uma distribuição diferente (por exemplo, uma distribuição de Poisson ou distribuição binomial ) do que os não-negativos de valor real de dados requerem, mas ambos caem sob o mesmo nível de medição (uma escala de proporções).

Várias tentativas têm sido feitas para produzir uma taxonomia de níveis de medição . O psychophysicist Stanley Smith Stevens definido escalas nominal, ordinais, intervalo e proporção. Medidas nominais não têm ordem de classificação significativa entre os valores, e permitir que qualquer transformação one-to-one. Medições ordinais têm diferenças imprecisas entre valores consecutivos, mas têm uma ordem significativa para esses valores, e permitir que qualquer transformação de preservação da ordem. Medições do intervalo têm distâncias significativas entre as medições definidas, mas o valor zero é arbitrária (como no caso com longitude e temperatura medidas em graus Celsius ou graus Fahrenheit ), e permitir que qualquer transformação linear. Medidas de proporção ter tanto um valor significativo zero e as distâncias entre os diferentes medições definidas, e permitir que qualquer transformação reescalonamento.

Porque variáveis em consonância apenas para medições nominais ou ordinais não pode ser razoavelmente medido numericamente, por vezes eles são agrupados em conjunto como variáveis categóricas , enquanto proporção e medições do intervalo são agrupados em conjunto como variáveis quantitativas , que podem ser tanto discreta ou contínua , devido à sua natureza numérica. Tais distinções muitas vezes pode ser vagamente correlacionados com o tipo de dados em ciência da computação, em que as variáveis categóricas dicotômicas pode ser representado com o tipo de dados Boolean , variáveis categóricas politômicos com arbitrariamente atribuídos números inteiros no tipo de dados integrado , e as variáveis contínuas com o tipo de dados reais envolvendo ponto flutuante computação. Mas o mapeamento de tipos de dados de ciência da computação para tipos de dados estatísticos depende de qual categorização deste último está sendo implementado.

Outros categorizações foram propostas. Por exemplo, Mosteller e Tukey (1977) graus distintos, ocupa, contadas fracções, condes, eleva-se, e contrapesos. Nelder (1990) descreveu a contagem contínuos, rácios contínuas, rácios de contagem, e os modos categóricas de dados. Veja também Chrisman (1998), van den Berg (1991).

A questão de saber se é ou não apropriado aplicar diferentes tipos de métodos estatísticos com os dados obtidos a partir de diferentes tipos de procedimentos de medição é complicada por questões relacionadas com a transformação de variáveis ​​ea interpretação precisa de questões de pesquisa. "A relação entre os dados e que eles descrevem apenas reflete o fato de que certos tipos de levantamentos estatísticos podem ter valores de verdade que não são invariantes sob algumas transformações. Seja ou não uma transformação é sensata para contemplar depende da pergunta se está tentando responder "(mão, 2004, p. 82).

tipos de dados simples

A tabela a seguir classifica os vários tipos simples de dados, distribuições associados, operações admissíveis, etc. Independentemente dos valores lógicos possíveis, todos esses tipos de dados geralmente são codificadas utilizando números reais , porque a teoria de variáveis aleatórias assume muitas vezes explicitamente que detêm verdadeira números.

Tipo de dados Valores possíveis exemplo de uso Nível de medição Distribuição Escala de diferenças relativas estatísticas admissíveis Análise de regressão
binário 0, 1 (etiquetas arbitrárias) resultado binário ( "sim / não", "verdadeiro / falso", "sucesso / fracasso", etc.) escala nominal Bernoulli incomparável modo , Qui-quadrado logística , probit
categórico 1, 2, ..., K (rótulos arbitrários) resultado categórico (específico tipo de sangue , partido político , palavra, etc.) categórico logit multinomial , probit multinomial
ordinal inteiro ou número real (escala arbitrária) pontuação relativa, significativa apenas para a criação de um ranking escala ordinal categórica ?? comparação relativa regressão ordinal ( logit ordenado , probit ordenado )
binômio 0, 1, ..., N número de sucessos (por exemplo, úteis sim) de N possível escala de intervalo ?? binomial , beta-binomial , etc. aditivo?? média , mediana , o modo , o desvio padrão , correlação regressão binomial ( logística , probit )
contagem não negativos inteiros (0, 1, ...) número de itens (telefonemas, as pessoas, moléculas, nascimentos, mortes, etc.) em determinado intervalo / área / volume escala de razão De Poisson , binomial negativo , etc. multiplicativo Todas as estatísticas permitidas para escalas de intervalo mais o seguinte: média geométrica , média harmónica , coeficiente de variação Poisson , regressão binomial negativa
valor real aditivo número real temperatura, distância relativa, parâmetro local , etc (ou aproximadamente, tudo o que não varia numa larga escala) escala de intervalo normais , etc (geralmente simétricas em torno da média ) aditivo média , mediana , o modo , o desvio padrão , correlação padrão de regressão linear
valor real multiplicativo positivo número real preço, renda, tamanho, parâmetro de escala , etc. (especialmente quando variando ao longo de um grande escala) escala de razão log-normal , gama , exponencial , etc (geralmente um enviesada distribuição) multiplicativo Todas as estatísticas permitidas para escalas de intervalo mais o seguinte: média geométrica , média harmónica , coeficiente de variação modelo linear generalizado com logarítmica ligação

tipos de dados multivariados

Dados que não podem ser descritos utilizando um único número são muitas vezes shoehorned em vetores aleatórios de valor real variáveis aleatórias , embora haja uma tendência crescente para tratá-los por conta própria. Alguns exemplos:

  • Vetores aleatórios . Os elementos individuais podem ou não podem ser correlacionados . Os exemplos de distribuições utilizados para descrever vectores aleatórios são correlacionados a distribuição normal multivariada e distribuição t multivariada . Em geral, pode haver correlações arbitrárias entre quaisquer elementos e quaisquer outros; no entanto, isso muitas vezes torna-se incontrolável acima de um certo tamanho, necessitando de mais restrições sobre os elementos correlacionados.
  • Matrizes aleatórias . Matrizes aleatórias podem ser dispostos de forma linear e tratado como vectores aleatórios; no entanto, isto pode não ser uma forma eficaz de representar as correlações entre os diferentes elementos. Alguns distribuições de probabilidade são especificamente concebidos para matrizes aleatórios, por exemplo, a distribuição normal matriz e distribuição Wishart .
  • Sequências aleatórias . Estes são, por vezes, considerado como sendo o mesmo como vectores aleatórios, mas em outros casos, o termo é aplicado especificamente aos casos em que cada variável aleatória é apenas correlacionadas com variáveis nas proximidades (como num modelo de Markov ). Este é um caso particular de uma rede de Bayes e frequentemente usado para sequências muito longas, por exemplo, sequências de genes ou documentos de texto longas. Um número de modelos são especificamente concebidos para tais sequências, por exemplo, modelos de Markov escondidos .
  • Processos aleatórios . Estes são semelhantes às sequências aleatórias, mas em que o comprimento da sequência é indefinido ou infinita e os elementos da sequência são processados um-a-um. Isto é frequentemente usado para dados que podem ser descritos como uma série de tempo , por exemplo, o preço de uma ação em dias sucessivos. Processos aleatórios são também utilizados para modelar valores que variam continuamente (por exemplo a temperatura em momentos sucessivos no tempo), em vez da intervalos discretos.
  • Redes de Bayes . Estes correspondem aos agregados de variáveis aleatórias descritos utilizando modelos gráficos , onde as variáveis aleatórias individuais são ligados em um gráfico de estrutura com distribuições condicionais relativas variáveis para variáveis nas proximidades.
  • Campos aleatórios . Estes representam a extensão de processos aleatórios para várias dimensões, e são comuns em física , onde eles são utilizados em mecânica estatística para descrever as propriedades tais como força ou do campo eléctrico que pode variar continuamente ao longo de três dimensões (ou quatro dimensões, quando o tempo está incluído) .

Estes conceitos têm origem em vários campos científicos e freqüentemente se sobrepõem em uso. Como resultado, é muito frequentemente o caso que vários conceitos poderia ser aplicada ao mesmo problema.

Referências