Conjunto de dados - Data set

Um conjunto de dados (ou conjunto de dados ) é uma coleção de dados . No caso de dados tabulares, um conjunto de dados corresponde a uma ou mais tabelas do banco de dados , onde cada coluna de uma tabela representa uma variável particular , e cada linha corresponde a um determinado registro do conjunto de dados em questão. O conjunto de dados lista valores para cada uma das variáveis, como altura e peso de um objeto, para cada membro do conjunto de dados. Cada valor é conhecido como datum. Os conjuntos de dados também podem consistir em uma coleção de documentos ou arquivos.

Na disciplina de dados abertos , conjunto de dados é a unidade para medir as informações divulgadas em um repositório público de dados abertos. O portal europeu de dados abertos agrega mais de meio milhão de conjuntos de dados. Alguns outros problemas (fontes de dados em tempo real, conjuntos de dados não relacionais, etc.) aumentam a dificuldade de se chegar a um consenso sobre isso.

Propriedades

Várias características definem a estrutura e as propriedades de um conjunto de dados. Isso inclui o número e os tipos de atributos ou variáveis ​​e várias medidas estatísticas aplicáveis ​​a eles, como desvio padrão e curtose .

Os valores podem ser números, como números reais ou inteiros , por exemplo, representando a altura de uma pessoa em centímetros, mas também podem ser dados nominais (ou seja, não consistindo em valores numéricos ), por exemplo, representando a etnia de uma pessoa. Mais geralmente, os valores podem ser de qualquer um dos tipos descritos como um nível de medição . Para cada variável, os valores são normalmente todos do mesmo tipo. No entanto, também pode haver valores ausentes , que devem ser indicados de alguma forma.

Em estatística , os conjuntos de dados geralmente vêm de observações reais obtidas por amostragem de uma população estatística , e cada linha corresponde às observações em um elemento dessa população. Conjuntos de dados podem ainda ser gerados por algoritmos com a finalidade de testar certos tipos de software . Alguns softwares de análise estatística modernos, como o SPSS, ainda apresentam seus dados da maneira clássica de conjunto de dados. Se houver dados ausentes ou houver suspeita, um método de imputação pode ser usado para completar um conjunto de dados.

Conjuntos de dados clássicos

Vários conjuntos de dados clássicos foram usados ​​extensivamente na literatura estatística :

Veja também

Referências

links externos