Dados rotulados - Labeled data

Dados rotulados são um grupo de amostras que foram marcadas com um ou mais rótulos. A rotulagem geralmente pega um conjunto de dados não rotulados e aumenta cada parte deles com tags informativas. Por exemplo, um rótulo de dados pode indicar se uma foto contém um cavalo ou uma vaca, quais palavras foram ditas em uma gravação de áudio, que tipo de ação está sendo realizada em um vídeo, qual é o assunto de uma notícia, qual a sentimento de um tweet é, ou se um ponto em um raio-X é um tumor.

Os rótulos podem ser obtidos pedindo-se aos humanos que façam julgamentos sobre um dado dado não rotulado. Os dados rotulados são significativamente mais caros de se obter do que os dados não rotulados brutos.

Dados rotulados de crowdsourcing

Em 2006, Fei-Fei Li , codiretor do Stanford Human-Centered AI Institute, decidiu melhorar os modelos de inteligência artificial e algoritmos para reconhecimento de imagem, ampliando significativamente os dados de treinamento . Os pesquisadores baixaram milhões de imagens da World Wide Web e uma equipe de alunos de graduação começou a aplicar rótulos de objetos a cada imagem. Em 2007, Li terceirizou o trabalho de rotulagem de dados na Amazon Mechanical Turk , um mercado online para peças digitais . As 3,2 milhões de imagens rotuladas por mais de 49.000 trabalhadores formaram a base do ImageNet , um dos maiores bancos de dados rotulados à mão para reconhecimento de contorno de objetos .

Rotulagem de dados automatizada

Depois de obter um conjunto de dados rotulado, modelos de aprendizado de máquina podem ser aplicados aos dados para que novos dados não rotulados possam ser apresentados ao modelo e um rótulo provável possa ser adivinhado ou previsto para aquele pedaço de dados não rotulados.

Viés baseado em dados

A tomada de decisão algorítmica está sujeita ao viés do programador, bem como ao viés dos dados. Os dados de treinamento que dependem de dados rotulados de viés resultarão em preconceitos e omissões em um modelo preditivo , apesar do algoritmo de aprendizado de máquina ser legítimo. Os dados rotulados usados ​​para treinar um algoritmo de aprendizado de máquina específico precisam ser uma amostra estatisticamente representativa para não enviesar os resultados. Como os dados rotulados disponíveis para treinar sistemas de reconhecimento facial não são representativos de uma população, grupos sub-representados nos dados rotulados são posteriormente classificados incorretamente. Em 2018, um estudo de Joy Buolamwini e Timnit Gebru demonstrou que dois conjuntos de dados de análise facial que foram usados ​​para treinar algoritmos de reconhecimento facial, IJB-A e Adience, são compostos por 79,6% e 86,2% de humanos de pele mais clara, respectivamente.

Referências