incorporação de vizinho estocástico distribuído em t - t-distributed stochastic neighbor embedding

A incorporação de vizinhos estocásticos com distribuição t ( t-SNE ) é um método estatístico para visualizar dados de alta dimensão, dando a cada ponto de dados uma localização em um mapa bidimensional ou tridimensional. É baseado no Stochastic Neighbour Embedding, originalmente desenvolvido por Sam Roweis e Geoffrey Hinton , onde Laurens van der Maaten propôs a variante t- distribuída . É uma técnica de redução de dimensionalidade não linear adequada para incorporar dados de alta dimensão para visualização em um espaço de baixa dimensão de duas ou três dimensões. Especificamente, ele modela cada objeto de alta dimensão por um ponto bidimensional ou tridimensional de tal forma que objetos semelhantes são modelados por pontos próximos e objetos diferentes são modelados por pontos distantes com alta probabilidade.

O algoritmo t-SNE compreende dois estágios principais. Em primeiro lugar, t-SNE constrói uma distribuição de probabilidade sobre pares de objetos de dimensões altas de tal forma que objetos semelhantes são atribuídos a uma probabilidade mais alta, enquanto pontos diferentes são atribuídos a uma probabilidade mais baixa. Em segundo lugar, t-SNE define uma distribuição de probabilidade semelhante sobre os pontos no mapa de baixa dimensão e minimiza a divergência de Kullback-Leibler (divergência KL) entre as duas distribuições com respeito às localizações dos pontos no mapa. Embora o algoritmo original use a distância euclidiana entre objetos como a base de sua métrica de similaridade, isso pode ser alterado conforme apropriado.

t-SNE tem sido usado para visualização em uma ampla gama de aplicações, incluindo genômica , pesquisa de segurança de computador , processamento de linguagem natural, análise de música , pesquisa de câncer , bioinformática , interpretação de domínio geológico e processamento de sinal biomédico.

Embora os gráficos t-SNE muitas vezes pareçam exibir clusters , os clusters visuais podem ser fortemente influenciados pela parametrização escolhida e, portanto, é necessário um bom entendimento dos parâmetros para t-SNE. Esses "clusters" podem aparecer até mesmo em dados não agrupados e, portanto, podem ser descobertas falsas. A exploração interativa pode, portanto, ser necessária para escolher os parâmetros e validar os resultados. Foi demonstrado que t-SNE é frequentemente capaz de recuperar clusters bem separados e, com escolhas de parâmetros especiais, aproxima-se de uma forma simples de clustering espectral .

Detalhes

Dado um conjunto de objetos de alta dimensão , t-SNE primeiro calcula as probabilidades que são proporcionais à similaridade dos objetos e , como segue.

Para definir

e definido . Observe isso para todos .

Como Van der Maaten e Hinton explicaram: "A semelhança do ponto de dados com o ponto de dados é a probabilidade condicional , que escolheria como seu vizinho se os vizinhos fossem escolhidos em proporção à sua densidade de probabilidade sob um Gaussiano centrado em ."

Agora defina

e note que , , e .

A largura de banda dos núcleos gaussianos é definida de tal forma que a perplexidade da distribuição condicional é igual a uma perplexidade predefinida usando o método da bissecção . Como resultado, a largura de banda é adaptada à densidade dos dados: valores menores de são usados ​​em partes mais densas do espaço de dados.

Como o kernel gaussiano usa a distância euclidiana , ele é afetado pela maldição da dimensionalidade e, em dados de alta dimensão, quando as distâncias perdem a capacidade de discriminar, tornam-se muito semelhantes (assintoticamente, convergiriam para uma constante). Foi proposto ajustar as distâncias com uma transformação de potência, com base na dimensão intrínseca de cada ponto, para amenizar isso.

t-SNE visa aprender um mapa -dimensional (com ) que reflete as semelhanças da melhor forma possível. Para tal, mede semelhanças entre dois pontos do mapa e , utilizando uma abordagem muito semelhante. Especificamente, para , definir como

e definido . Aqui, uma distribuição t de Student de cauda pesada (com um grau de liberdade, que é o mesmo que uma distribuição de Cauchy ) é usada para medir semelhanças entre pontos de baixa dimensão, a fim de permitir que objetos diferentes sejam modelados distantes no mapa .

As localizações dos pontos no mapa são determinadas minimizando a divergência (não simétrica) de Kullback-Leibler da distribuição da distribuição , ou seja:

A minimização da divergência de Kullback-Leibler em relação aos pontos é realizada usando gradiente descendente . O resultado dessa otimização é um mapa que reflete as semelhanças entre as entradas de alta dimensão.

Programas

  • O pacote de R Rtsne implementos t-PND em R .
  • ELKI contém tSNE, também com aproximação de Barnes-Hut
  • Scikit-learn , um popular kit de ferramentas de aprendizado de máquina em python, implementa t-SNE com soluções exatas e a aproximação de Barnes-Hut.
  • Tensorboard, o kit de visualização associado ao TensorFlow , também implementa t-SNE ( versão online )

Referências

links externos