aprendizagem profunda - Deep learning


Da Wikipédia, a enciclopédia livre

Aprendizagem profunda (também conhecido como aprendizagem estruturada profunda ou aprendizagem hierárquica ) é parte de uma família mais ampla de aprendizado de máquina métodos baseados na aprendizagem de representações de dados , em oposição a tarefa específica-algoritmos. A aprendizagem pode ser supervisionado , semi-supervisionado ou não supervisionado .

Arquiteturas de aprendizagem profundas tais como redes neurais profundas , redes de crenças profundas e redes neurais recorrentes foram aplicados em campos incluindo visão computacional , reconhecimento de voz , processamento de linguagem natural , reconhecimento de áudio, filtragem de rede social, tradução automática , bioinformática , a concepção de medicamentos , a análise de imagens médicas , inspeção de materiais e jogo de tabuleiro programas, onde eles têm produzido resultados comparável e, em alguns casos superiores aos especialistas humanos.

Modelos de aprendizagem profundas são vagamente inspirado pelo processamento de informações e padrões de comunicação em biológicas sistemas nervosos ainda têm várias diferenças em relação às propriedades estruturais e funcionais de biológicas cérebros (especialmente o cérebro humano ), que os tornam incompatíveis com a neurociência evidências.

Definição

Aprendizagem profunda é uma classe de aprendizado de máquina algoritmos que:

  • utilizar uma cascata de camadas múltiplas de processamento não-lineares de unidades de extracção de características e de transformação. Cada camada sucessiva usa a saída a partir da camada anterior como entrada.
  • aprender supervisionado (por exemplo, classificação) e / ou sem supervisão (por exemplo, análise de padrões) maneiras.
  • aprender vários níveis de representações que correspondem a diferentes níveis de abstração; os níveis formam uma hierarquia de conceitos.

visão global

A maioria dos modelos modernos de aprendizagem profundas são baseadas em uma rede neural artificial , embora eles também podem incluir fórmulas proposicionais ou variáveis latentes organizados camada-wise em profundas modelos generativas , tais como os nós de redes de crenças profundas e profundas máquinas Boltzmann .

Na aprendizagem profunda, cada nível aprende a transformar seus dados de entrada em uma representação um pouco mais abstrato e composto. Em um pedido de reconhecimento de imagem, a entrada em bruto pode ser uma matriz de pixels; a primeira camada de representação pode resumo dos pixels e as bordas codificam; a segunda camada pode compor e arranjos codificam bordas; a terceira camada pode codificar um nariz e olhos; e a quarta camada pode reconhecer que a imagem contém um rosto. Importante, um processo de aprendizagem profunda pode aprender quais recursos para colocar de forma otimizada em que nível por conta própria . (Naturalmente, este não elimina completamente a necessidade de mão-de sintonização, por exemplo, variando o número de camadas e tamanhos camada pode proporcionar diferentes graus de abstracção.)

O "fundo" em "aprendizagem profunda" refere-se ao número de camadas através da qual os dados são transformados. Mais precisamente, sistemas de aprendizagem profundas têm um substancial caminho cessão de crédito de profundidade (CAP). O PAC é a cadeia de transformações da entrada para a saída. CAPs descrever as ligações potencialmente causais entre a entrada ea saída. Para uma rede neural de alimentação de entrada , a profundidade das CAP é o da rede e é o número de camadas escondidas mais um (como a camada de saída também é parametrizada). Para redes neurais recorrentes , no qual um sinal pode se propagam através de uma camada mais de uma vez, a profundidade CAP é potencialmente ilimitado. Universalmente acordado limite de profundidade divide aprendizagem rasa de aprendizagem profunda, mas a maioria dos pesquisadores concorda que a aprendizagem profunda envolve CAP profundidade> 2. CAP de profundidade 2 foi mostrado para ser um aproximador universal no sentido de que pode imitar qualquer função. Além de que mais camadas não adicionar à capacidade função aproximador da rede. Modelos profundas (PAC> 2) são capazes de extrair características melhores do que os modelos rasas e, portanto, camadas extras ajudar em recursos de aprendizagem.

Arquiteturas de aprendizagem profundas são muitas vezes construídos com um ganancioso método camada por camada. Aprendizagem profunda ajuda a separar essas abstrações e escolher quais recursos melhorar o desempenho.

Para aprendizado supervisionado tarefas, métodos de aprendizagem profundas obviar engenharia recurso , por traduzir os dados em representações intermediárias compacto semelhante ao de componentes principais , e derivar estruturas em camadas que removem redundância na representação.

Algoritmos de aprendizagem profundas pode ser aplicada a tarefas de aprendizagem sem supervisão. Este é um benefício importante porque os dados não marcados são mais abundantes do que os dados rotulados. Exemplos de estruturas profundas que podem ser treinados de forma não supervisionada são compressores de história neurais e redes de crenças profundas .

interpretações

Redes neurais profundas são geralmente interpretadas em termos do teorema de aproximação universal ou inferência probabilística .

O teorema de aproximação universal diz respeito à capacidade das redes neurais feedforward com uma única camada oculta de tamanho finito para aproximar funções contínuas . Em 1989, a primeira prova foi publicado por George Cybenko para sigmóide funções de activação e foi generalizado para feed-forward arquiteturas de multi-camada em 1991 por Kurt Hornik.

O probabilística interpretação deriva do campo da aprendizagem de máquina . Possui inferência, bem como os de otimização conceitos de treinamento e testes , relacionados com a montagem e generalização , respectivamente. Mais especificamente, a interpretação probabilística considera a não linearidade de activação como uma função de distribuição cumulativa . A interpretação probabilística levou à introdução de abandono como regularizer em redes neurais. A interpretação probabilística foi introduzido por pesquisadores, incluindo Hopfield , Widrow e Narendra e popularizado em pesquisas, como o de Bishop .

História

O termo profunda Aprendizagem foi introduzida para a comunidade de aprendizado de máquina por Rina Dechter em 1986, e redes neurais artificiais por Igor Aizenberg e colegas em 2000, no contexto de neurônios limiar booleanas.

O primeiro geral, trabalhando algoritmo de aprendizagem para supervisionado, profundo, feedforward, multicamadas perceptrons foi publicado por Alexey Ivakhnenko e Lapa em 1965. Um artigo escrito em 1971 descreveu uma rede profunda com 8 camadas treinados pelo método grupo de manipulação de dados algoritmo.

Outras arquiteturas de aprendizagem trabalhando profundas, especificamente aqueles construídos para visão computacional , começou com a Neocognitron introduzido por Kunihiko Fukushima em 1980. Em 1989, Yann LeCun et al. aplicado o algoritmo backpropagation padrão, que tinha sido em torno de como o modo reverso da diferenciação automática desde 1970, a uma rede neural profunda com a finalidade de reconhecer manuscritas códigos postais no correio. Enquanto o algoritmo trabalhou, a formação exigida 3 dias.

Foram utilizados por 1,991 tais sistemas para o reconhecimento de isolados 2-D dígitos escritos à mão, apesar de reconhecer objectos 3-D foi realizada por correspondentes imagens de 2-D com um modelo de objectos 3-D artesanais. Weng et ai. sugerido que um cérebro humano não usa um modelo de objectos 3-D monolítica e, em 1992, publicada eles Cresceptron, um método para a realização de 3-D de reconhecimento de objectos em cenas desordenado. Porque é usado diretamente imagens naturais, Cresceptron começou o início da aprendizagem visual de propósito geral para mundos 3D naturais. Cresceptron é uma cascata de camadas semelhantes a Neocognitron. Mas enquanto Neocognitron necessário um programador humano para características mão-fundir, Cresceptron aprendeu um número aberto de recursos em cada camada sem supervisão, onde cada recurso é representado por um núcleo de convolução . Cresceptron segmentado cada objeto aprendeu com uma cena desordenada através de back-análise através da rede. Max pooling , agora muitas vezes adoptada por redes neurais profundas (por exemplo IMAGEnet testes), foi utilizado pela primeira vez em Cresceptron para reduzir a resolução da posição por um factor de (2x2) para 1 através da cascata para melhor generalização.

Em 1994, André de Carvalho, em conjunto com o Mike Fairhurst e David Bisset, publicada resultados experimentais de uma multi-camada booleano rede neural, também conhecido como uma rede neural peso, composto de um 3-camadas de extracção de características de auto-organização do módulo de rede neural ( SOFT) seguido de um módulo de rede neural de classificação de multi-camada (GSN), que foram treinados independentemente. Cada camada no módulo de extracção de características extraído com características complexidade crescente sobre a camada anterior.

Em 1995, Brendan Frey demonstrou que era possível treinar (mais de dois dias) uma rede que contém seis camadas totalmente conectados e várias centenas de unidades escondidas usando o algoritmo de vigília-sono , co-desenvolvido com Peter Dayan e Hinton . Muitos fatores contribuem para a marcha lenta, incluindo o problema gradiente desaparecendo analisadas em 1991 por Sepp Hochreiter .

Modelos mais simples que usam recursos artesanais de tarefas específicas, tais como filtros de Gabor e máquinas de vetor de suporte (SVM) foram uma escolha popular nos anos 1990 e 2000, por causa do custo computacional RNAs e uma falta de compreensão de como os fios cerebrais suas redes biológicas.

Ambos aprendizagem rasas e profundas (por exemplo, redes recorrentes) de RNAs têm sido exploradas por muitos anos. Estes métodos não superou não-uniforme de Gauss-interno confecção modelo de mistura / modelo de Markov escondido tecnologia (GMM-HMM) com base em modelos generativas da fala treinados discriminativamente. Dificuldades principais foram analisados, incluindo diminuição do gradiente e estrutura fraca correlação temporal em modelos preditivos neurais. Dificuldades adicionais foram a falta de dados de treinamento e poder de computação limitado.

A maioria de reconhecimento de fala pesquisadores se afastou de redes neurais para perseguir modelagem generativa. Uma exceção foi a SRI International no final de 1990. Financiado pelo governo dos EUA NSA e DARPA , SRI estudou redes neurais profundas na fala e reconhecimento de voz. Equipe de reconhecimento de voz do Heck alcançado o primeiro sucesso significativo com redes neurais profundas no processamento de discurso em 1998 Instituto Nacional de Padrões e Tecnologia de avaliação reconhecimento de voz. Enquanto SRI experimentou o sucesso com redes neurais profundas no reconhecimento de voz, eles não tiveram sucesso em demonstrar sucesso semelhante no reconhecimento de fala. O princípio de elevar características "brutos" mais de otimização artesanal foi explorado pela primeira vez com sucesso na arquitetura de autoencoder profunda sobre o espectrograma "raw" ou recursos de filtro de banco lineares no final de 1990, mostrando a sua superioridade sobre as características Mel-Cepstral que conter fases de transformação fixo de espectrogramas. As características de matérias-discurso, formas de onda , produzida mais tarde excelentes resultados em maior escala.

Foram levados muitos aspectos de reconhecimento de voz sobre por um método de aprendizagem profunda chamada de longa memória de curto prazo (LSTM), uma rede neural recorrente publicado pela Hochreiter e Schmidhuber em 1997. RNNs LSTM evitar o problema gradiente desaparecendo e pode aprender "Aprender muito profunda" tarefas que exigem memórias de eventos que aconteceram milhares de passos de tempo discretos antes, o que é importante para o discurso. Em 2003, LSTM começou a se tornar competitivo com reconhecimento de voz tradicionais em determinadas tarefas. Mais tarde, foi combinada com a classificação temporais connectionist (CTC), em pilhas de LSTM RNNs. Em 2015, o reconhecimento de voz do Google teria experimentado um dramático salto de desempenho de 49% através de LSTM CTC-treinados, o que eles fizeram disponível através do Google Voice Search .

Em 2006, as publicações por Geoff Hinton , Ruslan Salakhutdinov, Osindero e Teh mostrou como uma de muitas camadas de rede feedforward neural poderia ser efetivamente pré-treinado uma camada de cada vez, tratar cada camada, por sua vez como um sem supervisão máquina de Boltzmann restrito , então bom- sintonizando-lo usando supervisionado backpropagation . Os documentos a que se refere o aprendizado para redes de crenças profundas.

Aprendizagem profunda faz parte dos sistemas de state-of-the-art em várias disciplinas, particularmente visão computacional e reconhecimento automático de fala (ASR). Resultados em conjuntos de avaliação comumente utilizadas, tais como TIMIT (ASR) e MNIST ( classificação de imagens ), bem como uma série de tarefas de grande vocabulário de reconhecimento de voz têm vindo a melhorar. Redes neurais convolucionais (CNNs) foram substituídos por ASR pelo CTC para LSTM. mas são mais bem sucedidos em visão computacional.

O impacto da aprendizagem profunda na indústria começou no início de 2000, quando CNNs já processadas cerca de 10% a 20% de todos os cheques emitidos nos EUA, de acordo com Yann LeCun. aplicações industriais de aprendizagem profunda para o reconhecimento de voz em larga escala começou por volta de 2010.

O NIPS Workshop de 2009 sobre profunda aprendizagem para reconhecimento de fala foi motivada pelas limitações dos modelos generativas profundas do discurso, ea possibilidade de que determinado hardware mais capaz e dados em larga escala estabelece que as redes neurais profundas (DNN) pode tornar-se prático. Acreditava-se que DNNs pré-treinamento usando modelos geradores de redes de crenças profundas (DBN) pudesse superar as principais dificuldades de redes neurais. No entanto, descobriu-se que a substituição de pré-formação com grandes quantidades de dados de formação para retropropagação simples quando se utiliza DNNs com grandes camadas de saída, dependente do contexto taxas de erro produzidos dramaticamente mais baixos do que, em seguida, de estado-da-arte modelo de mistura Gaussiana (GMM ) / oculto de Markov modelo (HMM) e também do que os sistemas com base em modelo generativas mais avançados. A natureza dos erros de reconhecimento produzidos pelos dois tipos de sistemas era caracteristicamente diferente, oferecendo informações técnicas sobre como integrar o aprendizado profundamente no tempo de execução sistema existente altamente eficiente, decodificação discurso implantado por todos os principais sistemas de reconhecimento de voz. Análise em torno 2009-2010, contrastou o GMM (e outros modelos fala generativas) vs. modelos DNN, estimularam o investimento industrial no início de aprendizagem profunda para reconhecimento de voz, o que levou ao uso generalizado e dominante nesse setor. Essa análise foi feita com desempenho comparável (menos de 1,5% na taxa de erro) entre DNNs discriminativos e modelos generativas.

Em 2010, os pesquisadores estendido aprendizagem profunda de TIMIT ao reconhecimento de fala grande vocabulário, através da adopção de grandes camadas da DNN saída com base em estados HMM dependentes do contexto construídos por árvores de decisão .

Avanços em hardware habilitado o interesse renovado. Em 2009, a Nvidia estava envolvido no que foi chamado de “big bang” de aprendizagem profunda “como redes neurais profundas-learning foram treinados com Nvidia unidades de processamento gráfico (GPUs).” Naquele ano, o Google Cérebro usado Nvidia GPUs para criar DNNs capazes . Enquanto estava lá, Ng determinou que GPUs poderia aumentar a velocidade de sistemas de aprendizagem de profundidade por cerca de 100 vezes. Em particular, as GPUs estão bem adaptados para as contas de matriz / vector envolvido na aprendizagem máquina. GPUs acelerar algoritmos de treinamento por ordens de magnitude, reduzindo tempos de execução de semanas para dias. Otimizações de hardware e algoritmo especializadas podem ser utilizados para o processamento eficiente.

revolução aprendizagem profunda

Em 2012, uma equipe liderada por Dahl ganhou o "Atividade Desafio Merck Molecular" usando multi-tarefa redes neurais profundas para prever o alvo biomolecular de uma droga. Em 2014, o grupo de Hochreiter usado aprendizagem profunda para detectar fora do alvo e os efeitos tóxicos de substâncias químicas ambientais em nutrientes, produtos domésticos e drogas e ganhou o "Desafio de Dados Tox21" do NIH , FDA e NCATS .

Impactos adicionais significativas na imagem ou objeto de reconhecimento foram sentidos a partir de 2011 a 2012. Embora CNNs treinadas por retropropagação tinha sido em torno de décadas, e implementações de GPU de NNs durante anos, incluindo CNNs, implementações rápidas de CNNs com max-pooling em GPUs no estilo de Ciresan e seus colegas foram necessários para progredir em visão computacional. Em 2011, esta abordagem alcançado pela primeira desempenho sobre-humana vez em um concurso de reconhecimento de padrão visual. Também em 2011, ele ganhou o concurso de caligrafia ICDAR chinesa, e em maio de 2012, ele ganhou o concurso de segmentação de imagens ISBI. Até 2011, CNNs não desempenham um papel importante em conferências de visão por computador, mas em Junho de 2012, um artigo de Ciresan et al. na conferência de liderança CVPR mostrou como max-pooling CNNs na GPU pode melhorar drasticamente muitos registros visão de benchmark. Em Outubro de 2012, um sistema semelhante por Krizhevsky et al. ganhou o grande escala competição IMAGEnet por uma margem significativa em relação aos métodos de aprendizado de máquina rasas. Em novembro de 2012, Ciresan et al. Sistema também ganhou o concurso ICPR na análise de grandes imagens médicas para a detecção de câncer, e no ano seguinte também o MICCAI Grand Challenge sobre o mesmo tema. Em 2013 e 2014, a taxa de erro na tarefa IMAGEnet usando aprendizagem profunda foi reduzido ainda mais, seguindo uma tendência semelhante no reconhecimento de fala em grande escala. O Wolfram projecto Identificação Imagem divulgada essas melhorias.

classificação de imagens foi então estendido para a tarefa mais desafiadora das descrições (geradores de legendas) para imagens, muitas vezes como uma combinação de CNNs e LSTMs.

Alguns pesquisadores avaliam que o IMAGEnet vitória outubro 2012 ancorado o início de uma "revolução aprendizagem profunda" que transformou a indústria da AI.

Redes neurais

Redes neurais artificiais

Redes neurais artificiais ( RNAs ) ou conexionistas sistemas são sistemas inspirados pelos computação redes neurais biológicas que constituem cérebros de animais. Tais sistemas Learn (melhorar progressivamente a sua capacidade) para fazer tarefas por exemplos considerando, geralmente sem programação de tarefas específicas. Por exemplo, no reconhecimento de imagem, eles podem aprender a identificar imagens que contêm gatos através da análise de imagens de exemplo que foram manualmente rotulados como "gato" ou "nenhum gato" e usando os resultados analíticos para identificar gatos em outras imagens. Eles descobriram mais uso em aplicações difíceis de expressar com um algoritmo de computador tradicional, usando programação baseada em regras .

Uma rede neural é baseada num conjunto de unidades interligadas chamados neurónios artificiais , (análogos aos neurónios biológicos num cérebro biológica ). Cada conexão ( sinapse ) entre neurónios pode transmitir um sinal para outro neurónio. O receptor (pós-sinápticos) neurónio pode processar o sinal (s) e, em seguida, os neurónios sinal a jusante que lhe estão ligados. Neurónios pode ter estado, geralmente representado por números reais , tipicamente entre 0 e 1. Os neurónios e sinapses pode também ter um peso que varia à medida que prossegue de aprendizagem, o que pode aumentar ou diminuir a intensidade do sinal que ele envia a jusante.

Tipicamente, os neurónios são organizados em camadas. camadas diferentes podem executar diferentes tipos de transformações em suas entradas. Os sinais viajam desde a primeira (entrada), para a última camada (de saída), possivelmente, depois de atravessar as camadas múltiplas vezes.

O objetivo original da abordagem da rede neural foi para resolver problemas da mesma maneira que um cérebro humano faria. Com o tempo, a atenção focada em combinar habilidades mentais específicos, levando a desvios da biologia, como backpropagation, ou passar informações no sentido inverso e ajustando a rede para refletir essa informação.

As redes neurais têm sido usados em uma variedade de tarefas, incluindo visão computacional, reconhecimento de voz , tradução automática , rede social de filtragem, jogar jogos de tabuleiro e vídeo e diagnóstico médico.

A partir de 2017, as redes neurais têm tipicamente alguns milhares a alguns milhões de unidades e milhões de conexões. Apesar de este número ser várias ordens de magnitude menor do que o número de neurônios em um cérebro humano, estas redes podem executar muitas tarefas em um nível além dos seres humanos (por exemplo, reconhecer rostos, tocando "Go").

redes neurais profundas

Uma rede neural de profundidade (DNN) é uma rede neural artificial (RNA) com múltiplas camadas entre as camadas de entrada e de saída. O DNN encontra a manipulação matemática correcta para ligar a entrada para a saída, quer se trate de uma relação linear ou uma relação não linear. A rede move-se através das camadas de calcular a probabilidade de cada saída. Por exemplo, um DNN que é treinado para reconhecer raças de cães vai passar por cima da imagem dada e calcular a probabilidade de que o cão na imagem é uma determinada raça. O usuário pode rever os resultados e selecionar quais as probabilidades da rede deve exibir (acima de um certo limiar, etc.) e retornar o rótulo proposto. Cada manipulação matemática, como tal, é considerado uma camada, e complexo DNN tem muitas camadas, daí o nome redes "profundas". O objetivo é que, eventualmente, a rede irá ser treinado para se decompor uma imagem em características , identificar as tendências que existem em todas as amostras e classificar novas imagens por suas semelhanças sem a necessidade de intervenção humana.

DNNs pode modelar relacionamentos não-lineares complexas. Arquitecturas DNN gerar modelos de composição em que o objecto é expressa como uma composição em camadas de primitivos . As camadas extras permitir composição de características a partir de camadas mais baixas, potencialmente modelagem de dados complexos com menos unidades do que uma rede superficial semelhante realizar.

arquiteturas profundas incluem muitas variantes de algumas abordagens básicas. Cada arquitetura tem encontrado sucesso em domínios específicos. Nem sempre é possível comparar o desempenho de múltiplas arquiteturas, a menos que tenham sido avaliados nos mesmos conjuntos de dados.

DNNs são tipicamente redes feedforward em que os fluxos de dados a partir da camada de entrada para a camada de saída sem loop de volta. No primeiro, o DNN cria um mapa de neurónios virtuais e atribui valores numéricos aleatórios, ou de "pesos", de conexões entre elas. Os pesos e as entradas são multiplicados e retornar uma saída entre 0 e 1. Se a rede não reconhecer com precisão um padrão particular, um algoritmo que ajustar os pesos. Dessa forma, o algoritmo pode fazer certos parâmetros mais influente, até que determina a manipulação matemática correta para processar totalmente os dados.

Redes neurais recorrentes (RNNs), em que os dados podem fluir em qualquer direcção, são utilizados para aplicações tais como a linguagem de modelagem . A memória de longo-curto prazo é particularmente eficaz para este uso.

Redes neurais profundas convolucionais (CNNs) são usados em visão computacional. RNCs também foram aplicados a modelação acústica para o reconhecimento automático de voz (ASR).

desafios

Tal como acontece com RNAs, muitos problemas podem surgir com DNNs ingenuamente treinados. Dois problemas comuns são overfitting e tempo de computação.

DNNs são propensas a overfitting por causa das camadas adicionais de abstração, que lhes permitem modelar dependências raros nos dados de treinamento. Regularização métodos tais como a poda ou unidade de Ivakhnenko peso decaimento ( -regularization) ou dispersão ( -regularization) pode ser aplicado durante o treino para combater overfitting. Alternativamente dropout regularização omite aleatoriamente unidades de camadas escondidas durante o treino. Isso ajuda a excluir dependências raras. Finalmente, os dados podem ser aumentados através de métodos tais como corte e de rotação tal que conjuntos de treino mais pequenas pode ser aumentada em tamanho para reduzir as chances de overfitting.

DNNs deve considerar muitos parâmetros de formação, tais como o tamanho (número de camadas e o número de unidades por camada), a taxa de aprendizagem, e os pesos iniciais. Varrendo o espaço de parâmetros para parâmetros ideais pode não ser viável devido ao custo em tempo e recursos computacionais. Vários truques, tais como tratamento por lotes (computar o gradiente em vários exemplos de formação de uma só vez em vez de exemplos individuais) acelerar a computação. Capacidades de processamento de grandes arquitecturas muitos núcleos (tais como, as GPUs ou o Intel Xeon Phi) produziram aumentos de velocidade significativas na formação, por causa da adequação de tais arquitecturas de processamento para a matriz e vector computações.

Alternativamente, os engenheiros podem olhar para outros tipos de redes neurais com algoritmos de treinamento mais simples e convergentes. CMAC ( controlador de modelo articulação cerebelar ) é um tal tipo de rede neural. Ele não requer taxas de aprendizagem ou pesos iniciais aleatórios para CMAC. O processo de formação pode ser garantido para convergir em um passo com uma nova fornada de dados, e a complexidade computacional do algoritmo de formação é linear em relação ao número de neurónios envolvidos.

aplicações

Reconhecimento Automático de Fala

Em larga escala de reconhecimento automático de fala é o primeiro e mais convincente caso de sucesso de aprendizagem profunda. LSTM RNNs pode aprender tarefas "muito profundo de aprendizagem", que envolvem intervalos multi-segundas contendo eventos de fala separados por milhares de passos de tempo discretos, onde um passo de tempo corresponde a cerca de 10 ms. LSTM Com esquecer portões é competitivo com reconhecimento de voz tradicionais em determinadas tarefas.

O sucesso inicial no reconhecimento de fala foi baseada em tarefas de reconhecimento de pequena escala com base em TIMIT. O conjunto de dados contém 630 palestrantes de oito principais dialetos do Inglês americano , onde cada orador lê 10 frases. Seu pequeno tamanho permite muitas configurações ser julgado. Mais importante, a preocupações de tarefas TIMIT reconhecimento de seqüência telefone, que, ao contrário de reconhecimento de seqüência de texto, permite fraco telefone bigram modelos de linguagem. Isto permite que a força dos aspectos modelação acústica de reconhecimento de voz ser mais facilmente analisado. As taxas de erro listados abaixo, incluindo os resultados iniciais e medido como taxa de erro por cento telefone (PER), foram resumidos desde 1991.

Método PER (%)
Aleatoriamente Initialized RNN 26,1
Bayesian trifonema GMM-HMM 25,6
Trajectória escondido (Generativo) Modelo 24.8
Monofone aleatoriamente inicializado DNN 23,4
Monofone DBN-DNN 22.4
Trifonema GMM-HMM com Training BMMI 21.7
Monofone DBN-DNN em fbank 20.7
convolucional DNN 20,0
Convolucional w DNN. Pooling heterogêneo 18,7
Ensemble DNN / CNN / RNN 18,3
bidirecional LSTM 17,9
Hierárquica Convolucional profunda MAXOUT de rede 16,5

A estréia do DNNs para reconhecimento de voz no final de 1990 e de reconhecimento de voz em torno de 2009-2011 e de LSTM torno de 2003-2007, aceleraram o progresso em oito áreas principais:

  • Scale-up / out e acclerated formação DNN e decodificação
  • treino discriminativo Sequence
  • processamento de recurso por modelos profundos com sólida compreensão dos mecanismos subjacentes
  • Adaptação de DNNs e modelos profundos relacionados
  • Multi-tarefa e aprendizagem transferência por DNNs e modelos profundos relacionados
  • CNNs e como projetá-los para melhor explorar o conhecimento do domínio do discurso
  • RNN e seus ricos variantes LSTM
  • Outros tipos de modelos profundas, incluindo modelos baseados em tensores e / modelos generativas profundas integradas discriminativos.

Todos os principais sistemas de reconhecimento de voz comercial (por exemplo, Microsoft Cortana , Xbox , Skype Tradutor , Amazon Alexa , Google Now , a Apple Siri , Baidu e IFLYTEK pesquisa por voz, e uma gama de Nuance produtos de fala, etc.) são baseados em aprendizagem profunda.

reconhecimento de imagem

A avaliação comum definido para a classificação imagem é o conjunto de dados do banco de dados MNIST. MNIST é composta de dígitos escritos à mão e inclui 60.000 exemplos de treinamento e 10.000 exemplos de teste. Tal como acontece com TIMIT, seu pequeno tamanho permite aos usuários testar várias configurações. Uma lista abrangente de resultados nesta conjunto está disponível.

reconhecimento de imagem baseados em aprendizagem profunda tornou-se "sobre-humana", produzindo resultados mais precisos do que os concorrentes humanos. Isto ocorreu pela primeira vez em 2011.

veículos treinou-aprendizagem profunda agora interpretar 360 ° câmera. Outro exemplo é dismorfologia Facial Análise Novel (FDNA) utilizado para analisar casos de malformação humana ligada a uma grande base de dados de síndromes genéticos.

processamento de arte visual

Intimamente relacionado com o progresso que tem sido feito no reconhecimento de imagem é a crescente aplicação de técnicas de aprendizagem profunda para várias tarefas de artes visuais. DNNs provaram ser capazes, por exemplo, de a) identificação do período de estilo de uma dada pintura, b) "capturar" o estilo de uma dada pintura e aplicando-a de um modo visualmente agradável para uma fotografia arbitrária, e c) gerar marcante imaginário baseado em campos de entrada visuais aleatórias.

Processamento de linguagem natural

As redes neurais têm sido utilizados para implementação de modelos de linguagem desde o início da década de 2000. LSTM ajudou a melhorar a máquina de tradução e linguagem de modelagem.

Outras técnicas fundamentais neste domínio são negativos amostragem e palavra incorporação . Incorporação Word, tais como word2vec , pode ser pensado como uma camada de representação em uma arquitetura de aprendizado profundo que transforma uma palavra atômica em uma representação posicional da palavra em relação a outras palavras no conjunto de dados; a posição é representada como um ponto num espaço vectorial . Utilizando a incorporação de palavra como uma camada de entrada RNN permite que a rede para analisar frases e frases usando uma gramática vector de composição eficaz. Uma gramática vector de composição pode ser pensado como gramática livre de contexto probabilística (PCFG) implementado por um RNN. Recursiva auto-codificadores construídas sobre embeddings palavra pode avaliar frase semelhança e detectar parafraseando. Arquiteturas neurais profundas proporcionar os melhores resultados para a análise circunscrição , análise de sentimentos , recuperação de informação, compreensão da linguagem falada, a tradução automática, ligação entidade contextual, reconhecimento de escrita estilo, classificação de texto e outros.

Desenvolvimentos recentes generalizar palavra incorporar a sentença incorporação .

Traduz Google (GT) usa um grande fim-de-final da rede memória de longo curto prazo. Google Neural Machine Translation (GNMT) usa uma tradução automática baseada em exemplo método em que o sistema "aprende a partir de milhões de exemplos." Ele traduz "frases inteiras de cada vez, ao invés de peças. Google Translate suporta mais de cem línguas. A rede codifica os 'semântica da frase, em vez de simplesmente memorizar traduções frase-a-frase'. GT usa o Inglês como um intermediário entre a maioria pares de línguas.

A descoberta de medicamentos e toxicologia

Uma grande porcentagem de drogas candidatas deixar de ganhar aprovação regulamentar. Estas falhas são causadas pela eficácia insuficiente (efeito no-alvo), as interacções indesejadas (efeitos fora do alvo), ou inesperados efeitos tóxicos . A investigação tem explorado o uso de aprendizagem profunda para prever os alvos biomoleculares , fora dos alvos e efeitos tóxicos de substâncias químicas ambientais em nutrientes, produtos domésticos e drogas.

AtomNet é um sistema de aprendizagem profunda para baseada em estrutura de design racional de medicamentos . AtomNet foi utilizado para prever novas biomoléculas candidatos para alvos de doenças, como o vírus Ebola e esclerose múltipla .

gestão de relacionamento com o cliente

Reforço de aprendizagem profunda tem sido usado para aproximar o valor dos possíveis marketing direto ações, definidas em termos de RFM variáveis. A função de valor estimado foi demonstrado ter uma interpretação natural como valor da vida do cliente .

sistemas de recomendação

sistemas de recomendação usaram aprendizagem profunda para extrair recursos significativos para um modelo de fator latente para recomendações de músicas com base em conteúdo. aprendizagem profunda Multiview foi aplicado para aprender as preferências do usuário de vários domínios. O modelo usa uma abordagem colaborativa e baseada em conteúdo híbrido e aumenta recomendações em múltiplas tarefas.

bioinformática

Um autoencoder RNA foi usado em bioinformática , para prever ontologia gene anotações e relações de função do gene.

Em informática médica, aprendizagem profunda foi utilizado para prever a qualidade do sono baseado em dados de wearables e previsões de complicações de saúde de registos de saúde electrónicos de dados. Aprendizagem profunda também mostrou eficácia na saúde .

A publicidade móvel

Encontrar o público móvel apropriado para a publicidade móvel é sempre um desafio, uma vez que muitos pontos de dados deve ser considerado e assimilado antes de um segmento-alvo podem ser criados e usados ​​em veiculação de anúncios por qualquer servidor de anúncios. aprendizagem profunda tem sido usado para interpretar grandes, muitas dimensionado conjuntos de dados de publicidade. Muitos pontos de dados são coletados durante a solicitação / servir / clique ciclo de publicidade na internet. Esta informação pode formar a base de aprendizagem de máquina para melhorar a seleção de anúncios.

restauração de imagens

Aprendizagem profunda tem sido aplicado com sucesso a inverter problemas tais como denoising , super-resolução , inpainting , e colorização filme . Estas aplicações incluem métodos de aprendizagem como "encolhimento Campos para a restauração eficaz Imagem", que treina em um conjunto de dados de imagem e Imagem profunda Prior , que treina na imagem que precisa de restauração.

detecção de fraude financeira

Aprendizagem profunda está sendo aplicado com sucesso financeiro detecção de fraude e lavagem de dinheiro. "Sistema de detecção de lavagem de dinheiro profunda pode detectar e reconhecer as relações e semelhanças entre os dados e, mais abaixo na estrada, aprender a detectar anomalias ou classificar e prever eventos específicos". A solução utiliza as técnicas de aprendizado supervisionado, como a classificação de transacções suspeitas e aprendizagem não supervisionada, por exemplo, detecção de anomalias.

Militares

O Departamento de Defesa aplicado aprendizagem profunda para treinar robôs em novas tarefas através da observação.

Relação ao desenvolvimento cognitivo e cérebro humano

Aprendizagem profunda está intimamente relacionado a uma classe de teorias de desenvolvimento do cérebro (especificamente, o desenvolvimento neocortical) proposto por neurocientistas cognitivos no início de 1990. Essas teorias de desenvolvimento foram instanciado em modelos computacionais, tornando-os antecessores dos sistemas de aprendizagem de profundidade. Estes modelos de desenvolvimento compartilhar a propriedade de que várias dinâmicas de aprendizagem proposto no cérebro (por exemplo, uma onda de fator de crescimento neural ) apoiar a auto-organização de alguma forma análoga às redes neurais utilizados em modelos de aprendizagem de profundidade. Como o neocórtex , redes neurais empregar uma hierarquia de filtros em camadas em que cada camada considera a informação a partir de uma camada anterior (ou para o ambiente operacional), e em seguida passa a sua saída (e, possivelmente, a entrada original), a outras camadas. Este processo produz uma pilha de auto-organização dos transdutores , bem afinado ao seu ambiente operacional. Uma descrição 1995 declarou:" ... o cérebro do bebê parece organizar-se sob a influência de ondas de chamadas tróficos-fatores ... diferentes regiões do cérebro tornam-se sequencialmente ligados, com uma camada de tecido de maturação antes de outro e assim por até que todo o cérebro está madura ".

Uma variedade de abordagens têm sido usadas para investigar a plausibilidade de modelos de aprendizagem profunda do ponto de vista neurobiológico. Por um lado, diversas variantes do backpropagation algoritmo foram propostas a fim de aumentar seu realismo processamento. Outros pesquisadores argumentam que as formas sem supervisão de aprendizagem profunda, tais como aqueles baseados em hierárquicos modelos geradoras e redes de crenças profundas , pode ser mais próximo da realidade biológica. A este respeito, modelos de redes neurais generativas têm sido relacionados com evidência neurobiológica cerca de processamento à base de amostragem no córtex cerebral.

Embora uma comparação sistemática entre a organização do cérebro humano ea codificação neuronal em redes profundas ainda não foi estabelecida, várias analogias têm sido relatados. Por exemplo, os cálculos realizados por unidade de aprendizagem de profundidade poderia ser semelhantes aos dos neurónios reais e populações neurais. Da mesma forma, as representações desenvolvidas por modelos de aprendizagem profundos são semelhantes aos medidos no sistema visual dos primatas tanto no single-unidade e nos níveis populacionais.

A actividade comercial

Muitas organizações empregam aprendizagem profunda para aplicações específicas. Facebook 's AI laboratório executa tarefas como marcar automaticamente fotos carregadas com os nomes das pessoas neles.

Do Google DeepMind Technologies desenvolveu um sistema capaz de aprender a jogar Atari jogos de vídeo usando apenas pixels como entrada de dados. Em 2015, eles demonstraram a sua AlphaGo sistema, que aprendeu o jogo de Go bem o suficiente para bater um jogador Go profissional. Traduz Google usa um LSTM para traduzir entre mais de 100 línguas.

Em 2015, Blippar demonstrou um móvel de realidade aumentada aplicativo que usa o aprendizado profundo de reconhecer objetos em tempo real.

A partir de 2008, pesquisadores da Universidade do Texas em Austin (UT) desenvolveu um quadro de aprendizagem de máquina chamado Treinar um manualmente Agent via Matricial Reforço, ou TAMER, que propôs novos métodos para robôs ou programas de computador para aprender a executar tarefas interagindo com um instrutor humano.

Primeiro desenvolvido como TAMER, um novo algoritmo chamado Profundo TAMER mais tarde foi introduzida em 2018 durante uma colaboração entre Laboratory US Army Research (ARL) e pesquisadores da UT. Profundo TAMER usado aprendizagem profunda para fornecer um robô a capacidade de aprender novas tarefas através da observação.

Usando profunda TAMER, um robô aprendeu uma tarefa com um treinador humano, observando fluxos de vídeo ou a observação de um ser humano executar uma tarefa em pessoa. O robô mais tarde praticou a tarefa com a ajuda de algum treinamento do instrutor, que forneceram feedback como “bom trabalho” e “mau trabalho”.

A crítica e comentário

aprendizagem profunda tem atraído tanto a crítica e comentário, em alguns casos, de fora do campo da ciência da computação.

Teoria

A principal crítica diz respeito à falta de teoria em torno de alguns métodos. Aprender nas arquiteturas profundas mais comuns é implementado usando gradiente descendente bem compreendido. No entanto, a teoria em torno outros algoritmos, como a divergência contrastante é menos clara. (por exemplo, Será que convergem? Se assim for, o quão rápido? O que é aproximar?) métodos de aprendizagem profunda são muitas vezes encarado como uma caixa preta , com a maioria das confirmações feito empiricamente, ao invés de, teoricamente.

Outros apontam que a aprendizagem profunda deve ser encarado como um passo para a realização AI forte, não como uma solução abrangente. Apesar do poder de métodos de aprendizagem profundas, eles ainda não têm grande parte da funcionalidade necessária para a concretização deste objectivo inteiramente. Psicólogo e pesquisador Gary Marcus observou:

"Realisticamente, aprendizagem profunda é apenas uma parte do maior desafio de construir máquinas inteligentes. Essas técnicas não têm maneiras de representar relações causais (...) não têm maneiras óbvias de realizar inferências lógicas , e eles também são ainda um longo caminho de integração abstrato conhecimento, tais como informações sobre o que os objetos são, para que servem e como eles são normalmente utilizados. Os mais poderosos sistemas de inteligência artificial, como Watson (...) usar técnicas como a profunda aprendizagem como apenas um elemento de um conjunto muito complicado de técnicas, que vão desde a técnica estatística de inferência de Bayesian para dedutivo ".

Como alternativa a esta ênfase sobre os limites da aprendizagem profunda, um autor especulou que poderia ser possível treinar uma pilha de visão de máquina para executar a tarefa sofisticada de discriminar entre o "velho mestre" e desenhos de figuras amadores, e a hipótese de que tal uma sensibilidade pode representar os rudimentos de uma empatia máquina não-trivial. Este mesmo autor propôs que este estaria em consonância com a antropologia, que identifica uma preocupação com a estética como um elemento-chave da modernidade comportamental .

Em outra referência à ideia de que a sensibilidade artística pode inerentes dentro de níveis relativamente baixos da hierarquia cognitiva, uma série publicada de representações gráficas dos estados internos de profunda (20-30 camadas) redes neurais tentam discernir dentro de dados essencialmente aleatórias as imagens em que foram treinados demonstrar uma apelo visual: o aviso de pesquisa original recebeu mais de 1.000 comentários, e foi o assunto do que foi por algum tempo o artigo mais freqüentemente acessados on The Guardian 's web site.

erros

Algumas arquiteturas de aprendizagem profundas exibir comportamentos problemáticos, tais como classificando confiança imagens irreconhecíveis como pertencentes a uma categoria familiar de imagens comuns e misclassifying perturbações minúsculas de imagens corretamente classificados. Goertzel a hipótese de que estes comportamentos são devido a limitações em suas representações internas e que estas limitações inibiria integração multi-componentes heterogêneos AGI arquiteturas. Esses problemas podem possivelmente ser abordada por arquiteturas de aprendizagem profundas que formam internamente estados homólogos para decomposições imagem-gramática de entidades e eventos observados. Aprender uma gramática (visual ou linguístico) a partir de dados de treinamento seria equivalente a restringir o sistema de raciocínio de senso comum que opera em conceitos em termos de gramaticais regras de produção e é um objetivo básico de ambos aquisição da linguagem humana e AI.

ameaças cibernéticas

Movimentos de aprendizagem como profundas do laboratório para o mundo, a pesquisa ea experiência demonstra que as redes neurais artificiais são vulneráveis a hacks e enganos. Ao identificar padrões que estes sistemas usam a função, os atacantes podem modificar entradas para RNAs de tal forma que a ANN encontra uma correspondência que os observadores humanos não reconheceria. Por exemplo, um atacante pode fazer mudanças sutis para uma imagem de modo que a ANN encontra uma correspondência, mesmo que a imagem parece a um nada humano como o alvo de pesquisa. Tal manipulação é denominado um “ataque do contraditório.” Em 2016 pesquisadores usaram um ANN ao médico imagens em tentativa e erro moda, identificar outro é pontos focais e, assim, gerar imagens que enganaram-lo. As imagens modificadas não parecia diferente aos olhos humanos. Outro grupo mostrou que as impressões de imagens adulteradas em seguida, fotografado enganado com sucesso um sistema de classificação de imagens. Uma defesa é pesquisa de imagem inversa, em que uma possível falsa imagem é submetido a um site como o TinEye que podem então encontrar outras instâncias dele. Um refinamento é a busca usando apenas partes da imagem, para identificar as imagens a partir do qual podem ter sido tomadas aquele pedaço .

Outro grupo mostrou que certos psicodélicas espetáculos poderia enganar um sistema de reconhecimento facial em pensar as pessoas comuns eram celebridades, potencialmente permitindo que uma pessoa se passar por outra. Em 2017 pesquisadores adicionaram adesivos para sinais de parada e causou uma RNA para classificar erroneamente eles.

RNAs, porém, pode ser ainda mais treinados para detectar tentativas de fraude, levando potencialmente atacantes e defensores em uma corrida armamentista semelhante ao tipo que já define o malwares indústria de defesa. RNAs foram treinados para derrotar baseado em ANN software anti-malware atacando repetidamente uma defesa com malware que foi continuamente alterada por um algoritmo genético até que enganou o anti-malware, mantendo a sua capacidade de danificar o alvo.

Outro grupo demonstraram que certos sons poderia tornar o Google Now voz do sistema de comando abrir um endereço web em particular que iria baixar malware.

Em “envenenamento de dados”, false dados são continuamente contrabandeados para conjunto de treinamento de um sistema de aprendizagem de máquina para impedi-lo de alcançar o domínio.

Veja também

Referências

Outras leituras

links externos