Senso Comum de Mente Aberta - Open Mind Common Sense

Open Mind Common Sense ( OMCS ) é um projeto de inteligência artificial baseado no Laboratório de Mídia do Massachusetts Institute of Technology (MIT), cujo objetivo é construir e utilizar uma grande base de conhecimento de senso comum a partir das contribuições de milhares de pessoas em toda a web. Ele está ativo de 1999 a 2016.

Desde sua fundação, ele acumulou mais de um milhão de fatos em inglês de mais de 15.000 colaboradores, além de bases de conhecimento em outros idiomas. Muito do software OMCS é construído em três representações interconectadas: o corpus de linguagem natural com o qual as pessoas interagem diretamente, uma rede semântica construída a partir desse corpus chamada ConceptNet e uma representação baseada em matriz do ConceptNet chamada AnalogySpace que pode inferir novos conhecimentos usando redução de dimensionalidade . O conhecimento coletado pelo Open Mind Common Sense possibilitou projetos de pesquisa no MIT e em outros lugares.

História

O projeto é ideia de Marvin Minsky , Push Singh, Catherine Havasi e outros. O trabalho de desenvolvimento começa em setembro de 1999 e o projeto está aberto à Internet um ano depois. Havasi o descreve em sua dissertação como "uma tentativa de ... aproveitar parte do poder de computação humana distribuída da Internet, uma ideia que estava então apenas em seus estágios iniciais." O OMCS original é influenciado pelo site Everything2 e seu antecessor, e apresenta uma interface minimalista inspirada no Google .

Push Singh está programado para se tornar professor no MIT Media Lab para liderar o grupo Common Sense Computing em 2007 até seu suicídio na terça-feira, 28 de fevereiro de 2006.

O projeto é atualmente executado pelo Digital Intuition Group no MIT Media Lab sob Catherine Havasi.

Banco de dados e site

Existem muitos tipos diferentes de conhecimento em OMCS. Algumas declarações transmitem relações entre objetos ou eventos, expressas como frases simples de linguagem natural: alguns exemplos incluem "Um casaco é usado para se manter aquecido", "O sol está muito quente" e "A última coisa que você faz quando prepara o jantar é lave a sua louça ". O banco de dados também contém informações sobre o conteúdo emocional das situações, em afirmações como "Passar um tempo com os amigos causa felicidade" e "Entrar em um acidente de carro irrita a pessoa". OMCS contém informações sobre os desejos e objetivos das pessoas, grandes e pequenas, como "As pessoas querem ser respeitadas" e "As pessoas querem um bom café".

Originalmente, essas declarações podiam ser inseridas no site como sentenças irrestritas de texto, que precisavam ser analisadas posteriormente. A versão atual do site coleta conhecimento apenas usando modelos de preenchimento de lacunas mais estruturados. O OMCS também faz uso dos dados coletados pelo Game With a Purpose " Verbosity ".

Em sua forma nativa, o banco de dados OMCS é simplesmente uma coleção dessas frases curtas que transmitem algum conhecimento comum. Para usar esse conhecimento computacionalmente, ele deve ser transformado em uma representação mais estruturada.

ConceptNet

ConceptNet é uma rede semântica baseada nas informações do banco de dados OMCS. O ConceptNet é expresso como um grafo direcionado cujos nós são conceitos e cujas arestas são afirmações de bom senso sobre esses conceitos. Os conceitos representam conjuntos de frases de linguagem natural intimamente relacionadas, que podem ser sintagmas nominais, sintagmas verbais, adjetivos ou orações.

O ConceptNet é criado a partir de asserções de linguagem natural no OMCS, comparando-as com os padrões usando um analisador superficial. As asserções são expressas como relações entre dois conceitos, selecionados a partir de um conjunto limitado de relações possíveis. As várias relações representam padrões de frase comuns encontrados no corpus OMCS e, em particular, cada modelo de "preencher as lacunas" usado no site de coleta de conhecimento está associado a uma relação específica.

As estruturas de dados que compõem o ConceptNet foram significativamente reorganizadas em 2007 e publicadas como ConceptNet 3. O grupo de Agentes de Software atualmente distribui um banco de dados e API para a nova versão 4.0.

Em 2010, a cofundadora e diretora da OMCS, Catherine Havasi, com Robyn Speer, Dennis Clark e Jason Alonso, criaram a Luminoso , uma empresa de software de analítica de texto que se baseia no ConceptNet. Ele usa o ConceptNet como seu principal recurso léxico para ajudar as empresas a compreender e obter insights de grandes quantidades de dados qualitativos, incluindo pesquisas, análises de produtos e mídia social.

Ferramentas de aprendizado de máquina

As informações do ConceptNet podem ser usadas como base para algoritmos de aprendizado de máquina . Uma representação, chamada AnalogySpace, usa decomposição de valores singulares para generalizar e representar padrões no conhecimento no ConceptNet, de forma que possam ser usados ​​em aplicações de IA. Seus criadores distribuem um kit de ferramentas de aprendizado de máquina Python chamado Divisi para realizar aprendizado de máquina com base em corpora de texto, bases de conhecimento estruturadas como ConceptNet e combinações dos dois.

Comparação com outros projetos

Outros projetos semelhantes incluem Never-Ending Language Learning , Mindpixel (descontinuado), Cyc , Learner, SenticNet, Freebase , YAGO , DBpedia e Open Mind 1001 Questions, que exploraram abordagens alternativas para coletar conhecimento e fornecer incentivos para a participação.

O projeto Open Mind Common Sense difere do Cyc porque se concentrou em representar o conhecimento de senso comum que coletou como frases em inglês, em vez de usar uma estrutura lógica formal. O ConceptNet é descrito por um de seus criadores, Hugo Liu, como sendo estruturado mais como WordNet do que Cyc, devido à sua "ênfase na conexão conceitual informal sobre o rigor linguístico formal".

Há também a iniciativa brasileira, batizada de Open Mind Common Sense in Brazil (OMCS-Br), liderada pelo Advanced Interaction Lab da Universidade Federal de São Carlos ( LIA-UFSCar ). Este projeto começou em 2005, em colaboração com o Grupo de Agentes de Software no MIT Media Lab, o objetivo principal é coletar o senso comum expresso em Português do Brasil e usá-lo para desenvolver aplicativos de software culturalmente sensíveis com base na extração de conhecimento de perfis culturais do ConceptNet. O objetivo é ajudar os desenvolvedores e usuários com um software de conteúdo culturalmente contextualizado, tornando os aplicativos finais mais flexíveis, adaptáveis, acessíveis e utilizáveis. Os principais focos das aplicações são educação e saúde.

Veja também

Referências

links externos