Inteligência artificial amigável - Friendly artificial intelligence

Inteligência artificial amigável (também AI amigável ou FAI ) refere-se à hipotética inteligência artificial geral (AGI) que teria um efeito positivo (benigno) na humanidade ou pelo menos se alinhasse aos interesses humanos ou contribuísse para promover o aprimoramento da espécie humana. Faz parte da ética da inteligência artificial e está intimamente relacionado à ética da máquina . Enquanto a ética da máquina se preocupa com a forma como um agente artificialmente inteligente deve se comportar, a pesquisa de inteligência artificial amigável concentra-se em como provocar esse comportamento na prática e em garantir que ele seja adequadamente restrito.

Etimologia e uso

Eliezer Yudkowsky , pesquisador de IA e criador do termo inteligência artificial amigável

O termo foi cunhado por Eliezer Yudkowsky , mais conhecido por popularizar a ideia, para discutir agentes artificiais superinteligentes que implementam valores humanos de forma confiável. O principal livro de inteligência artificial de Stuart J. Russell e Peter Norvig , Artificial Intelligence: A Modern Approach , descreve a ideia:

Yudkowsky (2008) entra em mais detalhes sobre como projetar uma AI amigável . Ele afirma que a simpatia (um desejo de não prejudicar os humanos) deve ser projetada desde o início, mas que os projetistas devem reconhecer que seus próprios projetos podem apresentar falhas e que o robô aprenderá e evoluirá com o tempo. Portanto, o desafio é o projeto do mecanismo - definir um mecanismo para a evolução dos sistemas de IA sob um sistema de freios e contrapesos e dar aos sistemas funções úteis que permanecerão amigáveis em face de tais mudanças.

'Amigável' é usado neste contexto como terminologia técnica e seleciona agentes que são seguros e úteis, não necessariamente aqueles que são "amigáveis" no sentido coloquial. O conceito é principalmente invocado no contexto de discussões de agentes artificiais de autoaperfeiçoamento recursivo que explodem rapidamente em inteligência , com base no fato de que essa tecnologia hipotética teria um impacto grande, rápido e difícil de controlar na sociedade humana.

Riscos de IA hostil

As raízes da preocupação com a inteligência artificial são muito antigas. Kevin LaGrandeur mostrou que os perigos específicos da IA podem ser vistos na literatura antiga a respeito de servos humanóides artificiais como o golem ou os proto-robôs de Gerbert de Aurillac e Roger Bacon . Nessas histórias, a extrema inteligência e poder dessas criações humanóides se chocam com sua condição de escravos (que por natureza são vistos como subumanos) e causam um conflito desastroso. Em 1942, esses temas levaram Isaac Asimov a criar as " Três Leis da Robótica " - princípios embutidos em todos os robôs de sua ficção, com o objetivo de impedi-los de atacar seus criadores ou permitir que sofressem algum dano.

Nos tempos modernos, à medida que a perspectiva de IA superinteligente se aproxima, o filósofo Nick Bostrom disse que sistemas de IA superinteligente com objetivos que não estão alinhados com a ética humana são intrinsecamente perigosos, a menos que medidas extremas sejam tomadas para garantir a segurança da humanidade. Ele colocou desta forma:

Basicamente, devemos supor que uma 'superinteligência' seria capaz de atingir quaisquer objetivos que possua. Portanto, é extremamente importante que os objetivos que atribuímos a ele, e todo o seu sistema de motivação, sejam "amigáveis ao ser humano".

Em 2008, Eliezer Yudkowsky pediu a criação de “IA amigável” para mitigar o risco existencial da inteligência artificial avançada . Ele explica: "A IA não te odeia, nem te ama, mas você é feito de átomos que pode usar para outra coisa."

Steve Omohundro diz que um sistema de IA suficientemente avançado irá, a menos que seja explicitamente contrariado, exibir uma série de "impulsos" básicos , como aquisição de recursos, autopreservação e autoaperfeiçoamento contínuo, devido à natureza intrínseca de qualquer sistema orientado a objetivos e que essas unidades irão, "sem precauções especiais", fazer com que a IA exiba um comportamento indesejado.

Alexander Wissner-Gross diz que IAs orientados para maximizar sua liberdade de ação futura (ou entropia de caminho causal) podem ser considerados amigáveis se seu horizonte de planejamento for mais longo do que um certo limite, e hostis se seu horizonte de planejamento for menor que esse limite.

Luke Muehlhauser, escrevendo para o Machine Intelligence Research Institute , recomenda que os pesquisadores de ética da máquina adotem o que Bruce Schneier chamou de "mentalidade de segurança": em vez de pensar sobre como um sistema funcionará, imagine como ele pode falhar. Por exemplo, ele sugere que até mesmo uma IA que só faz previsões precisas e se comunica por meio de uma interface de texto pode causar danos não intencionais.

Em 2014, Luke Muehlhauser e Nick Bostrom sublinharam a necessidade de uma 'IA amigável'; no entanto, as dificuldades em projetar uma superinteligência "amigável", por exemplo, por meio da programação do pensamento moral contrafactual, são consideráveis.

Vontade coerente extrapolada

Yudkowsky avança o modelo Coherent Extrapolated Volition (CEV). Segundo ele, a vontade extrapolada coerente são as escolhas das pessoas e as ações que as pessoas tomariam coletivamente se "soubéssemos mais, pensássemos mais rápido, fôssemos mais as pessoas que gostaríamos de ser e tivéssemos crescido mais próximos".

Em vez de uma AI amigável sendo projetada diretamente por programadores humanos, ela deve ser projetada por uma "AI semente" programada para primeiro estudar a natureza humana e, em seguida, produzir a AI que a humanidade desejaria, com tempo e visão suficientes, para chegar a um resultado satisfatório responder. O apelo a um objetivo por meio da natureza humana contingente (talvez expresso, para fins matemáticos, na forma de uma função de utilidade ou outro formalismo teórico de decisão ), como fornecendo o critério último de "Simpatia", é uma resposta à meta-ética problema de definir uma moralidade objetiva ; A volição extrapolada pretende ser o que a humanidade objetivamente desejaria, considerando todas as coisas, mas só pode ser definida em relação às qualidades psicológicas e cognitivas da humanidade não extrapolada de hoje.

Outras abordagens

Steve Omohundro propôs uma abordagem de "andaime" para a segurança da IA, na qual uma geração comprovadamente segura de IA ajuda a construir a próxima geração comprovadamente segura.

Seth Baum argumenta que o desenvolvimento de inteligência artificial segura e socialmente benéfica ou inteligência artificial geral é uma função da psicologia social das comunidades de pesquisa em IA e, portanto, pode ser restringida por medidas extrínsecas e motivada por medidas intrínsecas. As motivações intrínsecas podem ser fortalecidas quando as mensagens ressoam nos desenvolvedores de IA; Baum argumenta que, em contraste, "as mensagens existentes sobre IA benéfica nem sempre são bem enquadradas". Baum defende "relações cooperativas e enquadramento positivo dos pesquisadores de IA" e adverte contra caracterizar os pesquisadores de IA como "não querendo buscar projetos benéficos".

Em seu livro Human Compatible , o pesquisador de IA Stuart J. Russell lista três princípios para orientar o desenvolvimento de máquinas benéficas. Ele enfatiza que esses princípios não devem ser explicitamente codificados nas máquinas; em vez disso, eles são destinados aos desenvolvedores humanos. Os princípios são os seguintes:

1. O único objetivo da máquina é maximizar a realização das preferências humanas.

2. A máquina está inicialmente incerta sobre quais são essas preferências.

3. A fonte final de informações sobre as preferências humanas é o comportamento humano.

As "preferências" a que Russell se refere "são abrangentes; cobrem tudo o que você pode querer, arbitrariamente em um futuro distante". Da mesma forma, "comportamento" inclui qualquer escolha entre opções, e a incerteza é tal que alguma probabilidade, que pode ser bem pequena, deve ser atribuída a cada preferência humana logicamente possível.

Políticas públicas

James Barrat , autor de Our Final Invention , sugeriu que "uma parceria público-privada deve ser criada para reunir os fabricantes de IA para compartilhar ideias sobre segurança - algo como a Agência Internacional de Energia Atômica, mas em parceria com corporações". Ele exorta os pesquisadores de IA a convocar uma reunião semelhante à Conferência Asilomar sobre DNA recombinante , que discutiu os riscos da biotecnologia.

John McGinnis incentiva os governos a acelerarem as pesquisas amigáveis de IA. Como os objetivos da IA amigável não são necessariamente eminentes, ele sugere um modelo semelhante ao National Institutes of Health , em que "painéis de avaliação por pares de cientistas da computação e cognitivos examinariam os projetos e escolheriam aqueles que são projetados para promover a IA e garantir que tais avanços seriam acompanhados por salvaguardas apropriadas. " McGinnis acredita que a revisão por pares é melhor "do que a regulamentação para tratar de questões técnicas que não são possíveis de capturar por meio de mandatos burocráticos". McGinnis observa que sua proposta contrasta com a do Machine Intelligence Research Institute , que geralmente visa evitar o envolvimento do governo em IA amigável.

De acordo com Gary Marcus , a quantia anual gasta no desenvolvimento da moralidade da máquina é pequena.

Crítica

Alguns críticos acreditam que tanto a IA de nível humano quanto a superinteligência são improváveis e, portanto, a IA amigável é improvável. Escrevendo no The Guardian , Alan Winfield compara a inteligência artificial de nível humano com viagens mais rápidas do que a luz em termos de dificuldade e afirma que, embora precisemos ser "cautelosos e preparados" devido aos riscos envolvidos, "não precisamos ficar obcecado "com os riscos da superinteligência. Boyles e Joaquin, por outro lado, argumentam que a proposta de Luke Muehlhauser e Nick Bostrom de criar IAs amigáveis parece ser desoladora. Isso ocorre porque Muehlhauser e Bostrom parecem ter a ideia de que máquinas inteligentes podem ser programadas para pensar contrafactualmente sobre os valores morais que os seres humanos teriam. Em um artigo na AI & Society , Boyles e Joaquin afirmam que tais AIs não seriam tão amigáveis considerando o seguinte: a quantidade infinita de condições contrafactuais anteriores que teriam de ser programadas em uma máquina, a dificuldade de sacar o conjunto de moral valores - isto é, aqueles que são mais ideais do que os que os seres humanos possuem atualmente, e a aparente desconexão entre os antecedentes contrafactuais e o valor ideal consequente.

Alguns filósofos afirmam que qualquer agente verdadeiramente "racional", seja artificial ou humano, será naturalmente benevolente; nesta visão, salvaguardas deliberadas projetadas para produzir uma IA amigável podem ser desnecessárias ou mesmo prejudiciais. Outros críticos questionam se é possível que uma inteligência artificial seja amigável. Adam Keiper e Ari N. Schulman, editores do jornal de tecnologia The New Atlantis , dizem que será impossível garantir um comportamento "amigável" em IAs porque os problemas de complexidade ética não cederão aos avanços do software ou ao aumento do poder de computação. Eles escrevem que os critérios sobre os quais as teorias de IA amigáveis se baseiam funcionam "apenas quando se tem não apenas grandes poderes de previsão sobre a probabilidade de uma miríade de resultados possíveis, mas também certeza e consenso sobre como se avalia os diferentes resultados.

Veja também

Problema de controle de IA
Aquisição de IA
Corrida armamentista de inteligência artificial
Ética da inteligência artificial
Risco existencial de inteligência artificial geral
Explosão de inteligência
Ética da máquina
Instituto de pesquisa de inteligência de máquina
OpenAI
Regulação de algoritmos
Singularitarismo - uma filosofia moral defendida pelos proponentes da AI amigável
Singularidade tecnológica
Três Leis da Robótica

Referências

Leitura adicional

Yudkowsky, E. Artificial Intelligence as a Positive and Negative Factor in Global Risk . Em Global Catastrophic Risks , Oxford University Press, 2008.
Discute Artificial Intelligence da perspectiva do risco existencial . Em particular, as Seções 1-4 fornecem um pano de fundo para a definição de AI amigável na Seção 5. A seção 6 fornece duas classes de erros (técnicos e filosóficos) que levariam à criação acidental de AIs não amigáveis. As seções 7 a 13 discutem outras questões relacionadas.
Omohundro, S. 2008 The Basic AI Drives Apareceu em AGI-08 - Proceedings of the First Conference on Artificial General Intelligence
Mason, C. 2008 AI de nível humano requer inteligência compassiva aparece no workshop AAAI 2008 sobre meta-raciocínio: pensando sobre o pensamento

links externos

Questões Éticas em Inteligência Artificial Avançada por Nick Bostrom
O que é AI amigável? - Uma breve descrição de AI amigável pelo Machine Intelligence Research Institute.
Criando AI 1.0 Amigável: A Análise e Projeto de Arquiteturas de Objetivos Benevolentes - Uma descrição quase do tamanho de um livro do MIRI
Crítica das Diretrizes MIRI sobre IA amigável - por Bill Hibbard
Comentário sobre as Diretrizes do MIRI sobre IA amigável - por Peter Voss.
O Problema com Inteligência Artificial 'Amigável' - Sobre os motivos e impossibilidade da FAI; por Adam Keiper e Ari N. Schulman.

Languages

In other projects