Dilema do Prisioneiro - Prisoner's dilemma

Matriz de recompensa do dilema do prisioneiro padrão
B
UMA
B fica em
silêncio
B
trai
A permanece em
silêncio
-1
-1
0
-3
Uma
trai
-3
0
-2
-2

O dilema do prisioneiro é um exemplo padrão de um jogo analisado na teoria dos jogos que mostra por que dois indivíduos completamente racionais podem não cooperar, mesmo que pareça ser do seu interesse fazê-lo. Foi originalmente moldado por Merrill Flood e Melvin Dresher enquanto trabalhava na RAND em 1950. Albert W. Tucker formalizou o jogo com recompensas de pena de prisão e chamou-o de "dilema do prisioneiro", apresentando-o da seguinte forma:

Dois membros de uma organização criminosa são detidos e encarcerados. Cada prisioneiro está em confinamento solitário, sem meios de comunicação com o outro. Os promotores não têm evidências suficientes para condenar os dois pela acusação principal, mas têm o suficiente para condenar os dois por uma acusação menor. Simultaneamente, os promotores oferecem a cada prisioneiro uma barganha. Cada prisioneiro tem a oportunidade de trair o outro, testemunhando que o outro cometeu o crime, ou de cooperar com o outro, permanecendo em silêncio. Os resultados possíveis são:

  • Se A e B traírem um ao outro, cada um deles cumprirá dois anos de prisão
  • Se A trair B, mas B permanecer em silêncio, A será libertado e B cumprirá três anos de prisão
  • Se A permanecer em silêncio, mas B trair A, A cumprirá três anos de prisão e B será libertado
  • Se A e B permanecerem calados, ambos cumprirão apenas um ano de prisão (com a menor acusação).

Fica implícito que os presos não terão oportunidade de recompensar ou punir seu parceiro a não ser as sentenças de prisão que recebem e que sua decisão não afetará sua reputação no futuro. Como trair um parceiro oferece uma recompensa maior do que cooperar com eles, todos os presos egoístas puramente racionais trairão um ao outro, o que significa que o único resultado possível para dois presos puramente racionais é trair um ao outro, mesmo que a cooperação mútua renderia mais recompensa. Na realidade, os humanos exibem uma tendência sistêmica em direção ao comportamento cooperativo neste e em jogos semelhantes, apesar do que é previsto por modelos simples de ação autointeressada "racional". Esse viés para a cooperação é conhecido desde que o teste foi conduzido pela primeira vez na RAND; os secretários envolvidos confiavam uns nos outros e trabalharam juntos para o melhor resultado comum. O dilema do prisioneiro tornou-se o foco de uma extensa pesquisa experimental.

Também existe uma versão "iterada" estendida do jogo. Nesta versão, o clássico jogo é jogado repetidamente entre os mesmos presos, que continuamente têm a oportunidade de penalizar o outro por decisões anteriores. Se o número de vezes que o jogo será jogado for conhecido pelos jogadores, então (por indução reversa ) dois jogadores classicamente racionais se trairão repetidamente, pelas mesmas razões da variante de tiro único. Em um jogo de duração infinita ou desconhecida, não há estratégia ótima fixa, e torneios do dilema do prisioneiro têm sido realizados para competir e testar algoritmos para tais casos.

O jogo do dilema do prisioneiro pode ser usado como modelo para muitas situações do mundo real envolvendo comportamento cooperativo. No uso casual, o rótulo "dilema do prisioneiro" pode ser aplicado a situações que não correspondem estritamente aos critérios formais dos jogos clássicos ou iterativos: por exemplo, aqueles em que duas entidades podem obter benefícios importantes por cooperar ou sofrer por não fazê-lo , mas acham difícil ou caro - não necessariamente impossível - coordenar suas atividades.

Estratégia para o dilema do prisioneiro

Dois prisioneiros são separados em quartos individuais e não podem se comunicar. O jogo normal é mostrado abaixo:

Prisioneiro B

Prisioneiro A
O prisioneiro B permanece em silêncio
( coopera )
Prisioneiro B trai
( defeitos )
O prisioneiro A permanece em silêncio
( coopera )
Cada um serve 1 ano Prisioneiro A: 3 anos
Prisioneiro B: fica em liberdade
O prisioneiro A trai
( defeitos )
Prisioneiro A: é libertado
Prisioneiro B: 3 anos
Cada um cumpre 2 anos

Presume-se que ambos os prisioneiros entendam a natureza do jogo, não tenham lealdade um ao outro e não terão oportunidade de retribuição ou recompensa fora do jogo. Independentemente do que o outro decida, cada prisioneiro recebe uma recompensa maior por trair o outro ("desertar"). O raciocínio envolve a análise das melhores respostas de ambos os jogadores : B irá cooperar ou desertar. Se B cooperar, A deve desertar, porque ficar livre é melhor do que cumprir 1 ano. Se B falhar, A também deve desertar, porque cumprir 2 anos é melhor do que servir 3. Portanto, de qualquer forma, A deve desertar, já que desertar é a melhor resposta de A, independentemente da estratégia de B. O raciocínio paralelo mostrará que B deve desertar.

Como a deserção sempre resulta em uma recompensa melhor do que a cooperação, independentemente da escolha do outro jogador, é uma estratégia estritamente dominante para A e B. Deserção mútua é o único equilíbrio forte de Nash no jogo (ou seja, o único resultado a partir do qual cada jogador poderia só pioram mudando a estratégia unilateralmente). O dilema, então, é que a cooperação mútua produz um resultado melhor do que a deserção mútua, mas não é o resultado racional porque a escolha de cooperar, de uma perspectiva de interesse próprio, é irracional. Assim, o dilema do prisioneiro é um jogo em que o equilíbrio de Nash não é eficiente de Pareto.

Forma generalizada

A estrutura do dilema do prisioneiro tradicional pode ser generalizada a partir de seu cenário original do prisioneiro. Suponha que os dois jogadores sejam representados pelas cores vermelho e azul e que cada jogador opte por "cooperar" (ficar em silêncio) ou "desertar" (trair).

Se ambos os jogadores cooperarem, ambos recebem a recompensa R pela cooperação. Se ambos os jogadores desertar, ambos recebem a punição recompensa P . Se os defeitos azul, enquanto coopera vermelho, então Azul recebe a tentação recompensa T , enquanto Red recebe recompensa o "otário", S . Da mesma forma, se o azul coopera enquanto defeitos vermelhos, então Azul recebe o otário recompensa S , enquanto Red recebe a tentação recompensa T .

Isso pode ser expresso na forma normal :

Matriz de compensação PD canônica
vermelho
Azul
Colaborar Defeito
Colaborar
R
R
T
S
Defeito
S
T
P
P

e para ser um jogo do dilema do prisioneiro no sentido forte, a seguinte condição deve ser válida para as recompensas:

A relação de recompensa implica que a cooperação mútua é superior à deserção mútua, enquanto as relações de recompensa e implicam que a deserção é a estratégia dominante para ambos os agentes.

Caso especial: jogo de doação

O "jogo da doação" é uma forma de dilema do prisioneiro em que a cooperação corresponde a oferecer ao outro jogador um benefício b a um custo pessoal c com b > c . Deserção significa não oferecer nada. A matriz de recompensa é, portanto,

vermelho
Azul
Colaborar Defeito
Colaborar
b - c
b - c
b
- c
Defeito
- c
b
0
0

Observe que (ou seja ) qual qualifica o jogo de doação para ser um jogo iterativo (consulte a próxima seção).

O jogo de doação pode ser aplicado a mercados. Suponha que X cultive laranjas, Y, maçãs. A utilidade marginal de uma maçã para o produtor de laranja X é b , que é maior do que a utilidade marginal ( c ) de uma laranja, uma vez que X tem um excedente de laranjas e nenhuma maçã. Da mesma forma, para o produtor de maçã Y, a utilidade marginal de uma laranja é b, enquanto a utilidade marginal de uma maçã é c . Se X e Y se comprometerem a trocar uma maçã por uma laranja, e cada um cumprir sua parte do acordo, então cada um receberá um pagamento de b - c . Se um "defeito" e não entregar como prometido, o desertor receberá uma recompensa de b , enquanto o cooperador perderá c . Se ambos falham, nenhum deles ganha ou perde nada.

O dilema do prisioneiro iterado

Se dois jogadores jogam o dilema do prisioneiro mais de uma vez em sucessão e se lembram das ações anteriores de seu oponente e mudam sua estratégia de acordo, o jogo é chamado de dilema do prisioneiro iterativo.

Além da forma geral acima, a versão iterativa também requer isso , para evitar a alternância de cooperação e deserção, dando uma recompensa maior do que a cooperação mútua.

O jogo do dilema do prisioneiro iterativo é fundamental para algumas teorias de cooperação e confiança humanas. Partindo do pressuposto de que o jogo pode modelar transações entre duas pessoas que exigem confiança, o comportamento cooperativo em populações pode ser modelado por uma versão do jogo com vários jogadores e iteração. Conseqüentemente, fascinou muitos estudiosos ao longo dos anos. Em 1975, Grofman e Pool estimou a contagem de artigos acadêmicos dedicados a ele em mais de 2.000. O dilema do prisioneiro repetido também foi referido como o " jogo da guerra de paz ".

Se o jogo for jogado exatamente N vezes e ambos os jogadores souberem disso, é ideal desertar em todas as rodadas. O único equilíbrio de Nash possível é sempre desertar. A prova é indutiva : vale a pena desertar no último turno, pois o oponente não terá chance de retaliar depois. Portanto, ambos irão desertar na última volta. Assim, o jogador também pode desertar na penúltima jogada, já que o oponente irá desertar na última vez, não importa o que seja feito, e assim por diante. O mesmo se aplica se a duração do jogo for desconhecida, mas tiver um limite superior conhecido.

Ao contrário do dilema do prisioneiro padrão, no dilema do prisioneiro iterativo a estratégia de deserção é contra-intuitiva e falha em prever o comportamento de jogadores humanos. Porém, dentro da teoria econômica padrão, esta é a única resposta correta. A estratégia superracional no dilema do prisioneiro iterado com N fixo é cooperar contra um oponente superracional e, no limite de N grande , os resultados experimentais nas estratégias concordam com a versão superracional, não com a racional teórica do jogo.

Para que a cooperação surja entre os jogadores racionais da teoria dos jogos, o número total de rodadas N deve ser desconhecido para os jogadores. Nesse caso, "sempre defeito" pode não ser mais uma estratégia estritamente dominante, apenas um equilíbrio de Nash. Entre os resultados mostrados por Robert Aumann em um artigo de 1959, jogadores racionais interagindo repetidamente em jogos indefinidamente longos podem sustentar o resultado cooperativo.

De acordo com um estudo experimental de 2019 na American Economic Review que testou quais estratégias os sujeitos da vida real usaram em situações de dilema iterativas de prisioneiros com monitoramento perfeito, a maioria das estratégias escolhidas foram sempre defeito, olho por olho e gatilho sombrio . A estratégia escolhida pelos sujeitos dependia dos parâmetros do jogo.

Estratégia para o dilema do prisioneiro iterado

O interesse no dilema do prisioneiro iterativo (IPD) foi despertado por Robert Axelrod em seu livro The Evolution of Cooperation (1984). Nele, ele relata um torneio que organizou sobre o dilema do prisioneiro da etapa N (com N fixo), no qual os participantes devem escolher sua estratégia mútua repetidas vezes e ter memória de seus encontros anteriores. Axelrod convidou colegas acadêmicos em todo o mundo para desenvolver estratégias de computador para competir em um torneio IPD. Os programas inscritos variaram amplamente em complexidade algorítmica, hostilidade inicial, capacidade de perdão e assim por diante.

Axelrod descobriu que quando esses encontros eram repetidos por um longo período de tempo com muitos jogadores, cada um com estratégias diferentes, estratégias gananciosas tendiam a se sair muito mal no longo prazo, enquanto estratégias mais altruístas se saíam melhor, conforme julgado puramente por interesse próprio. Ele usou isso para mostrar um possível mecanismo para a evolução do comportamento altruísta a partir de mecanismos que são inicialmente puramente egoístas, por seleção natural .

A estratégia determinística da vitória foi olho por olho, que Anatol Rapoport desenvolveu e entrou no torneio. Foi o mais simples de todos os programas inscritos, contendo apenas quatro linhas do BASIC , e ganhou o concurso. A estratégia é simplesmente cooperar na primeira iteração do jogo; depois disso, o jogador faz o que seu oponente fez no movimento anterior. Dependendo da situação, uma estratégia ligeiramente melhor pode ser "olho por olho com perdão". Quando o oponente desiste, no próximo movimento, o jogador às vezes coopera de qualquer maneira, com uma pequena probabilidade (cerca de 1–5%). Isso permite a recuperação ocasional de ficar preso em um ciclo de deserções. A probabilidade exata depende da formação dos oponentes.

Ao analisar as estratégias de pontuação máxima, Axelrod estabeleceu várias condições necessárias para que uma estratégia fosse bem-sucedida.

agradável
A condição mais importante é que a estratégia deve ser "legal", ou seja, não irá desertar antes que seu oponente o faça (isso às vezes é chamado de algoritmo "otimista"). Quase todas as estratégias de pontuação máxima foram boas; portanto, uma estratégia puramente egoísta não "trapaceará" seu oponente, primeiro por razões puramente egoístas.
Retaliando
No entanto, argumentou Axelrod, a estratégia de sucesso não deve ser um otimista cego. Às vezes deve retaliar. Um exemplo de estratégia de não retaliação é Sempre coopere. Esta é uma escolha muito ruim, já que estratégias "desagradáveis" irão explorar implacavelmente esses jogadores.
Perdoando
As estratégias de sucesso também devem perdoar. Embora os jogadores venham a retaliar, eles voltarão mais uma vez a cooperar se o oponente não continuar a desertar. Isso interrompe longas corridas de vingança e contra-vingança, maximizando pontos.
Sem inveja
A última qualidade é não ter inveja, ou seja, não se esforçar para marcar mais pontos do que o adversário.

A estratégia ideal (maximização de pontos) para o jogo PD único é simplesmente a deserção; conforme explicado acima, isso é verdade seja qual for a composição dos oponentes. No entanto, no jogo de PD iterado, a estratégia ótima depende das estratégias dos prováveis ​​oponentes e de como eles reagirão a deserções e cooperações. Por exemplo, considere uma população onde todos desertam todas as vezes, exceto para um único indivíduo que segue a estratégia olho por olho. Esse indivíduo está em ligeira desvantagem devido à perda na primeira jogada. Em tal população, a estratégia ótima para aquele indivíduo é sempre desertar. Em uma população com uma certa porcentagem de sempre desertores e o resto sendo jogadores olho por olho, a estratégia ótima para um indivíduo depende da porcentagem e da duração do jogo.

Na estratégia chamada Pavlov, ganha-fica, perde-troca , diante da falta de cooperação, o jogador muda de estratégia no turno seguinte. Em certas circunstâncias, Pavlov vence todas as outras estratégias, dando tratamento preferencial aos co-jogadores usando uma estratégia semelhante.

Derivar a estratégia ideal geralmente é feito de duas maneiras:

  • Equilíbrio de Nash bayesiano : Se a distribuição estatística de estratégias opostas puder ser determinada (por exemplo, 50% tit for tat, 50% sempre cooperam), uma contra-estratégia ótima pode ser derivada analiticamente.
  • Simulações de Monte Carlo de populações foram feitas, onde os indivíduos com pontuações baixas morrem e aqueles com pontuações altas se reproduzem (um algoritmo genético para encontrar uma estratégia ótima). A mistura de algoritmos na população final geralmente depende da mistura na população inicial. A introdução de mutação (variação aleatória durante a reprodução) diminui a dependência da população inicial; experimentos empíricos com tais sistemas tendem a produzir jogadores olho por olho (ver, por exemplo, Chess 1988), mas não existe nenhuma prova analítica de que isso sempre ocorrerá.

Embora olho por olho seja considerada a estratégia básica mais robusta , uma equipe da Universidade de Southampton, na Inglaterra, apresentou uma nova estratégia na competição iterativa do dilema do prisioneiro de 20 anos, que provou ser mais bem-sucedida do que olho por olho. Essa estratégia baseou-se no conluio entre programas para atingir o maior número de pontos para um único programa. A universidade inscreveu 60 programas para a competição, que foram projetados para reconhecer uns aos outros por meio de uma série de cinco a dez movimentos no início. Feito esse reconhecimento, um programa sempre cooperava e o outro sempre desertava, garantindo o máximo de pontos para o desertor. Se o programa percebesse que estava jogando com um jogador que não fosse de Southampton, ele desertaria continuamente na tentativa de minimizar a pontuação do programa concorrente. Como resultado, os resultados do Torneio do Dilema dos Prisioneiros de 2004 mostram as estratégias da Universidade de Southampton nos três primeiros lugares, apesar de ter menos vitórias e muito mais derrotas do que a estratégia GRIM. (Em um torneio PD, o objetivo do jogo não é "ganhar" partidas - isso pode ser facilmente alcançado por deserções frequentes). Além disso, mesmo sem conluio implícito entre as estratégias de software (exploradas pela equipe de Southampton) olho por olho nem sempre é o vencedor absoluto de qualquer torneio; seria mais preciso dizer que seus resultados de longo prazo em uma série de torneios superam seus rivais. (Em qualquer caso, uma dada estratégia pode ser ligeiramente melhor ajustada à competição do que olho por olho, mas olho por olho é mais robusto). O mesmo se aplica ao olho por olho com a variante do perdão e outras estratégias ótimas: em um determinado dia, eles podem não "ganhar" contra uma combinação específica de contra-estratégias. Uma forma alternativa de colocar isso é usar a simulação de ESS darwiniana . Em tal simulação, olho por olho quase sempre virá a dominar, embora estratégias desagradáveis ​​entrem e saiam da população porque uma população olho por olho é penetrável por boas estratégias não retaliadoras, que por sua vez são presas fáceis para os desagradáveis estratégias. Richard Dawkins mostrou que aqui, nenhuma combinação estática de estratégias forma um equilíbrio estável e o sistema sempre oscilará entre os limites. Essa estratégia acabou levando as três primeiras posições da competição, assim como várias posições nas últimas.

A estratégia de Southampton aproveita o fato de que várias entradas foram permitidas nesta competição em particular e que o desempenho de uma equipe foi medido pelo jogador com a maior pontuação (o que significa que o uso de jogadores que se sacrificam era uma forma de minmaxing ) . Em uma competição em que se controla apenas um jogador, o olho por olho é certamente uma estratégia melhor. Por causa dessa nova regra, essa competição também tem pouco significado teórico ao analisar estratégias de agente único em comparação com o torneio seminal de Axelrod. No entanto, forneceu uma base para analisar como alcançar estratégias cooperativas em estruturas multiagentes, especialmente na presença de ruído. Na verdade, muito antes deste torneio de novas regras ser jogado, Dawkins, em seu livro The Selfish Gene , apontou a possibilidade de tais estratégias vencerem se múltiplas entradas fossem permitidas, mas ele observou que muito provavelmente Axelrod não as teria permitido se elas foi submetido. Também se baseia em contornar as regras sobre o dilema do prisioneiro, pois não há comunicação permitida entre os dois jogadores, o que os programas de Southampton sem dúvida fizeram com sua "dança de dez movimentos" de abertura para reconhecer um ao outro; isso apenas reforça o quão valiosa a comunicação pode ser na mudança do equilíbrio do jogo.

Dilema do prisioneiro iterativo estocástico

Em um jogo do dilema do prisioneiro iterativo estocástico, as estratégias são especificadas por em termos de "probabilidades de cooperação". Num encontro entre o jogador X e jogador Y , X 's estratégia é definida por um conjunto de probabilidades P de cooperar com Y . P é uma função dos resultados de seus encontros anteriores ou algum subconjunto deles. Se P é uma função apenas de seus n encontros mais recentes , é chamada de estratégia de "memória-n". Uma estratégia de memória-1 é então especificada por quatro probabilidades de cooperação:, onde é a probabilidade de X cooperar no encontro presente, visto que o encontro anterior foi caracterizado por (ab). Por exemplo, se o encontro anterior foi aquele em que X cooperou e Y desertou, então é a probabilidade de X cooperar no presente encontro. Se cada uma das probabilidades for 1 ou 0, a estratégia é chamada de determinística. Um exemplo de estratégia determinística é a estratégia olho por olho escrita como P = {1,0,1,0}, em que X responde como Y fez no encontro anterior. Outra é a estratégia ganhar-ficar, perder-trocar escrita como P = {1,0,0,1}, em que X responde como no encontro anterior, se foi uma "vitória" (ou seja, cc ou dc), mas muda estratégia se foi uma perda (ou seja, cd ou dd). Foi demonstrado que para qualquer estratégia de memória-n há uma estratégia de memória-1 correspondente que dá os mesmos resultados estatísticos, de modo que apenas as estratégias de memória-1 precisam ser consideradas.

Se definirmos P como o vetor de estratégia de 4 elementos de X acima e como o vetor de estratégia de 4 elementos de Y , uma matriz de transição M pode ser definida para X cuja ij ésima entrada é a probabilidade de que o resultado de um encontro particular entre X e Y será j dado que o encontro anterior foi i , onde i e j são um dos quatro índices de resultado: cc , cd , dc ou dd . Por exemplo, do ponto de vista de X , a probabilidade de que o resultado do presente encontro seja cd dado que o encontro anterior foi cd é igual a . (Os índices para Q são do ponto de vista de Y : um resultado cd para X é um resultado dc para Y. ) Sob essas definições, o dilema do prisioneiro iterado se qualifica como um processo estocástico e M é uma matriz estocástica , permitindo todos os a teoria dos processos estocásticos a ser aplicada.

Um resultado da teoria estocástica é que existe um vetor estacionário v para a matriz M tal que . Sem perda de generalidade, pode ser especificado que v é normalizado de forma que a soma de seus quatro componentes seja a unidade. A ij ésima entrada dará a probabilidade de que o resultado de um encontro entre X e Y seja j, dado que o encontro n etapas anteriores é i . No limite, conforme n se aproxima do infinito, M convergirá para uma matriz com valores fixos, dando as probabilidades de longo prazo de um encontro produzir j que será independente de i . Em outras palavras, as linhas de serão idênticas, fornecendo as probabilidades de resultado de equilíbrio de longo prazo do dilema dos prisioneiros iterados, sem a necessidade de avaliar explicitamente um grande número de interações. Pode-se ver que v é um vetor estacionário para e particularmente , de forma que cada linha de será igual av . Assim, o vector estacionária especifica as probabilidades resultado de equilíbrio para X . Definindo e como os vetores de payoff de curto prazo para os resultados {cc, cd, dc, dd} (do ponto de vista de X ), os payoffs de equilíbrio para X e Y podem agora ser especificados como e , permitindo as duas estratégias P e Q a serem comparados por seus retornos de longo prazo.

Estratégias de determinante zero

A relação entre o determinante zero (ZD), estratégias de cooperação e deserção no dilema do prisioneiro iterativo (IPD) ilustrado em um diagrama de Venn . As estratégias de cooperação sempre cooperam com outras estratégias de cooperação, e as estratégias de deserção sempre defraudam outras estratégias de deserção. Ambos contêm subconjuntos de estratégias que são robustas sob forte seleção, o que significa que nenhuma outra estratégia de memória 1 é selecionada para invadir tais estratégias quando elas residem em uma população. Apenas as estratégias de cooperação contêm um subconjunto que é sempre robusto, o que significa que nenhuma outra estratégia de memória 1 é selecionada para invadir e substituir tais estratégias, tanto na seleção forte quanto na fraca . A interseção entre ZD e boas estratégias de cooperação é o conjunto de estratégias generosas de ZD. As estratégias de extorsão são a interseção entre ZD e estratégias de defecção não robustas. Tit-for-tat encontra-se na interseção de estratégias de cooperação, deserção e ZD.

Em 2012, William H. Press e Freeman Dyson publicaram uma nova classe de estratégias para o dilema do prisioneiro iterativo estocástico denominado estratégias de "determinante zero" (ZD). Os payoffs de longo prazo para encontros entre X e Y podem ser expressos como o determinante de uma matriz que é uma função das duas estratégias e dos vetores de payoffs de curto prazo: e , que não envolvem o vetor estacionário v . Uma vez que a função determinante é linear em f , segue-se que (onde U = {1,1,1,1}). Quaisquer estratégias para as quais seja, por definição, uma estratégia ZD, e os payoffs de longo prazo obedecem a essa relação .

Tit-for-tat é uma estratégia ZD que é "justa" no sentido de não ganhar vantagem sobre o outro jogador. No entanto, o espaço ZD também contém estratégias que, no caso de dois jogadores, podem permitir que um jogador defina unilateralmente a pontuação do outro jogador ou, alternativamente, forçar um jogador evolucionário a obter um retorno algum percentual inferior ao seu. O jogador extorquido poderia desertar, mas assim se machucaria ao obter um pagamento menor. Assim, as soluções de extorsão transformam o dilema do prisioneiro iterativo em uma espécie de jogo de ultimato . Especificamente, X é capaz de escolher uma estratégia para a qual , definindo unilateralmente um valor específico dentro de uma faixa de valores particular, independente da estratégia de Y , oferecendo uma oportunidade para X "extorquir" o jogador Y (e vice-versa). (Acontece que se X tenta definir um valor específico, o intervalo de possibilidades é muito menor, consistindo apenas em cooperação completa ou deserção completa.)

Uma extensão da IPD é uma IPD estocástica evolucionária, na qual a abundância relativa de estratégias particulares pode mudar, com o aumento relativo das estratégias mais bem-sucedidas. Esse processo pode ser realizado fazendo com que os jogadores menos bem-sucedidos imitem as estratégias de mais sucesso ou eliminando os jogadores menos bem-sucedidos do jogo, enquanto multiplica os mais bem-sucedidos. Foi demonstrado que estratégias injustas de ZD não são evolutivamente estáveis . A intuição chave é que uma estratégia evolutivamente estável não deve apenas ser capaz de invadir outra população (o que as estratégias extorsivas de ZD podem fazer), mas também deve ter um bom desempenho contra outros jogadores do mesmo tipo (o que os jogadores extorsivos de ZD fazem mal, porque eles reduzem cada um excedente do outro).

A teoria e as simulações confirmam que, além de um tamanho populacional crítico, a extorsão ZD perde na competição evolutiva contra estratégias mais cooperativas e, como resultado, o retorno médio na população aumenta quando a população é maior. Além disso, há alguns casos em que extorsores podem até catalisar a cooperação, ajudando a romper um confronto entre desertores de uniformes e agentes ganha-fica e perde-troca .

Embora as estratégias extorsivas de ZD não sejam estáveis ​​em grandes populações, outra classe de ZD chamada de estratégias "generosas" é estável e robusta. Na verdade, quando a população não é muito pequena, essas estratégias podem suplantar qualquer outra estratégia ZD e até funcionar bem contra uma ampla gama de estratégias genéricas para o dilema do prisioneiro iterativo, incluindo ganhar-ficar, perder-trocar. Isso foi comprovado especificamente para o jogo de doação de Alexander Stewart e Joshua Plotkin em 2013. Estratégias generosas cooperam com outros jogadores cooperativos e, em face da deserção, o jogador generoso perde mais utilidade do que seu rival. Estratégias generosas são a intersecção de estratégias ZD e as chamadas estratégias "boas", que foram definidas por Akin (2013) para serem aquelas para as quais o jogador responde à cooperação mútua passada com cooperação futura e divide os retornos esperados igualmente se ele receber pelo menos o retorno esperado da cooperativa. Entre as boas estratégias, o subconjunto generoso (ZD) tem um bom desempenho quando a população não é muito pequena. Se a população for muito pequena, as estratégias de deserção tendem a dominar.

Dilema do prisioneiro iterativo contínuo

A maior parte dos trabalhos sobre o dilema do prisioneiro iterado concentrou-se no caso discreto, no qual os jogadores cooperam ou desertam, porque esse modelo é relativamente simples de analisar. No entanto, alguns pesquisadores analisaram modelos do dilema do prisioneiro iterativo contínuo, em que os jogadores são capazes de fazer uma contribuição variável para o outro jogador. Le e Boyd descobriram que, em tais situações, a cooperação é muito mais difícil de evoluir do que no dilema do prisioneiro iterativo discreto. A intuição básica para esse resultado é direta: em um dilema do prisioneiro contínuo, se uma população começa em um equilíbrio não cooperativo, os jogadores que são apenas marginalmente mais cooperativos do que os não cooperadores obtêm poucos benefícios em combinar uns com os outros. Em contraste, no dilema de um prisioneiro discreto, os cooperadores olho por olho obtêm um grande impulso de recompensa ao combinarem uns com os outros em um equilíbrio não cooperativo, em relação aos não cooperadores. Uma vez que a natureza sem dúvida oferece mais oportunidades para cooperação variável, em vez de uma dicotomia estrita de cooperação ou deserção, o dilema do prisioneiro contínuo pode ajudar a explicar por que exemplos da vida real de cooperação tipo olho por olho são extremamente raros na natureza (ex. Hammerstein), embora olho por olho parece robusto em modelos teóricos.

Emergência de estratégias estáveis

Os jogadores parecem não conseguir coordenar a cooperação mútua, portanto, muitas vezes ficam presos na estratégia inferior, porém estável, de deserção. Dessa forma, rodadas iteradas facilitam a evolução de estratégias estáveis. As rodadas iteradas geralmente produzem novas estratégias, que têm implicações na interação social complexa. Uma dessas estratégias é ganhar-ficar perder-turno. Essa estratégia supera uma estratégia simples de olho por olho - isto é, se você conseguir trapacear, repita esse comportamento, mas se for pego, troque.

O único problema dessa estratégia de olho por olho é que eles são vulneráveis ​​a erros de sinalização. O problema surge quando um indivíduo trapaceia em retaliação, mas o outro interpreta como trapaça. Como resultado disso, o segundo indivíduo agora trapaceia e então começa um padrão gangorra de trapaça em uma reação em cadeia.

Exemplos da vida real

O cenário do prisioneiro pode parecer artificial, mas na verdade existem muitos exemplos de interação humana, bem como de interações na natureza, que têm a mesma matriz de recompensa. O dilema do prisioneiro é, portanto, de interesse para as ciências sociais , como economia , política e sociologia , bem como para as ciências biológicas, como etologia e biologia evolutiva . Muitos processos naturais foram abstraídos em modelos nos quais os seres vivos estão envolvidos em jogos intermináveis ​​do dilema do prisioneiro. Esta ampla aplicabilidade do PD confere ao jogo sua importância substancial.

Estudos ambientais

Em estudos ambientais , a PD é evidente em crises como as mudanças climáticas globais . Argumenta-se que todos os países se beneficiarão de um clima estável, mas qualquer país costuma hesitar em conter o CO
2
emissões. O benefício imediato para qualquer país em manter o comportamento atual é erroneamente percebido como sendo maior do que o suposto benefício eventual para aquele país se o comportamento de todos os países fosse mudado, explicando, portanto, o impasse em relação às mudanças climáticas em 2007.

Uma diferença importante entre a política de mudança climática e o dilema do prisioneiro é a incerteza; a extensão e o ritmo em que a poluição pode alterar o clima não são conhecidos. O dilema enfrentado pelo governo é, portanto, diferente do dilema do prisioneiro, pois as recompensas da cooperação são desconhecidas. Essa diferença sugere que os estados cooperarão muito menos do que no dilema de um prisioneiro iterativo real, de modo que a probabilidade de evitar uma possível catástrofe climática é muito menor do que a sugerida por uma análise teórica de jogo da situação usando o dilema de um prisioneiro iterativo real.

Osang e Nandy (2003) fornecem uma explicação teórica com provas para uma situação win-win impulsionada pela regulamentação ao longo das linhas da hipótese de Michael Porter , em que a regulamentação governamental de empresas concorrentes é substancial.

Animais

O comportamento cooperativo de muitos animais pode ser entendido como um exemplo do dilema do prisioneiro. Freqüentemente, os animais se envolvem em parcerias de longo prazo, que podem ser modeladas mais especificamente como o dilema do prisioneiro iterativo. Por exemplo, guppies inspecionam predadores cooperativamente em grupos, e acredita-se que eles punem os inspetores não cooperativos.

Os morcegos vampiros são animais sociais que se envolvem na troca recíproca de alimentos. Aplicar as recompensas do dilema do prisioneiro pode ajudar a explicar este comportamento:

  • Coopere / coopere: "Recompensa: eu recebo sangue nas minhas noites de azar, o que me salva da fome. Tenho que doar sangue nas minhas noites de sorte, o que não me custa muito."
  • Defeito / Cooperar: "Tentação: Você salva minha vida na minha pobre noite. Mas então eu tenho o benefício adicional de não ter que pagar o pequeno custo de alimentá-lo na minha boa noite."
  • Cooperar / Defeito: "O pagamento do otário: pago o custo de salvar sua vida na minha boa noite. Mas na minha noite ruim, você não me alimenta e corro o risco real de morrer de fome."
  • Defeito / Defeito: "Castigo: Não tenho que pagar os pequenos custos de alimentá-lo nas minhas noites boas. Mas corro o risco real de morrer de fome nas minhas noites pobres."

Psicologia

Na pesquisa sobre vícios / economia comportamental , George Ainslie aponta que o vício pode ser considerado um problema intertemporal de DP entre o eu presente e futuro do viciado. Nesse caso, desertar significa recaída , e é fácil ver que não desertar hoje e no futuro é de longe o melhor resultado. O caso em que alguém se abstém hoje, mas recai no futuro é o pior resultado - em certo sentido, a disciplina e o auto-sacrifício envolvidos na abstenção hoje foram "desperdiçados" porque a recaída futura significa que o viciado está de volta ao ponto de partida e irá tem que recomeçar (o que é bastante desmoralizante e torna o recomeço mais difícil). A recaída hoje e amanhã é um resultado ligeiramente "melhor", porque, embora o viciado ainda esteja viciado, ele não se esforçou para tentar parar. O último caso, em que alguém se envolve em um comportamento viciante hoje enquanto se abstém "amanhã", será familiar para qualquer pessoa que lutou contra um vício. O problema aqui é que (como em outros PDs) há um benefício óbvio em desertar "hoje", mas amanhã enfrentará o mesmo PD, e o mesmo benefício óbvio estará presente então, levando a uma sequência interminável de deserções.

John Gottman, em sua pesquisa descrita em "The Science of Trust", define bons relacionamentos como aqueles em que os parceiros sabem que não devem entrar na célula (D, D) ou, pelo menos, não ficar presos dinamicamente lá em um loop. Na neurociência cognitiva , a sinalização rápida do cérebro associada ao processamento de diferentes rodadas pode indicar escolhas na próxima rodada. Os resultados da cooperação mútua envolvem mudanças na atividade cerebral que prevêem a rapidez com que uma pessoa cooperará na mesma moeda na próxima oportunidade; essa atividade pode estar ligada a processos homeostáticos e motivacionais básicos, possivelmente aumentando a probabilidade de um atalho para a célula (C, C) do jogo.

Economia

O dilema do prisioneiro tem sido chamado de E. coli da psicologia social e tem sido amplamente usado para pesquisar vários tópicos, como competição oligopolística e ação coletiva para produzir um bem coletivo.

A propaganda às vezes é citada como um exemplo real do dilema do prisioneiro. Quando a publicidade de cigarros era legal nos Estados Unidos, os fabricantes de cigarros concorrentes tinham que decidir quanto dinheiro gastar em publicidade. A eficácia da publicidade da Empresa A foi parcialmente determinada pela publicidade conduzida pela Empresa B. Da mesma forma, o lucro derivado da publicidade para a Empresa B é afetado pela publicidade conduzida pela Empresa A. Se a Empresa A e a Empresa B escolheram anunciar durante um determinado período, então o anúncio de cada empresa nega o da outra, as receitas permanecem constantes e as despesas aumentam devido ao custo da publicidade. Ambas as empresas se beneficiariam com uma redução na publicidade. No entanto, caso a Empresa B opte por não anunciar, ela poderá se beneficiar muito com a publicidade. No entanto, a quantidade ideal de publicidade de uma empresa depende de quanta publicidade a outra empreende. Como a melhor estratégia depende do que a outra empresa escolhe, não existe uma estratégia dominante, o que a torna ligeiramente diferente do dilema de um prisioneiro. O resultado é semelhante, porém, em que ambas as empresas estariam em melhor situação se anunciassem menos do que no equilíbrio. Às vezes, comportamentos cooperativos surgem em situações de negócios. Por exemplo, os fabricantes de cigarros endossaram a elaboração de leis que proíbem a publicidade de cigarros, por entender que isso reduziria os custos e aumentaria os lucros em toda a indústria. É provável que essa análise seja pertinente em muitas outras situações de negócios que envolvem publicidade.

Sem acordos executáveis, os membros de um cartel também estão envolvidos no dilema de um prisioneiro (multijogador). 'Cooperar' normalmente significa manter os preços em um nível mínimo pré-acordado. 'Deserção' significa vender abaixo desse nível mínimo, obtendo instantaneamente negócios (e lucros) de outros membros do cartel. As autoridades antitruste querem que os membros do cartel em potencial desertem mutuamente, garantindo os preços mais baixos possíveis para os consumidores .

Esporte

O doping no esporte foi citado como um exemplo do dilema de um prisioneiro.

Dois atletas competidores têm a opção de usar uma droga ilegal e / ou perigosa para melhorar seu desempenho. Se nenhum dos atletas tomar a droga, nenhum deles terá vantagem. Se apenas um o fizer, esse atleta ganha uma vantagem significativa sobre seu competidor, reduzida pelos perigos legais e / ou médicos de ter tomado a droga. Se ambos os atletas tomarem a droga, no entanto, os benefícios se cancelam e apenas os perigos permanecem, colocando os dois em uma posição pior do que se nenhum deles tivesse usado doping.

Políticas internacionais

Na teoria política internacional , o Dilema do Prisioneiro é frequentemente usado para demonstrar a coerência do realismo estratégico, que sustenta que nas relações internacionais, todos os estados (independentemente de suas políticas internas ou ideologia professada), agirão em seu próprio interesse racional dada a anarquia internacional . Um exemplo clássico é uma corrida armamentista como a Guerra Fria e conflitos semelhantes. Durante a Guerra Fria, as alianças opostas da OTAN e do Pacto de Varsóvia tiveram a opção de armar ou desarmar. Do ponto de vista de cada lado, desarmar enquanto o oponente continuava a se armar teria levado à inferioridade militar e possível aniquilação. Por outro lado, armar enquanto o oponente está desarmado levaria à superioridade. Se ambos os lados escolhessem se armar, nenhum poderia se dar ao luxo de atacar o outro, mas ambos incorriam no alto custo de desenvolver e manter um arsenal nuclear. Se ambos os lados optassem pelo desarmamento, a guerra seria evitada e não haveria custos.

Embora o "melhor" resultado geral seja o desarmamento de ambos os lados, o curso racional para ambos os lados é se armar, e de fato foi isso que aconteceu. Ambos os lados despejaram enormes recursos em pesquisa militar e armamento em uma guerra de desgaste pelos próximos trinta anos, até que a União Soviética não pudesse suportar o custo econômico. A mesma lógica poderia ser aplicada em qualquer cenário semelhante, seja a competição econômica ou tecnológica entre estados soberanos.

Dilemas multijogador

Muitos dilemas da vida real envolvem vários jogadores. Embora metafórica, a tragédia dos comuns de Hardin pode ser vista como um exemplo de uma generalização multiplayer do PD: Cada morador faz uma escolha para ganho pessoal ou moderação. A recompensa coletiva pela deserção unânime (ou mesmo frequente) são recompensas muito baixas (representando a destruição dos "bens comuns"). Um dilema comum com o qual a maioria das pessoas pode se identificar é lavar a louça em uma casa compartilhada. Ao não lavar a louça, o indivíduo pode ganhar com a economia de tempo, mas se esse comportamento for adotado por todos os moradores, o custo coletivo não é pratos limpos para ninguém.

Os bens comuns nem sempre são explorados: William Poundstone , em um livro sobre o dilema do prisioneiro, descreve uma situação na Nova Zelândia onde caixas de jornais são deixadas destrancadas. É possível que as pessoas levem um papel sem pagar ( desertam ), mas muito poucos o fazem, sentindo que se não pagarem, os outros também não o farão, destruindo o sistema. Uma pesquisa subsequente de Elinor Ostrom , vencedora do Prêmio Nobel Memorial de Ciências Econômicas de 2009 , levantou a hipótese de que a tragédia dos comuns é simplificada demais, com o resultado negativo influenciado por influências externas. Sem complicar as pressões, os grupos comunicam e administram os bens comuns entre si para seu benefício mútuo, aplicando normas sociais para preservar o recurso e alcançar o bem máximo para o grupo, um exemplo de como obter o melhor resultado de caso para DP.

Jogos relacionados

Troca de bolsa fechada

O dilema do prisioneiro como uma troca de pasta

Douglas Hofstadter uma vez sugeriu que as pessoas geralmente acham os problemas como o problema de DP mais fáceis de entender quando é ilustrado na forma de um jogo simples ou de compensação. Um dos vários exemplos que ele usou foi "troca de bolsa fechada":

Duas pessoas se encontram e trocam bolsas fechadas, por entender que uma contém dinheiro e a outra contém uma compra. Qualquer jogador pode escolher honrar o acordo colocando em sua bolsa o que concordou, ou pode desertar entregando uma bolsa vazia.

Amigo ou inimigo?

Amigo ou inimigo? é um game show que foi ao ar de 2002 a 2003 na Game Show Network nos Estados Unidos. É um exemplo do jogo do dilema do prisioneiro testado em pessoas reais, mas em um ambiente artificial. No game show, três pares de pessoas competem. Quando um par é eliminado, eles jogam um jogo semelhante ao dilema do prisioneiro para determinar como os ganhos são divididos. Se ambos cooperarem (Amigo), eles dividem os ganhos de 50–50. Se um cooperar e o outro falhar (Inimigo), o desertor fica com todos os ganhos e o cooperador não ganha nada. Se ambos defeituosos, ambos saem sem nada. Observe que a matriz de recompensa é ligeiramente diferente da matriz padrão fornecida acima, pois as recompensas para os casos de "ambos os defeitos" e "coopere enquanto o oponente deserta" são idênticas. Isso torna o caso de "ambos os defeitos" um equilíbrio fraco, comparado a ser um equilíbrio estrito no dilema padrão do prisioneiro. Se um competidor sabe que seu oponente vai votar "Inimigo", então sua própria escolha não afeta seus próprios ganhos. Em um sentido específico, Amigo ou Inimigo tem um modelo de recompensa entre o dilema do prisioneiro e o jogo do Frango .

A matriz de recompensas é

Par 2
Par 1
"Amigo"
(coopere)
"Inimigo"
(defeito)
"Amigo"
(coopere)
1
1
2
0
"Inimigo"
(defeito)
0
2
0
0

Essa matriz de recompensa também foi usada nos programas de televisão britânicos Trust Me , Shafted , The Bank Job e Golden Balls , e nos game shows americanos Take It All , bem como para o casal vencedor nos programas Reality Show Bachelor Pad and Love Ilha . Os dados do jogo da série Golden Balls foram analisados ​​por uma equipe de economistas, que descobriram que a cooperação era "surpreendentemente alta" para quantias de dinheiro que pareceriam importantes no mundo real, mas eram comparativamente baixas no contexto do jogo.

Monte de neve iterado

Pesquisadores da Universidade de Lausanne e da Universidade de Edimburgo sugeriram que o "Jogo Snowdrift Iterado" pode refletir mais de perto as situações sociais do mundo real. Embora este modelo seja na verdade um jogo de frango , ele será descrito aqui. Nesse modelo, o risco de ser explorado por meio da deserção é menor e os indivíduos sempre ganham ao fazer a escolha cooperativa. O jogo snowdrift imagina dois motoristas que estão presos em lados opostos de um monte de neve , cada um dos quais tem a opção de remover a neve para limpar um caminho ou permanecer em seu carro. A maior recompensa de um jogador vem de deixar o oponente limpar toda a neve sozinho, mas o oponente ainda é nominalmente recompensado por seu trabalho.

Isso pode refletir melhor os cenários do mundo real, os pesquisadores dando o exemplo de dois cientistas colaborando em um relatório, os quais se beneficiariam se o outro trabalhasse mais. "Mas quando seu colaborador não faz nenhum trabalho, provavelmente é melhor que você faça todo o trabalho sozinho. Você ainda vai terminar com um projeto concluído."

Exemplo de pagamentos de neve (A, B)
 UMA
Coopera Defeitos
Coopera 200, 200 100, 300
Defeitos 300, 100 0, 0
Pagamentos de PD de exemplo (A, B)
 UMA
Coopera Defeitos
Coopera 200, 200 -100, 300
Defeitos 300, -100 0, 0

Jogos de coordenação

Em jogos de coordenação, os jogadores devem coordenar suas estratégias para um bom resultado. Um exemplo são dois carros que se encontram abruptamente em uma nevasca; cada um deve escolher se deseja desviar para a esquerda ou para a direita. Se ambos virarem para a esquerda ou para a direita, os carros não colidem. A convenção local de tráfego para as mãos esquerda e direita ajuda a coordenar suas ações.

Os jogos de coordenação simétricos incluem caça ao veado e Bach ou Stravinsky .

Dilemas do prisioneiro assimétrico

Um conjunto mais geral de jogos é assimétrico. Como no dilema do prisioneiro, o melhor resultado é a cooperação e há motivos para deserção. Ao contrário do dilema do prisioneiro simétrico, porém, um jogador tem mais a perder e / ou mais a ganhar do que o outro. Alguns desses jogos foram descritos como o dilema do prisioneiro, no qual um prisioneiro tem um álibi , daí o termo "jogo do álibi".

Em experimentos, os jogadores que obtêm pagamentos desiguais em jogos repetidos podem buscar maximizar os lucros, mas apenas sob a condição de que ambos os jogadores recebam pagamentos iguais; isso pode levar a uma estratégia de equilíbrio estável na qual o jogador em desvantagem deserte todos os jogos X, enquanto o outro sempre coopera. Tal comportamento pode depender das normas sociais do experimento sobre justiça.

Programas

Vários pacotes de software foram criados para executar simulações e torneios do dilema do prisioneiro, alguns dos quais com código-fonte disponível.

Em ficção

Hannu Rajaniemi definiu a cena de abertura de sua trilogia The Quantum Thief em uma "prisão de dilema". O tema principal da série foi descrito como a "inadequação de um universo binário" e o antagonista final é um personagem chamado All-Defector. Rajaniemi é particularmente interessante como um artista que trata deste assunto, visto que ele é um matemático formado em Cambridge e possui um PhD em física matemática  - a intercambialidade de matéria e informação é uma característica importante dos livros, que ocorrem em uma "pós-singularidade " futuro. O primeiro livro da série foi publicado em 2010, com as duas sequências, The Fractal Prince e The Causal Angel , publicadas em 2012 e 2014, respectivamente.

Um jogo modelado após o dilema do prisioneiro (iterativo) é o foco central do videogame Zero Escape: Virtue's Last Reward de 2012 e uma pequena parte em sua sequência de 2016 Zero Escape: Zero Time Dilemma .

Em The Mysterious Benedict Society e o Prisoner's Dilemma, de Trenton Lee Stewart , os personagens principais começam jogando uma versão do jogo e escapam da "prisão" por completo. Mais tarde, eles se tornam prisioneiros reais e escapam mais uma vez.

No subarc The Adventure Zone : Balance during The Suffering Game , os personagens dos jogadores são apresentados duas vezes ao dilema do prisioneiro durante seu tempo no domínio de dois liches, uma vez em cooperação e uma vez em deserção.

No 8º romance do autor James SA Corey Tiamat's Wrath , Winston Duarte explica o dilema dos prisioneiros a sua filha de 14 anos, Teresa, para treiná-la no pensamento estratégico.

Um exemplo do dilema de um prisioneiro é apresentado no filme de 2008, O Cavaleiro das Trevas, no qual o Coringa monta duas balsas, uma contendo prisioneiros e outra contendo civis. No final das contas, os dois lados decidem não detonar a bomba.

Veja também

Referências

Leitura adicional

links externos