O que é o Dilema dos Prisioneiros

O Dilema dos Prisioneiros é um dos jogos mais famosos no mundo da Teoria dos Jogos — apresenta a história de dois prisioneiros e o dilema entre trair e cooperar.[1] Na prática, esse jogo representa várias situações da vida cotidiana ou corporativa em que, embora a colaboração entre os prisioneiros (jogadores, pessoas) proporcione resultados melhores, individualmente a melhor escolha é trair, prejudicando a todos.

Resumidamente, a história é a seguinte: dois suspeitos, A e B, são presos pela polícia. Como não existem provas suficientes para condená-los, eles são presos em celas diferentes e é oferecido a ambos o mesmo acordo:

  • Se um deles confessar o crime (ou seja, trair o comparsa) e o outro permanecer em silêncio, quem confessou sai livre enquanto o cúmplice silencioso cumpre dez anos.
  • Se ambos ficarem em silêncio (colaborarem um com ou outro), a polícia só pode condenar cada um dos suspeitos a um ano de prisão.
  • Se ambos confessarem (traírem o comparsa), cada um ficará cinco anos na cadeia.

Cada prisioneiro toma a decisão sem saber da escolha do outro — eles não podem conversar. Como os prisioneiros vão reagir? Existe alguma decisão racional a tomar? Qual seria a sua decisão?

Uma forma esquemática para mostrar uma interação humana, ou seja, um jogo, é usar uma matriz de resultados.[2] Embora o enunciado do problema seja simples e intuitivo, a representação gráfica nos oferece grande ajuda para visualizar o cenário completo e entender as opções de cada jogador e suas respectivas implicações.

Figura 1 — Matriz de resultados do Dilema dos Prisioneiros

Nesta figura você visualiza as opções de cada prisioneiro e o resultado de cada combinação de ações. Para cada célula, os valores à direita referem-se ao Prisioneiro A e os da esquerda, ao Prisioneiro B. Estão descritas também as penas de cada um. Neste cenário, quanto menor o valor da pena, melhor para os prisioneiros.

Lembremos que eles não podem combinar o que fazer (estão em celas isoladas e sem comunicação) e devem escolher simultaneamente. Cada jogador quer ficar preso o menor tempo possível, ou seja, maximizar seu resultado individual. Qual é a melhor decisão?

Resolvendo o jogo

Considerando os incentivos do jogo (os valores das penas de prisão para cada combinação de decisões na matriz), existe uma única decisão racional a tomar, que parece ser contrária à intuição: Trair. A explicação é a seguinte: imagine que você é o Prisioneiro A. Assim, deve considerar duas hipóteses:

  • Suponha que o Prisioneiro B escolha Colaborar. Então, se você escolher Colaborar, pega um ano de prisão. Se escolher Trair, você sai livre. Nesse caso, Trair é a melhor opção.
Figura 2 — Melhor resposta do Prisioneiro A se o Prisioneiro B escolher COLABORAR
  • Suponha que o Prisioneiro B escolha Trair. Então, se você escolher Colaborar, leva dez anos de prisão. Se escolher Trair, fica com cinco anos. Nesse caso, Trair é a melhor opção.
Figura 3 — Melhor resposta do Prisioneiro A se o Prisioneiro B escolher TRAIR

Perceba que Trair é a melhor opção em ambos os casos. Em outras palavras, Trair é a melhor opção, independentemente da decisão do outro.

Agora, imagine o que o Prisioneiro B está pensando. Se ele é racional como você, provavelmente pensa a mesma coisa.

  • Ele supõe que você vai escolher Colaborar. Então, se ele escolher Colaborar, leva 1 ano de prisão. Se escolher Trair, sai livre. Nesse caso, Trair é a melhor opção.
  • Ele supõe que você vai escolher Trair. Então, se ele escolher Colaborar, leva dez anos de prisão. Se escolher Trair, fica com cinco anos de prisão. Nesse caso, Trair é a melhor opção.
De novo, perceba que Trair é a melhor opção em ambas situações.

Em Teoria dos Jogos, chamamos a estratégia Trair de estratégia dominante, ou seja, aquela que apresenta o melhor resultado, independentemente da decisão do outro jogador. Quando, em certo jogo, devido ao esquema de incentivos (a matriz de resultados), você não precisa se preocupar com a decisão alheia porque existe uma opção melhor, independente do seu competidor, então você deve escolher a estratégia dominante.

Nesse exemplo dos prisioneiros, como ambos vão escolher Trair, devido à estratégia dominante, cada um ficará preso por cinco anos. Assim, dizemos que Trair-Trair é a solução de equilíbrio, equilíbrio do jogo ou Equilíbrio de Nash.[3] O Equilíbrio de Nash é a solução (combinação de decisões) em que nenhum jogador pode melhorar seu resultado com uma ação unilateral. Ou seja, dado que Trair-Trair é a solução de equilíbrio (o resultado racional do jogo), se o Prisioneiro A mudar unilateralmente para Colaborar, ele sai perdendo (dez anos); o mesmo ocorre com o Prisioneiro B.

O dilema: a escolha individual não é o melhor para ambos

O grande problema no Dilema dos Prisioneiros é que o equilíbrio (Trair-Trair) não é o melhor resultado, pois existe um outro possível e bem melhor: se ambos escolherem Colaborar (ficar em silêncio), cada um ficaria apenas um ano na prisão. Por isso, dizemos que o Dilema dos Prisioneiros resulta em um equilíbrio ineficiente, pois o esquema de incentivos e a racionalidade induzem a um resultado pior.

Você poderia imaginar que esse equilíbrio só ocorre porque as pessoas não podem conversar e combinar as ações; se pudessem fazer um acordo prévio, tudo se resolveria. Isso não é necessariamente verdade. Você quer colaborar (ficar em silêncio), mas quem garante que o seu parceiro fará o mesmo? Quanto você confia no outro jogador?

Imagine que você é um bandido e combina previamente com seu comparsa que, se forem pegos, não vão trair um ao outro. Então você é preso, sua vida está em jogo e você quer manter sua palavra. Seu comparsa sabe isso. Então, o que garante que, no último instante, ele não vai te trair, justamente sabendo que você vai colaborar? Para ele é simples: ele sai livre e você pega dez anos de prisão… Mas então já é tarde.

Provavelmente o seu comparsa pensará da mesma forma a seu respeito. Ele pode realmente confiar em você? Por isso, o Dilema dos Prisioneiros se torna, na verdade, um dilema de confiança. Como resolver essa questão? Você verá mais adiante, mas antes vamos mostrar mais alguns exemplos desse dilema.

Mas não é só combinar o jogo?

Escuto essa pergunta frequentemente. Afinal, basta combinar a cooperação e pronto. Existe um jogo que faço em palestras para provar que não é simples assim. Geralmente eu chamo um voluntário que ainda desconhece a dinâmica do Dilema dos Prisioneiros e mostro o seguinte esquema de incentivos.

Figura 4 — Dilema dos Prisioneiros com outra matriz de resultados

Explico que os números representam pontos, mas poderiam ser dinheiro ou balas. O objetivo é conseguir o maior valor possível, mas vamos jogar apenas uma vez. Forneço um tipo de cartão com as duas opções (Esquerda ou Direita) e peço que ambos (eu e o voluntário) mostremos os cartões para a plateia simultaneamente. Não podemos combinar, conversar nem ver a opção do outro previamente. Note que não existe a palavra “colaborar” ou “trair” no jogo, mas, com um olhar atento às pontuações, dá para entender qual é qual.

Não surpreendentemente, o voluntário geralmente escolhe Esquerda, pensando conquistar 3 pontos, pois parece ser razoável para todos. E eu, de propósito, escolho Direita, ganho 5 pontos e o voluntário, zero. Imediatamente aparece uma frustração no rosto dele. “Por que ele fez isso?”, ele se pergunta. Eu respondo que o jogo é claro: conquistar a maior pontuação. Eu consegui, não há nada de errado nisso. Arrisquei e ganhei.

Então lhe proponho uma nova jogada. O voluntário se anima, escolhe Esquerda de novo e eu o “traio” mais uma vez, jogando Direita. Daí o voluntário fica bravo. Eu faço a soma das duas rodadas e, ironicamente, esbanjo “inteligência”.

Finalmente eu digo: “Vamos combinar de escolher Esquerda/Esquerda?”. O voluntário parece confiar, eu retomo a credibilidade, e jogamos mais uma vez. Apresentamos os cartões de novo, e eu… Novamente escolho Direita (traio!). Ganho 5 pontos mais uma vez e ele, zero! Não cumpri minha palavra, certo? Ora, isso é um jogo, e o objetivo claro é ganhar mais pontos.

Proponho mais uma rodada. Sabe o que acontece? O voluntário começa a trair, e eu também, e ninguém mais ganha muitos pontos. Perdemos a confiança um no outro, mas ganhei vários pontos nas primeiras jogadas. Tudo isso foi de propósito para reforçar alguns insights.

Primeiro, o esquema de incentivos (as pontuações) induz mais à traição do que à cooperação, mesmo que a cooperação forneça melhores resultados para ambos desde o início.

Segundo, a confiança é desacreditada após a primeira traição. Mesmo que se diga “Vamos combinar de colaborar”, é difícil acreditar, pois é tentador trair para ganhar mais. Não há garantias.

O Dilema dos Prisioneiros na prática: a guerra de preços

O conflito típico dos jogos da categoria Dilema dos Prisioneiros é aquele em que cada jogador escolhe sua estratégia dominante e o resultado do jogo é pior para o grupo como um todo — é o conflito entre o interesse individual e o coletivo. Na prática, esse jogo-modelo é uma das metáforas mais poderosas da ciência do comportamento humano, pois inúmeras interações sociais e econômicas têm a mesma estrutura de incentivos (a matriz de resultados).

Imagine uma cidade com apenas dois postos de gasolina. Você é dono de um deles, chamado GASOIL, que fica ao lado do posto do seu concorrente, o AUTOGAS. Devido à proximidade dos dois, quando uma pessoa precisa abastecer o carro, ela vai até eles, confere os preços e escolhe o menor. Embora existam outras características que diferenciam os postos, como a cordialidade e a velocidade dos frentistas, considere por um momento que o preço é o fator mais relevante.

Assim, se o critério é preço, alguns centavos a menos podem induzir parte dos clientes a preferir o posto que cobra o menor valor. Por exemplo, quem abaixar o preço em 5% ganha cerca de 30% dos clientes do concorrente. Esse aumento de volume de clientes compensa o preço reduzido, melhorando a rentabilidade, enquanto o outro perde faturamento. Por isso, você pensa: “Que tal abaixar o preço do litro de $3 para $2,90?”. Isso fará com que os habituais clientes do AUTOGAS (concorrente) passem a abastecer no GASOIL (o seu posto).

A vida empresarial seria mais fácil se as decisões fossem assim, isoladas. Entretanto, como o seu concorrente vai reagir? Ao notar que você abaixou o preço e ele perdeu clientes, ele também vai abaixar o preço para $2,90. Como resultado, os dois postos terão preço igual ($2,90 no lugar de $3) e o mesmo volume de clientes, como antes, mas ambas as empresas perdem faturamento e lucro. Essa é a essência da guerra de preços, que prejudica o negócio dos dois postos.

Suponha que vocês tomem a decisão simultaneamente. Se hoje é domingo, vocês vão decidir o preço da segunda-feira. Durante o dia não é possível alterar o preço, mas apenas de um dia para outro. Vocês não se conversam e não sabem qual preço o outro vai adotar. Você ficará sabendo apenas no dia seguinte, e qualquer arrependimento será tarde demais — você terá de esperar pelo menos um dia inteiro para tomar qualquer providência, isto é, até o dia seguinte.

Considerando essa dinâmica de mercado com clientes sensíveis ao preço, os dois postos têm incentivos para abaixar o preço e ganhar mais momentaneamente. Entretanto, se os dois o fizerem, ambos saem perdendo. Assim, preventivamente, você conversa com o dono do AUTOGAS, e vocês combinam de não abaixar os preços. Ele concorda, mas você vai dormir com a dúvida: será que posso confiar nele? Se ele abaixar o preço à noite, você perderá toda a clientela do dia seguinte. Você está num dilema — o dilema da confiança, ou Dilema dos Prisioneiros.

Embora seja intuitivo, podemos representar, a seguir, a matriz de resultados dos postos de gasolina. Em cada célula (combinação de escolhas), o valor da esquerda refere-se aos ganhos do GASOIL, e o valor da direita aos ganhos do AUTOGAS. O valor em si é meramente ilustrativo, mas a proporção entre eles é relevante para a decisão.

Figura 5 — Matriz de Resultados dos postos de gasolina

Se ambos colaborarem (manterem o preço original), os dois ganham $50 por dia. Se um deles abaixar o preço, recebe $60, enquanto o que mantém recebe apenas $30. Já se ambos reduzirem o preço, o resultado para cada um será $40, pois significa abaixar o preço sem aumentar o volume de clientes. De acordo com a metodologia de análise no Dilema dos Prisioneiros, reduzir-reduzir é o ponto de equilíbrio ($40, $40), pois abaixar o preço é a estratégia dominante em cada um, resultando em valor pior se comparado àquele inicial.

Eles caíram na armadilha, e muitos chamam essas situações de dilema social — o interesse individual e a análise estritamente matemática e racional induzem a resultados piores do que opções que consideram o interesse coletivo. Como já foi mencionado, é difícil sair dessa armadilha — quem vai arriscar a colaborar (manter o preço), se há chance de o outro trair (reduzir o preço) e ganhar sozinho?


[1] O Dilema dos Prisioneiros foi inventado em 1950 por Merrill Flood e Melvin Dresher e foi adaptado e divulgado por A. W. Tucker.

[2] Em inglês, o termo usado é “payoff matrix”. Em português, existem algumas variantes: matriz de resultados, matriz de recompensas e matriz de pagamentos.

[3] O nome Equilíbrio de Nash é devido ao seu teórico, John Nash Jr., ganhador do prêmio Nobel em 1994, que foi retratado no filme Uma mente brilhante, em 2001.


Este artigo faz parte do livro Estratégias de Decisão, de Fernando Barrichelo. Nele você verá como resolver esse dilema com mais detalhes.

1. Versão Impressa:

CLUBE DOS AUTORES: https://lnkd.in/eGCYFfS

2. Versão Digital E-pub:

SARAIVA: https://lnkd.in/eMua22c

CULTURA: https://lnkd.in/euGsua3

3. Versão Kindle:

AMAZON BRASIL: https://lnkd.in/eUs5G-b

AMAZON USA: https://lnkd.in/eb4Gdtk

4. Também está disponível no iBooks do seu ipad ou iphone (não tem link para mandar, basta acessar o aplicativo mesmo e fazer a busca).

5. Resenha: https://lnkd.in/eKtwWac