Dilema De Los Prisioneros.docx

  • Uploaded by: Elizabeth Alfonzo
  • 0
  • 0
  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Dilema De Los Prisioneros.docx as PDF for free.

More details

  • Words: 3,448
  • Pages: 15
DILEMA DE LOS PRISIONEROS La teoría de juegos cuenta con una compilación de juegos entre los que se encuentra el dilema del prisionero. Es un juego no cooperativo, estático y con información completa. Por lo tanto, no permite a los jugadores llegar a un acuerdo sobre las estrategias que van a llevar a cabo, así que las decisiones que toman los jugadores se realizan simultáneamente. Además, todos ellos conocen las consecuencias que conlleva su toma de decisiones, tanto para los demás como para sí mismos. El dilema del prisionero es probablemente el juego más utilizado en la teoría de juegos. Su uso ha trascendido la economía, ya que actualmente se utiliza en campos como administración de empresas, psicología, o biología. Apodado en 1950 por Albert W. Tucker, que lo desarrolló a partir de trabajos anteriores, describe una situación en la que dos prisioneros, sospechosos de robo, pasan a estar en custodia de la policía. Sin embargo, los policías no tienen suficientes pruebas para condenarlos de ese crimen, sólo para condenarlos por el cargo de posesión de bienes robados, que conlleva una pena mucho menor. Si ninguno de ellos confiesa, ambos serán sentenciados a la pena menor, un año de prisión cada uno. La policía los interrogará en salas de interrogatorio

diferentes,

lo

que

significa que los dos prisioneros no pueden comunicarse entre ellos (por lo tanto tendrán información imperfecta). La policía tratará de convencer a cada prisionero de que confiese el crimen, ofreciéndoles salir libres de inmediato, mientras que el otro prisionero será condenado a una pena de diez años. Si ambos prisioneros confiesan, cada preso será condenado a ocho años. A ambos prisioneros se les ofrece el mismo trato, ambos conocen las consecuencias de cada acción y son completamente conscientes de que al otro prisionero se le ha ofrecido el mismo trato.

Para que una matriz de pagos represente un “dilema del prisionero” deben concurrir las siguientes circunstancias: a) Confesar uno sólo debe ser mejor para él que no confesar mutuamente. b) No confesar mutuamente debe ser a su vez mejor confesar ambos. c) Confesar ambos debe ser a su vez mejor que no confesar uno sólo. d) Cuando cada uno elige una estrategia diferente, confesar y no confesar, la ganancia media entre estas dos estrategias (3 meses y 10 años) no puede ser mejor que las estrategias de confesar ambos (1 año).

Descripción del juego: Dado que los presos no pueden comunicarse y deberán (supuestamente) tomar su decisión al mismo tiempo, este se considera un juego simultáneo, y puede ser analizado utilizando la forma estratégica, como se muestra en la matriz de juego adyacente. Como se ha descrito antes, si los dos prisioneros confiesan el crimen se les condenará a una pena de ocho años cada uno. Si ninguno confiesa, se les condenará a un año cada uno. Si sólo uno confiesa, ese prisionero saldrá libre, mientras que el otro se condenará a diez años de cárcel. Estas pueden ser vistas como los pagos para cada conjunto de estrategias. Eliminar todas las estrategias dominadas, con el fin de obtener la estrategia dominante, puede resolver este juego. Esto es, cada prisionero analizará su mejor estrategia

dada

las

posibles

estrategias del otro prisionero. El prisionero 1 (P1) tiene analizar lo que P2 se va a hacer, con el fin de elegir la mejor estrategia. Si P2 confiesa (P2C), P1 obtendrá un pago de -8 o 0, y si miente (P2M) obtendrá -10 o -1. Se puede ver fácilmente que P2 elegirá confesar, ya que le resulta

más conveniente. Por lo tanto, P1 debe elegir la mejor estrategia dado que P2 elegirá a confesar: P1 puede confesar (P1C, con un pago de -8) o mentir (P1M, con un pago de -10). Lo racional para P1 es confesar. Procediendo a la inversa, se analizan las creencias que P2 tiene sobre las estrategias de P1, lo que nos lleva al mismo punto: lo racional para P2 es confesar. Por lo tanto, “confesar” es la estrategia dominante. P1C, P2C es el equilibrio de Nash en este juego (subrayado en rojo), ya que es el conjunto de estrategias que maximizan la utilidad de cada prisionero dada la estrategia del otro prisionero. Los equilibrios Nash se pueden utilizar para predecir el resultado de juegos finitos, siempre que exista tal equilibrio. Sin embargo, nos encontramos con el problema que surge cuando se trata de un equilibrio de Nash que no es ni social ni ético, y donde la eficiencia puede ser subjetiva, que es el caso en el dilema del prisionero. En este juego, el equilibrio de Nash no cumple con los criterios para ser óptimo de Pareto (subrayado en verde).

Generalización del juego: El dilema del prisionero no siempre se presenta como hemos visto en este caso. Los pagos para cada conjunto de estrategias pueden cambiar, dependiendo de cada persona. Sin embargo, hay algunas reglas que se pueden utilizar para construir un juego del dilema del prisionero “correcto”. En la matriz de juego adyacente hemos cambiado los pagos de cada jugador, con el fin de determinar las condiciones necesarias para diseñar el juego del dilema del prisionero. En el dilema del prisionero tradicional, tenemos: A> B> C> D (en términos absolutos). En nuestro ejemplo anterior, se cumple esta condición (A = 10, B = 8, C = 1 y D = 0).

En todos los casos, A> B y C> D implica que confesar-confesar es un equilibrio de Nash. Debe tenerse en cuenta que la simetría del juego no es la parte más importante del dilema del prisionero. Lo interesante de este juego es el hecho de que su equilibrio de Nash no es socialmente óptimo.

JUEGO REPETIDO En la teoría de juegos, los juegos repetidos, también conocidos como superjuegos, son los que se juegan y otra vez por un período de tiempo, y por lo tanto generalmente se representan usando la forma extensiva. A diferencia de los juegos de un solo turno, los juegos repetidos introducen una nueva serie de incentivos: la posibilidad de cooperar entre jugadores para recibir unos pagos continuamente, sabiendo que si no mantenemos nuestra parte del trato, nuestro oponente puede decidir dejar de cooperar. Nuestra oferta de cooperación o nuestra amenaza de dejar de cooperar tiene que ser creíble para que nuestro oponente mantenga su parte del trato. Analizar si el acuerdo es creíble consiste simplemente en analizar que tiene un valor superior: la recompensa que ganamos si rompemos nuestro pacto en un momento dado, lo que conlleva una ganancia excepcional durante el turno en el que se rompe el acuerdo, o continuar la cooperación con rentabilidades inferiores, pero que se dan durante todos los turnos. Por lo tanto, cada jugador debe tener en cuenta las posibles estrategias de castigo de su oponente. Esto significa que el universo de estrategias es mayor que en cualquier juego simultáneo o secuencial de una sola jugada. Cada jugador va a determinar sus estrategias o movimientos teniendo en cuenta todos los movimientos anteriores hasta ese momento. Además, dado que cada jugador tendrá en cuenta esta información, van a jugar el juego basándose en el comportamiento del oponente, y por lo tanto deben tener en cuenta también los posibles cambios en el comportamiento del oponente a la hora de tomar decisiones.

Los juegos repetidos proporcionan diferentes beneficios en cada repetición, dependiendo de la estrategia de cada jugador. Dado que estos beneficios se dan en diferentes puntos en el tiempo, con el fin de analizar los juegos repetidos, hay que comparar la suma de los pagos descontados de cada jugador, que para las repeticiones infinitas y repeticiones finitas se calculan utilizando las siguientes fórmulas:

Dónde: -P: suma descontada de pagos; -t: número de la repetición en la que el juego está; -n: número total de repeticiones (juegos repetidos finitos); -pt: el pago en la repetición en la que el juego está; -r: la tasa de descuento.

Dilema del prisionero repetido: En el juego conocido como el dilema del prisionero, el equilibrio de Nash es confesar-confesar. Con el fin de ver lo qué equilibrio se alcanza en un juego repetido de tipo dilema del prisionero, hay que analizar dos casos: cuando el juego se repite un número finito de veces, y cuando el juego se repite un número infinito de veces. Cuando los presos saben el número de repeticiones, es interesante operar una inducción hacia atrás para resolver el juego. Hay que tener en cuenta las estrategias de cada jugador cuando se dan cuenta de que la próxima ronda va a ser la última. Se comportan como si se tratara de un juego de una única repetición, por lo tanto se aplica el equilibrio de Nash y el equilibrio será confesar-confesar, al igual que en el juego de una sola repetición. Consideremos ahora la penúltima ronda. Dado que

cada jugador sabe que en la siguiente ronda (la última) ambos van a confesar, no hay ningún beneficio al mentir (cooperar entre sí) en esta ronda tampoco. La misma lógica se aplica para las rondas anteriores. Por lo tanto, confesar-confesar es el equilibrio de Nash para todas las rondas. La situación con un número infinito de repeticiones es diferente. Puesto que no habrá última ronda, un razonamiento de inducción hacia atrás no funciona aquí. En cada ronda, los dos prisioneros calculan que habrá otra ronda y por lo tanto siempre hay beneficios derivados de la estrategia de cooperar (en la que ambos mienten). Sin embargo, los presos deben tener en cuenta las estrategias de castigo, en caso de que el otro jugador confiese en cualquier ronda.

Juegos de acuerdo de colusión: Si suponemos que el juego se puede jugar hasta el infinito, podemos asemejarlo a un juego de acuerdo colusión, donde dos empresas se ponen de acuerdo, formando un cártel. Consideremos dos empresas (un duopolio) que pueden comportarse como duopolistas de Cournot obteniendo unas ganancias πCournot cada uno, o actuar como un cártel, ganando πCártel cada uno, que se corresponden con los beneficios de un monopolio divididos en el número de empresas que coluden (dos en nuestro ejemplo). En este caso, simplemente hay que aplicar la fórmula para el cálculo de una secuencia infinita y un factor de descuento para compensar el hecho de que las ganancias que se derivan son a lo largo del tiempo (teniendo en cuenta la impaciencia, la inflación, pérdida de interés, etc.):

El lado izquierdo representa la ganancia derivada de la colusión, la cual se puede mantener infinitamente a lo largo del tiempo, con δ como factor de descuento para descontar beneficios futuros hasta el presente. Para que las amenazas u ofertas de cooperación sean creíbles, este lado de la fórmula debe ser mayor que el lado

derecho, que representa los pagos que se pueden obtener de la desviación, rompiendo el cártel. Cuanto mayor sea δ, mayor es el valor asignado a las ganancias futuras, y por lo tanto mayores serán las posibilidades de colusión. Vale la pena recordar aquí que la competencia leal está regulada en casi todos los países, dónde los cárteles están prohibidos, por lo que la mayoría de los mercados que se prestan a la reducción de la competencia y la fijación de precios son vigilados de cerca por los gobiernos. Aunque este ejemplo se utiliza ampliamente en la teoría de juegos y para el análisis de estructuras de mercado, se puede ver fácilmente que no representa una situación real. Consideremos el mismo ejemplo: cualquiera de las empresas en colusión podría desviarse, con el fin de ofertar más en el mercado a precios más bajos, con el fin de ganar cuota de mercado. Esta medida permitiría que la empresa pudiera vender más productos que las otras empresas, lo que contradice directamente la premisa de Cournot de que cada duopolista producirá la misma cantidad. Por lo tanto, teniendo en cuenta un duopolio de Stackelberg podría parecer más realista. Esto, evidentemente, modifica el análisis y el resultado del juego.

Juegos repetidos finitamente Con respecto al dilema del prisionero, ambos jugadores deben elegir entre Callar y Confesar, al igual que en el enunciado original, con la diferencia de que esta vez no conocen la decisión que el otro jugador tomará en el futuro. Si el juego no se repite, se juega una única vez (T=1) y ambos sujetos no vuelven a verse. La representación en forma normal es como la representada anteriormente, pero también es posible representarla de forma extensiva:

Esta vez en lugar de jugar solo una vez, jugaran el juego dos veces (T=2), debiendo decidir simultáneamente entre Callar o Confesar. Sabiendo que los pagos de cada uno serán la suma de los pagos que se les otorgaría al elegir una u otra estrategia en ambas rondas. El método a seguir para la determinación del resultado se denomina ‘inducción hacia atrás’. Viendo la representación del dilema del prisionero, jugado dos veces, en forma extensiva (Figura 4.2) se observa que el inicio de la siguiente ronda del juego comenzaría en la segunda interacción del jugador uno. En esta situación los sujetos tienen que elegir de entre cinco estrategias, a saber, debe elegir qué hacer al comienzo del juego; qué hacer si el otro jugador elige Confesar; qué hacer, en caso contrario, si el otro sujeto decide Callar; cómo actuar si ambos confiesan y cómo hacerlo si ambos callan. Por lo tanto ambos jugadores contarían con un número de estrategias de 25 =32. Todas ellas pueden representarse, en la forma normal, en una tabla de 5 filas por 5 columnas. Dicha tabla puede representarse a su vez por separado en cuatro tablas, correspondientes a cada subjuego marcado en la Figura 4.2 (S1, S2, S3, S4).

Para simplificar este escenario se podría decir que ambos jugadores tienen que escoger su estrategia idónea entre qué hacer en la primera etapa del juego, qué hacer en la siguiente etapa si el otro jugador “calla” y qué hacer si éste “confiesa”. En este caso los jugadores eligen entre un numero más ‘manejable’ de estrategias, 23 =8, las cuales pueden representarse en un nodo final compuesto por aquellos perfiles de estrategias escogidos de entre las matrices anteriores, los cuales son equilibrios de Nash.

Juegos repetidos infinitamente Los juegos repetidos infinitamente son básicamente iguales a los juegos repetidos finitamente, con la variante de que éstos terminan en un determinado momento del tiempo y, en cambio, en los repetidos infinitamente no se conoce cuándo terminarán. En los juegos repetidos -tanto finitamente como infinitamente- con información

completa, se atiende a la evolución de ciertas formas de conducta entre las personas. En esta modalidad de juegos no es seguro si la interacción de los sujetos se va a quedar parada para siempre tras haber jugado un número determinado de veces dando lugar a un juego repetido finitamente- o si en un futuro se va a continuar jugando -repetido infinitamente-. Por esta razón no se puede decir que una etapa del juego es la final y que se podrá analizar el juego resultante, es decir, “podemos interpretar como juego repetido infinitamente como aquel en el que aunque cada interacción pudiera ser la última, siempre existe una probabilidad positiva de que no lo sea.” (Fernández Ruíz, 2002). Aplicado al dilema del prisionero, se dilucida un juego en el que hay una probabilidad determinada de que dicho juego termine tras la última interacción de uno de los sujetos pero existe a su vez otra probabilidad de que no sea así. Dichas probabilidades se expresan como (1- ∂) y ∂, respectivamente. Todo esto tiene una repercusión en el juego y es que no se podrá calcular su utilidad del mismo modo que con anterioridad. Por ejemplo, en el caso de que ambos jugadores elijan cooperar (Callar) pase lo que pase, ambos conseguirán un pago de 4 en el primer periodo. Obtendrían otro de igual cuantía en el segundo periodo si fuera un juego repetido finitamente, pero esta vez el juego continuará con una probabilidad de que esto pase de ∂, por lo tanto el pago ya no será 4 sino 4∂. En el tercer periodo la probabilidad será de ∂2 y sus pagos de 4∂ 2 , así que el pago esperado en cada periodo es igual a 4[1+∂+∂2 +…+∂n-1 +…]. El significado de que los pagos se multipliquen por ∂n-1 es que los pagos cuanto más lejanos en el tiempo menos valor tiene para los jugadores, es decir que éstos prefieren 4 si se los dan en la actualidad a los 4 que puede ganar en el futuro. Las estrategias escogidas por los jugadores a lo largo del juego y en función de cómo actuar teniendo en cuenta las diferentes actuaciones del resto y de las circunstancias en las que cada uno juegue para un periodo de tiempo ‘n’ se llamara “historia del juego hasta el periodo n” y abarcará 1-n periodos (Fernández Ruíz, 2002).

Con relación a este concepto y para plasmar la idea de manera clara se toma como ejemplo “la estrategia del gatillo”.

- La estrategia de gatillo o del disparador Esta estrategia se caracteriza por la forma de actuar de los jugadores ya que todos cooperarán, escogerán la estrategia Callar, en la primera ronda del juego y continuarán cooperando en todas las posteriores si en las anteriores el jugador contrario así lo ha hecho. En el caso de que uno de los dos cambie su estrategia a no cooperar (Confesar), el otro sujeto así lo hará también cuando le llegue el turno. Se dice que los jugadores “disparan” una reacción que se mantendrá fija en el tiempo, acorde con la actuación del otro jugador (Singer, 2014). Esto implica que si en el dilema del prisionero los jugadores comienzan eligiendo la estrategia Callar, así se continuará hasta el fin del juego aun siendo éste infinito, y se alcanza el estado de equilibrio en la cooperación, siempre y cuando ambos jugadores lleven a cabo dicha estrategia y no se aparten de ella. Esto se confirma si se considera que el jugador 2 tiene una estrategia de gatillo y que el jugador 1 comience eligiendo la estrategia Callar consiguiendo así que el jugador 2 elija dicha estrategia siempre. Los pagos obtenidos serán de 4[1+∂+∂2 +…+∂n-1 +…]= 4(1/(1-∂)). Sin embargo, puede suceder que el jugador 1 no siga la estrategia de gatillo y escoja Confesar en algún momento, por lo que el jugador 2 deja de cooperar. En este escenario el equilibrio se alcanzará en la no cooperación. Esto le reporta unos pagos de 5 en el primer periodo pero de 1 en los demás consiguiendo así un pago final de 5+1(∂/(1-∂)). Siendo así al jugador 1 le conviene seguir con la estrategia de gatillo si el pago obtenido en el primer caso es mayor o igual al del segundo caso: 4(1/(1-∂)) ≥ 5+1(∂/(1-∂)) ó ∂ ≥ 1/4 De este modo se alcanzarán dos equilibrios dependiendo de si el jugador 1 se aparta o no de la estrategia de gatillo, ambos serán equilibrio de Nash, ya que el jugador 1 maximiza su utilidad cuando el jugador 2 sigue la estrategia de gatillo, al

no cambiar nunca su elección. Es decir, si el jugador 1 escogiera Confesar o Callar, el jugador 2 continuaría con dicha estrategia hasta el final y el jugador 1 seguiría con esta estrategia si quiere maximizar su utilidad.

EL MODELO El juego que se repite es llamado el juego estado. Asumiremos que hay una cantidad n, finita de jugadores que mueven simultáneamente, eligiendo sus acciones en un espacio A¡ finito. En cada juego estado, el retorno del jugador i es representado por una función g¡: A -- R, siendo A= xI i=I A¡. Para un juego donde el juego estado, se repite infinitamente, G (b), consideraremos la función objetivo para el jugador i, que usa el factor b < 1 como descuento sobre el futuro a la suma:

donde el operador Ea representa la esperanza con respecto a la distribución, sobre historias infinitas que son generadas por la combinación estratégica s. El factor 1 -- b es un factor de normalización de forma que a un juego G (b) a un jugador i, con gi, le corresponda ui= 1. Como en cada periodo comienza un subjuego propio, para cada combinación estratégica s, e historia ht podernos computar el retorno esperado por cada jugador a partir de t. El retorno a partir de t y hasta el final será:

El retorno minmax de un jugador i está dado por:

representa, el nivel de retorno menor, al que los oponentes pueden hacer' caer a i.

Bibliografía El Dilema del Prisionero y la Cooperación . (2015). En T. S. Hernandez. Valladolid . Introduccion a la Teoria de Juegos . (s.f.). En E. A. Vaz, Notas Docentes (pág. 50). Policonomics. (Marzo de 2017). Obtenido de https://policonomics.com/es/dilemaprisionero/ Policonomics. (Marzo de 2017). Obtenido de Economics made simple: https://policonomics.com/es/juegos-repetidos/

Related Documents

Dilema
November 2019 45
Dilema
October 2019 35
Dilema
November 2019 35
Dilema 2
June 2020 20
Un Dilema
December 2019 30

More Documents from ""