martes, 29 de enero de 2013

EL DILEMA DEL PRISIONERO

El dilema del prisionero es un modelo de la teoría de los juegos para tratar de resolver el dilema clásico del contractualismo sobre si los seres humanos nos interrelacionamos colaborando o compitiendo.


El dilema del prisionero se descubrió durante la guerra fría en RAND, un think tank creado en un principio por las fuerzas armadas norteamericanas y que todavía existe.
El dilema del prisionero se estudió a la luz de la teoría de juegos, una disciplina desarrollada por Von Neumann y mejorada por John F. Nash (sí, el de la película “Una mente maravillosa”). La teoría de juegos trata de proponer las mejores estrategias de cara a ciertas situaciones o conflictos y trata de explica los sistemas organizativos en la cooperación.
Así por ejemplo, con la teoría de juegos se puede explicar por qué el personaje de James Deen hace bien en desertar en el juego de “Gallina” y no estrellarse junto con el auto que conducía, aunque en la vida real muriera en un accidente de tráfico. También explica por qué nos colamos en el metro, seguimos en un matrimonio fracasado y por qué es mejor seguir en el puesto de caza de venados en lugar de disparar al primer conejo que aparece. Incluso algunos han aplicado la teoría de juegos con cierto éxito para ganar al póquer Texas holdem.
El dilema del prisionero fue descubierto por Merrill Flood y Melvin Dresher en 1950 mientras que trabajaban en RAND. Trata de dos ladrones a los que captura la policía por cometer un delito, pero sobre los que no tienen pruebas concluyentes a no ser que alguno confiese. Se les interroga por separado y se les ofrece un trato. Si uno de ellos culpa al compañero saldrá libre y el otro irá un año a la cárcel siempre y cuando éste no le delate. Si ambos se callan (cada uno coopera, en el lenguaje de la teoría de juegos) ambos van un mes a la cárcel, pero si ambos hablan (cada uno deserta, en el lenguaje de la teoría de juegos) van tres meses a prisión. Es un juego que no es de suma cero. El problema es que los compinches no se pueden comunicarse entre sí y el “juego” es a una sola mano o jugada.
El dilema del prisionero no tiene solución racional. Es decir, no hay una estrategia tomada de modo racional que su adopción no conlleve al arrepentimiento a posteriori por haber tomado esa decisión al final del juego. Lo más racional parece que es desertar, pero en ese caso ambos van a la cárcel por más tiempo que si hubieran cooperado. Pero si uno coopera se arriesga a que el otro no lo haga.
El dilema del prisionero se usó como modelo de la guerra nuclear, un “juego” que también se jugaría a una sola mano y que tampoco era de suma cero. Era para sentirse aterrorizado ante la posibilidad de que una decisión “racional” llevara a la guerra nuclear total entre superpotencias. Aunque Neumann estaba deseando que tal cosa ocurriera con tal de borrar a la Unión Soviética del mapa. Neumann murió agónicamente de un cáncer en los huesos después de haber desarrollado la computación moderna, la reformulación de la Mecánica Cuántica y muchas otras cuestiones científicas como la teoría de juegos. A Nash se le empezó a manifestar su esquizofrenia y quedó fuera del mundo científico durante una larga temporada. Tiempo más tarde fue recuperado gracias a los fármacos (aunque esas drogas siempre matan esa chispa de inteligencia extra de los que pacientes) y recibió el premio Nóbel. Pese a sus 84 años sigue trabajando y proporcionando contribuciones, la última un trabajo sobre teoría de juegos en 2011.
El dilema del prisionero tiene solución si se juega interactivamente, de este modo se puede forzar la cooperación de la otra parte. Hay programas de ordenador que así lo demuestran. No son demostraciones matemáticas al uso, sino pruebas de computación experimental que estadísticamente demuestran que una determinada estrategia funciona mejor que otras la mayoría de las ocasiones.
Hay que tener en cuenta que en estos juegos iterados no se tiene en cuenta en ningún momento la psicología de los individuos, una ética o una moral. Los que juegan son agentes computacionales que se juegan puntos fríamente. Podemos dejar de llamar a estos jugadores “compinches” para denominarles “oponentes” o “contrincante”.
Hasta ahora la mejor estrategia que se había encontrado era la “toma y daca”, que consiste en repetir la jugada anterior del contrincante. Así, si la vez anterior el oponente desertó entonces le respondemos desertando y si cooperó entonces cooperamos. Durante décadas se han hecho simulaciones que parecían indicar que esta solución simétrica era la mejor. Lo que nos dice este resultado es que el egoísmo termina pagando un precio y que, por tanto, la cooperación puede surgir evolutivamente al reprimirse los comportamientos egoístas en una población.
Pero realmente no existe una mejor estrategia universal para jugar al dilema del prisionero iterado. La estrategia ganadora depende del oponente.
Hace unos meses Freeman Dyson y William Press, de las universidades de Princeton y Texas respectivamente, anunciaron el descubrimiento de una nueva estrategia para el dilema del prisionero iterado que garantiza a uno de los jugadores mayores ganancias que el otro, lo que supuso una gran sorpresa. Esto podría tener una gran impacto en otras disciplinas como en Economía o en Biología Evolutiva. Básicamente el resultado dice que hay comportamientos egoístas que pueden resultar ser estrategias ganadoras sobre la cooperación.
La nueva solución se encuadra en lo que se llama estrategias de determinante cero, porque se fuerza a que el valor de un determinante sea nulo (un determinante es una función matemática que asigna un valor numérico a una matriz cuadrada). La estrategia “toma y daca” sería un caso particular de estrategia de determinante cero, pero hay muchas más dependiendo del tiempo que el contrincante “pasa en la cárcel”.
En esta clase de estrategia se puede forzar al oponente a aceptar un reparto desigual o que no lo acepte con un alto coste para los dos. El truco reside en que el oponente no se tiene que dar cuenta de que está siendo manipulado, porque en ese caso la situación degenera en la que se da en el juego del ultimátum, que tanto hemos visto por aquí. Si el oponente se da cuenta entonces ambos van mucho tiempo a la cárcel (o pierden el equivalente en puntos).
Este trabajo ha tenido un gran impacto en el mundo académico, aunque no es del todo nuevo. En 1997 Karl Sigmund (Universidad de Vienna), Martin Nowak (Universidad de Harvard) y Maarten Boerlijst (Universidad de Amsterdam) descubrieron estrategias similares, pero no se dieron cuenta de las implicaciones que tenían.
Ahora, Christoph Adami y Arend Hintze de la Universidad del Estado de Michigan State han publicado un artículo en donde exploran las implicaciones de estas estrategias de determinante cero. En concreto, han estudiado si este tipo de estrategia es evolutivamente estable. Es decir, si una población completa juega con esta estrategia, ¿podrá una estrategia diferente aparecer y propagarse? Al parecer, según sus resultados, las estrategias de determinante cero no son evolutivamente estables. Esto se debería a que dos jugadores jugando entre sí este mismo tipo de estrategia permite la aparición de estrategias que terminan ganando
Además, si se permiten mutaciones que permitan una evolución, una estrategia de determinante cero se transforma fácilmente en una estrategia que no es de determinante cero, por lo que también son inestables en este aspecto al no sobrevivir la estrategia de ese tipo en el transcurso de las generaciones.
Sin embargo, hay un caso en el que este tipo de estrategias sí es estable. Si el jugador sabe si el oponente juega el mismo tipo de estrategia o no puede medrar a base de explotar a algunos de ellos. Si sabe que el otro no esta jugando una estrategia de determinante cero puede usar estrategia de determinante cero para ganar y si sabe que el oponente juega esa misma estrategia entonces usar una estrategia que sea más defensiva. Naturalmente, esto sólo proporciona una ventaja temporal hasta que los oponentes se den cuenta. Por tanto, si quieren impedir ser explotados por este tipo de jugadores, entonces deben desarrollar algún tipo de camuflaje que impida que sean identificados y explotados.
Este último resultado explicaría por qué no se han encontrado aún este tipo de estrategias en la Naturaleza, pero eso no significa necesariamente que no existan.
Por si acaso, en la sociedad real, usted siempre podrá aplicar el “toma y daca”, al menos así se asegurará de no ser explotado, aunque no tenga ventaja sobre los demás.

No hay comentarios:

Publicar un comentario en la entrada