Hace unas semanas, publicamos una entrevista hecha por Lex Friedman a Noam Brown, uno de los desarrolladores de Libratus y Pluribus. Hoy les traemos la noticia original donde contamos sobre la victoria de Libratus.

Noam Brown, un desarrollador líder de sistemas de inteligencia artificial y creador de los populares bots de poker Libratus y Pluribus, es un invitado en el podcast de Lex Friedman.

Para leer

Recordemos que el 8 de mayo de 2015, en el Rivers Casino de Pittsburgh, un “empate estadístico” puso fin a la maratónica partida de poker doble entre el equipo dirigido por Douglas Polk y el bot Clodico, desarrollado en la Universidad Carnegie Mellon. Pasó poco más de año y medio y el nuevo bot, diseñado en la misma universidad, derrotó contundentemente a los nuevos cuatro maestros del mano a mano, aunque debilitado por la ausencia de los principales anotadores del primer partido, Bjorn Lee y Doug Polk, en sus filas.

El profesor Tuomas Sandholm y su estudiante graduado Noam Brown trabajaron en los algoritmos de Libratus. Según Nikolai Yakovenko (cuyo artículo usamos descaradamente cuando trabajábamos en las noticias: el autor combina con éxito la competencia tanto en el poker como en la programación), Sandholm se encuentra entre los 5 mejores especialistas en inteligencia artificial. El robot fue desafiado por Jason "PremiumWhey" Les, Dong "Donger Kim" Kim, Jimmy "ForTheSwaRm" Chow y Daniel "dougiedan678" McAulay. Según Doug Polk, todos se encuentran entre los 10 o los 15 mejores jugadores de heads-up no-limit hold'em del mundo.

El partido se jugó en Hold'em duplicado (los jugadores se dividieron en parejas, las manos contra la computadora dentro de cada pareja se reflejaron). Cada una de las cuatro personas jugó 30.000 manos. Todas las manos comenzaron con un stack de 20.000 con ciegas 50/100, las fichas en all-in se dividieron por equity. El pozo de premios total para los jugadores fue de $200,000, que se dividiría según el resultado: la gente recibió algo de dinero de todos modos, pero fue rentable intentarlo.

Donger Kim consolation prize - just over $74,000
Premio de consuelo de Donger Kim: poco más de $ 74,000

El enfrentamiento comenzó el 11 de enero. El bot inmediatamente tomó la delantera y después de varios miles de manos jugadas estaba liderando con una tasa de ganancias de 25bb/100. El primer día del partido demostró que Libratus juega mucho más fuerte que su predecesor, Clodico. Según el desarrollador de Claudico, Sam Ganzfried, los programadores pudieron resolver los principales problemas del bot anterior: la incapacidad de tener en cuenta la influencia de las cartas muertas (eliminación de cartas) y un juego débil contra tamaños inusuales.

Alrededor de este punto, Jakovenko hizo una predicción sorprendentemente precisa, asumiendo que los jugadores, cuya principal fortaleza es la capacidad de adaptarse rápidamente a cualquier oponente, podrán rectificar la situación y cerrar significativamente la brecha, pero debido a la fatiga, no podrán mantener su forma ideal y perderán el partido con una pérdida en el área de las -15 bb/100.

Así fue exactamente. Después de seis días de lucha, la gente estaba solo 2bb/100 por detrás, pero durante las siguientes dos semanas solo Libratus estaba ganando.

Position on January 17
Posiciones el 17 de enero
Position on January 20
Posiciones el 20 de enero
Halfway behind
A mitad de camino
Player Charts
Gráficos de los jugadores
Position on January 23
Posiciones el 23 de enero
Grand total
Gran total
Final schedule
Gráfico final

Resumen del partido: el bot ganó 1.766.250 fichas, casi 90 stacks, con una tasa de ganancias de 14.7 bb/100. La tasa de victorias dentro de la cual el partido podría considerarse un empate osciló entre -4 y 4 bb/100.

Como en la primera partida, Jason Les jugó el peor, perdiendo la mitad de todas las fichas. Dong Kim, quien terminó el primer partido con una ligera ventaja, esta vez se mantuvo en una ligera desventaja. Los debutantes del Enfrentamiento con la computadora Daniel McAulay y Jimmy Chow no pudieron reemplazar con éxito a Doug Polk y Bjorn Lee. Quizás, en una alineación ideal, el equipo humano podría soñar con un empate estadístico, pero esto es un pequeño consuelo. Como muestra la experiencia con el ajedrez y el go, los períodos en los que una persona lucha con una computadora en pie de igualdad no duran mucho y son rápidamente reemplazados por el dominio total de la inteligencia artificial.

Los programas de poker de alto nivel buscan estrategias de equilibrio de Nash. El juego para el que se programó Libratus tiene 10 elevado a 165, pero lo que hace que este número sea tan gigantesco es principalmente la variedad de tamaños de apuestas posibles, desde la apuesta mínima hasta el all-in en cada calle, y cada secuencia es única y debe considerarse por separado.

Los cálculos se pueden simplificar enormemente introduciendo restricciones en los tamaños. Previamente, los programadores de poker fueron aún más lejos, no considerando cada combinación de cartas ocultas como única, sino agrupándolas de acuerdo a criterios similares. Libratus, sin embargo, no reconoció la última simplificación: para él, cada combinación de cartas de mano era única, lo que hizo posible utilizar el efecto de las cartas muertas en la estrategia. Pero el límite en los tamaños calculados también era necesario para él. Es por eso que en la segunda mitad del partido, habiendo perdido la esperanza de ganar de la "manera normal", los jugadores tomaron medidas desesperadas, tratando de encontrar un punto débil en la armadura de Libratus con open raises de 6bb y otros trucos extravagantes. Sin embargo, esto sólo condujo a un aumento en la brecha en el nivel de juego entre las personas y la máquina y una derrota mayor para el equipo nacional.

Para jugar en el preflop y el flop, Libratus usó una estrategia básica calculada de antemano en una supercomputadora, pero en el turn y el river, el programa conectó un segundo módulo: un solver que calculaba estrategias de equilibrio. Por supuesto, calcular todas las líneas y tamaños posibles y encontrar un equilibrio matemáticamente exacto para el turn y el river haría imposible jugar en tiempo real, pero los programadores encontraron una solución. Resultó que para acercarse a la respuesta correcta, basta con contar 50-100 acciones aleatorias de las partes. Libratus usó la minimización del arrepentimiento contrafactual de Monte Carlo para aproximar una estrategia no explotable. (Los detalles de los métodos se pueden encontrar en el artículo científico, lanzado inmediatamente después del final del partido.) La supercomputadora de Pittsburgh proporcionó la potencia informática. Durante el partido, el bot necesitó unos 20 segundos para la mayoría de las decisiones en el turn. Según Noam Brown, el programa podría ejecutarse más rápido si utilizara el poder del centro de datos de Google.

Pittsburgh Supercomputer
Supercomputadora de Pittsburgh

En la segunda mitad del partido, los jugadores descubrieron que el programa cambió repentinamente el comportamiento preflop: en lugar de mini-raise y limping, se movió a raises 2.5x y folds. Su juego post-flop también cambió, aunque fue más difícil formalizar estos cambios. Los ajustes exitosos a la estrategia del bot no duraron más de una sesión: al día siguiente, Libratus se deshizo de las debilidades encontradas en él.

Según el profesor Sandholm, el bot podría aplicar varias opciones de estrategia diferentes y optimizar sus parámetros entre sesiones, por la noche. Se puede decir que durante el partido su juego se intensificó, ya que se resignaron modificaciones que eran menos efectivas contra los oponentes.

El éxito del equipo de Sandholm es más significativo para la programación que la victoria de las máquinas en ajedrez o go. El punto es que el ajedrez y el go son procesos de Markov: la mejor solución en una posición no depende de cómo surgió esta posición. El poker no es un proceso de Markov, como lo es la vida. Las técnicas utilizadas por los programadores de la Universidad Carnegie Mellon pueden encontrar una variedad de aplicaciones prácticas que van mucho más allá del mundo del poker.

Jason Les y Dong Kim comentaron no sólo en vivo en Twitch.tv, sino también en Reddit .

Publicamos algunas de las preguntas y respuestas más interesantes sobre este tema.

¿La computadora juega como un humano muy fuerte, o su estilo es algo completamente inhumano?

Jason:
– Como una persona muy fuerte, pero capaz de aplicar mucha más presión, sin ir más allá del juego correcto, que nadie que yo conozca.

¿A quién te recuerda el estilo AI?

Jason:
– Mucho del estilo de la IA me recuerda a Doug Polk. Pero la similitud es condicional: el estilo del programa es único. Libratus usa estrategias mixtas en todas las calles y con todos los tamaños, por lo que es extremadamente difícil entender sus rangos. Hemos recopilado estadísticas sobre la frecuencia con la que realiza tal o cual acción, pero es casi imposible obtener algo específico como resultado.

¿Estás contento de que después del enfrentamiento con Skynet puedas volver a jugar contra la gente común? Pregunta seria: ¿Un partido contra Libratus mejorará tu estrategia? ¿Vas a apostar más a menudo, por ejemplo?

Jason:
– Después de Libratus, un partido con cualquier persona será pan comido para nosotros.

Jason & Dong:
Definitivamente apostaremos más a menudo, pero eso requerirá mucha investigación. Tan pronto como sus overbets se vuelven menos equilibradas, instantáneamente se convierten en un error garrafal.

Si tuviera un año para estudiar el historial de manos, ¿sería capaz de vencer a la versión actual de IA? ¿O al menos jugar con ella en igualdad de condiciones?

Jason:
– Creo que si nos dan un tiempo de preparación interminable y la capacidad de jugar cuando queramos, podemos acercarnos a Libratus. Pero no creo que podamos vencerlo.

Cuéntanos sobre la mano más estúpida de la IA en este partido.

Jason:
Abrí con un par de jotas y pagó. Flop 8x7x2x rainbow, hice una apuesta de continuación sobre 2/3 del bote y él hizo all-in por casi 200bb con KxTx offsuit No estoy seguro de si es exactamente estúpido, pero el impacto fue decente.

¿Has bluffeado más a menudo contra un bot que contra un humano?

Jason:
– Absolutamente no. Los faroles deben elegirse con mucho cuidado ya que Libratus no se ve afectado por las emociones.

Dong:
– Algunas personas tiran el 100% de las manos en ciertas situaciones o nunca farolean en otras. Pero el bot no sigue las leyes no escritas del poker humano.

¿En qué calle juega más el bot?

Dong:
– En el turn.

Juego apuestas medias 6-max. ¿Cuándo empezar a entrar en pánico? ¿Aparecerán tres bots rusos en cada mesa en seis meses?

Dong:

– ¡Estás de suerte! Resolver un juego de 6-max es mucho más difícil: más situaciones, más jugadores... Si yo fuera tú, jugaría más.

Jason:
– Esta IA está programada para jugar uno a uno. Los bots 6-max no son tan avanzados (aunque pueden jugar bastante bien). Creo que todavía tienes algunos años antes de un verdadero pánico, pero aún así ten cuidado.

Sitio web del partido (https://www.riverscasino.com/pittsburgh/BrainsVsAI/)

Canales en Twitch.tv:
https://www.twitch.tv/libratus_vs_jasonles
https://www.twitch.tv/libratus_vs_dongkim
https://www.twitch.tv/libratus_vs_jimmychou
https://www.twitch.tv/libratus_vs_danielmcaulay