Aplicação de aprendizado de máquina e equilíbrio de Nash no jogo de pôquer
Carregando...
Data
Autores
Orientador
Passos Junior, Leandro Aparecido
Coorientador
Pós-graduação
Curso de graduação
Bauru - FC - Ciência da Computação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
O pôquer Heads-Up No-Limit Texas Hold’em, por ser um jogo de informação imperfeita, apresenta um desafio complexo para a inteligência artificial devido à sua vasta combinatória, além de elementos como blefe e adaptação ao oponente. Este trabalho propõe um agente de Inteligência Artificial (IA) que integra o algoritmo Counterfactual Regret Minimization (CFR) para aproximar o Equilíbrio de Nash aliado a técnicas de aprendizado de máquina para abstrações de cartas e ações. As abstrações foram realizadas por agrupamento de dados usando o K-Means, baseado em distribuições de equidade, gerando 169 grupos no pré-flop, 50 no flop, 100 no turn e 200 no river. Um dataset do tamanho de 1 milhão de mãos foi treinado de forma offline, com treinamentos separados para pré-flop e pós-flop. O agente foi avaliado contra o Slumbot em cerca de 10.000 mãos, registrando perdas de -41.47 Big Blind a cada 100 mãos (BB/100) (Dataset de 250.000 mãos), -32.125 BB/100 (Dataset de 500.000 mãos), -47.025 BB/100 (Dataset de 750.000 mãos) e -47.19 BB/100 (Dataset de 1.000.000 mãos). Apesar da não linearidade dos resultados, possivelmente devido à alta variância no pôquer, a estratégia CFR superou consistentemente heurísticas predefinidas, exibindo perdas menores em todos os testes. A implementação demonstrou viabilidade em hardware modesto, contribuindo para avanços em jogos de informação imperfeita e teoria dos jogos.
Resumo (inglês)
The Heads-Up No-Limit Texas Hold’em poker, as an imperfect information game, poses a significant challenge for artificial intelligence due to its vast combinatorial complexity, coupled with elements such as bluffing and opponent adaptation. This study proposes an AI agent that integrates the Counterfactual Regret Minimization (CFR) algorithm to approximate the Nash Equilibrium, combined with machine learning techniques for card and action abstractions. Abstractions were implemented using K-Means clustering based on equity distributions. A dataset of 1 million hands was generated offline, with separate training for pre-flop and postf lop phases. Despite the non-linear results, likely due to poker’s inherent high variance, the CFR-based strategy consistently outperformed predefined heuristics, showing lower losses across all scenarios. The implementation demonstrated feasibility on modest hardware, contributing to advancements in imperfect information games and game theory. This work was conducted as part of the undergraduate thesis in Computer Science at Universidade Estadual Paulista "Júlio de Mesquita Filho", Faculty of Sciences, Bauru, under the supervision of Prof. Dr. Leandro Aparecido Passos Junior, and completed on October 30, 2025.
Descrição
Palavras-chave
Pôquer, Inteligência-artificial, CFR, Equilíbrio de Nash, Abstração, Agrupamento de dados, Poker, Artificial intelligence, Nash equilibrium, Abstraction, Clustering
Idioma
Português
Citação
YAMASHIRO, Gabriel. Aplicação de aprendizado de máquina e equilíbrio de Nash no jogo de pôquer. 2025. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Universidade Estadual Paulista (UNESP), Bauru, 2025.


