Análise comparativa de diferentes algoritmos de aprendizado por reforço aplicados ao mahjong
Carregando...
Data
Orientador
Rossi, André Luis Debiasso 

Coorientador
Pós-graduação
Curso de graduação
Bauru - FC - Ciência da Computação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
Este trabalho apresenta uma análise comparativa de diferentes algoritmos de Aprendizado por Reforço Profundo aplicados ao jogo Riichi Mahjong, um ambiente caracterizado por múltiplos
agentes, grande espaço de estados e informação parcial. Foram implementados e avaliados três agentes baseados em abordagens distintas: Deep Q-Learning (DQL), Advantage Actor–Critic
(A2C) e Masked Proximal Policy Optimization (MaskedPPO), todos utilizando uma rede neural convolucional. Os experimentos foram conduzidos em dois cenários: contra agentes do artigo
Variational Oracle Guiding for Reinforcement Learning (Han et al., 2022) e em partidas entre os próprios agentes, com a inclusão de um agente aleatório. Os resultados mostraram que, em
um ambiente de treinamento com número de episódios fixo, os métodos baseados em política apresentaram melhor desempenho e maior capacidade de adaptação, embora exigindo mais
tempo e recursos computacionais para o treinamento. O agente MaskedPPO obteve a melhor taxa de vitória e estabilidade entre os modelos testados. Apesar de o ambiente reduzido e a
ausência de pré-treinamento supervisionado limitarem o desempenho absoluto frente ao modelo de referência, a comparação permitiu identificar diferenças claras entre as abordagens. Os
resultados reforçam a adequação dos métodos baseados em política para ambientes complexos e parcialmente observáveis, como o Mahjong, e destacam a relevância do Aprendizado por
Reforço como ferramenta de pesquisa em inteligência artificial aplicada a jogos.
Resumo (inglês)
This work presents a comparative analysis of different Deep Reinforcement Learning algorithms applied to the game of Riichi Mahjong, an environment characterized by multiple agents,
partial information, and a large state space. Three agents based on distinct approaches were implemented and evaluated: Deep Q-Learning (DQL), Advantage Actor–Critic (A2C), and
Masked Proximal Policy Optimization (MaskedPPO), all employing a convolutional neural network. The experiments were conducted in two scenarios: against agents from the paper
Variational Oracle Guiding for Reinforcement Learning (Han et al., 2022) and in matches between the trained agents themselves, including a random agent. The results showed that,
under a fixed number of training episodes, policy-based methods achieved superior performance and greater adaptability, although they required more computational time and resources for
training. The MaskedPPO agent achieved the highest win rate and the most stable performance among the tested models. Although the reduced training environment and the absence of a
supervised pre-training phase limited the agents absolute performance compared to the reference model, the comparison revealed clear differences between the approaches. The findings highlight the suitability of policy-based methods for complex and partially observable environments such as Mahjong, and reinforce the relevance of Deep Reinforcement Learning as a research tool for artificial intelligence applied to strategic games.
Descrição
Palavras-chave
Aprendizado por reforço, Inteligência artificial, Mahjong, PPO, A2C, DQL
Idioma
Português
Citação
RODRIGUES, Luciano Henrique Arendt. Análise comparativa de diferentes algoritmos de aprendizado por reforço aplicados ao mahjong. 2025. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.


