Análise comparativa de diferentes algoritmos de aprendizado por reforço aplicados ao mahjong

Este trabalho apresenta uma análise comparativa de diferentes algoritmos de Aprendizado por Reforço Profundo aplicados ao jogo Riichi Mahjong, um ambiente caracterizado por múltiplos agentes, grande espaço de estados e informação parcial. Foram implementados e avaliados três agentes baseados em abordagens distintas: Deep Q-Learning (DQL), Advantage Actor–Critic (A2C) e Masked Proximal Policy Optimization (MaskedPPO), todos utilizando uma rede neural convolucional. Os experimentos foram conduzidos em dois cenários: contra agentes do artigo Variational Oracle Guiding for Reinforcement Learning (Han et al., 2022) e em partidas entre os próprios agentes, com a inclusão de um agente aleatório. Os resultados mostraram que, em um ambiente de treinamento com número de episódios fixo, os métodos baseados em política apresentaram melhor desempenho e maior capacidade de adaptação, embora exigindo mais tempo e recursos computacionais para o treinamento. O agente MaskedPPO obteve a melhor taxa de vitória e estabilidade entre os modelos testados. Apesar de o ambiente reduzido e a ausência de pré-treinamento supervisionado limitarem o desempenho absoluto frente ao modelo de referência, a comparação permitiu identificar diferenças claras entre as abordagens. Os resultados reforçam a adequação dos métodos baseados em política para ambientes complexos e parcialmente observáveis, como o Mahjong, e destacam a relevância do Aprendizado por Reforço como ferramenta de pesquisa em inteligência artificial aplicada a jogos.

Resumo (inglês)

This work presents a comparative analysis of different Deep Reinforcement Learning algorithms applied to the game of Riichi Mahjong, an environment characterized by multiple agents, partial information, and a large state space. Three agents based on distinct approaches were implemented and evaluated: Deep Q-Learning (DQL), Advantage Actor–Critic (A2C), and Masked Proximal Policy Optimization (MaskedPPO), all employing a convolutional neural network. The experiments were conducted in two scenarios: against agents from the paper Variational Oracle Guiding for Reinforcement Learning (Han et al., 2022) and in matches between the trained agents themselves, including a random agent. The results showed that, under a fixed number of training episodes, policy-based methods achieved superior performance and greater adaptability, although they required more computational time and resources for training. The MaskedPPO agent achieved the highest win rate and the most stable performance among the tested models. Although the reduced training environment and the absence of a supervised pre-training phase limited the agents absolute performance compared to the reference model, the comparison revealed clear differences between the approaches. The findings highlight the suitability of policy-based methods for complex and partially observable environments such as Mahjong, and reinforce the relevance of Deep Reinforcement Learning as a research tool for artificial intelligence applied to strategic games.

Palavras-chave

Aprendizado por reforço, Inteligência artificial, Mahjong, PPO, A2C, DQL

Idioma

Português

Citação

RODRIGUES, Luciano Henrique Arendt. Análise comparativa de diferentes algoritmos de aprendizado por reforço aplicados ao mahjong. 2025. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.

URI

https://hdl.handle.net/11449/315828

Coleções

Bauru - FC - Faculdade de Ciências

Unidades

Unidade

Faculdade de Ciências

FC

Campus: Bauru

Cursos de graduação

Curso de graduação

Ciência da Computação

GCC

Estatísticas de acesso

Página do item completo

Análise comparativa de diferentes algoritmos de aprendizado por reforço aplicados ao mahjong

Arquivos

Data

Autores

Orientador

Coorientador

Pós-graduação

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Tipo

Direito de acesso

PlumX

Arquivos

Resumo

Resumo (português)

Resumo (inglês)

Descrição

Palavras-chave

Idioma

Citação

URI

Itens relacionados

Financiadores

Coleções

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação