Logo do repositório

Análise comparativa de diferentes algoritmos de aprendizado por reforço aplicados ao mahjong

dc.contributor.advisorRossi, André Luis Debiasso [UNESP]
dc.contributor.authorRodrigues, Luciano Henrique Arendt [UNESP]
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2025-11-28T17:39:11Z
dc.date.issued2025-11-14
dc.description.abstractEste trabalho apresenta uma análise comparativa de diferentes algoritmos de Aprendizado por Reforço Profundo aplicados ao jogo Riichi Mahjong, um ambiente caracterizado por múltiplos agentes, grande espaço de estados e informação parcial. Foram implementados e avaliados três agentes baseados em abordagens distintas: Deep Q-Learning (DQL), Advantage Actor–Critic (A2C) e Masked Proximal Policy Optimization (MaskedPPO), todos utilizando uma rede neural convolucional. Os experimentos foram conduzidos em dois cenários: contra agentes do artigo Variational Oracle Guiding for Reinforcement Learning (Han et al., 2022) e em partidas entre os próprios agentes, com a inclusão de um agente aleatório. Os resultados mostraram que, em um ambiente de treinamento com número de episódios fixo, os métodos baseados em política apresentaram melhor desempenho e maior capacidade de adaptação, embora exigindo mais tempo e recursos computacionais para o treinamento. O agente MaskedPPO obteve a melhor taxa de vitória e estabilidade entre os modelos testados. Apesar de o ambiente reduzido e a ausência de pré-treinamento supervisionado limitarem o desempenho absoluto frente ao modelo de referência, a comparação permitiu identificar diferenças claras entre as abordagens. Os resultados reforçam a adequação dos métodos baseados em política para ambientes complexos e parcialmente observáveis, como o Mahjong, e destacam a relevância do Aprendizado por Reforço como ferramenta de pesquisa em inteligência artificial aplicada a jogos.pt
dc.description.abstractThis work presents a comparative analysis of different Deep Reinforcement Learning algorithms applied to the game of Riichi Mahjong, an environment characterized by multiple agents, partial information, and a large state space. Three agents based on distinct approaches were implemented and evaluated: Deep Q-Learning (DQL), Advantage Actor–Critic (A2C), and Masked Proximal Policy Optimization (MaskedPPO), all employing a convolutional neural network. The experiments were conducted in two scenarios: against agents from the paper Variational Oracle Guiding for Reinforcement Learning (Han et al., 2022) and in matches between the trained agents themselves, including a random agent. The results showed that, under a fixed number of training episodes, policy-based methods achieved superior performance and greater adaptability, although they required more computational time and resources for training. The MaskedPPO agent achieved the highest win rate and the most stable performance among the tested models. Although the reduced training environment and the absence of a supervised pre-training phase limited the agents absolute performance compared to the reference model, the comparison revealed clear differences between the approaches. The findings highlight the suitability of policy-based methods for complex and partially observable environments such as Mahjong, and reinforce the relevance of Deep Reinforcement Learning as a research tool for artificial intelligence applied to strategic games.en
dc.description.sponsorshipIdNão recebido
dc.identifier.citationRODRIGUES, Luciano Henrique Arendt. Análise comparativa de diferentes algoritmos de aprendizado por reforço aplicados ao mahjong. 2025. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.
dc.identifier.lattes3971374626284695
dc.identifier.orcid0009-0005-3632-5880
dc.identifier.urihttps://hdl.handle.net/11449/315828
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso abertopt
dc.subjectAprendizado por reforçopt
dc.subjectInteligência artificialpt
dc.subjectMahjongpt
dc.subjectPPOen
dc.subjectA2Cen
dc.subjectDQLen
dc.titleAnálise comparativa de diferentes algoritmos de aprendizado por reforço aplicados ao mahjongpt
dc.title.alternativeComparative analysis of different reinforcement learning algorithms applied to mahjongen
dc.typeTrabalho de conclusão de cursopt
dspace.entity.typePublication
relation.isAuthorOfPublicationff8d5dfa-27b6-4802-a98f-4ceaed5e5eff
relation.isAuthorOfPublication.latestForDiscoveryff8d5dfa-27b6-4802-a98f-4ceaed5e5eff
relation.isOrgUnitOfPublicationaef1f5df-a00f-45f4-b366-6926b097829b
relation.isOrgUnitOfPublication.latestForDiscoveryaef1f5df-a00f-45f4-b366-6926b097829b
relation.isUndergradCourseOfPublication0ad27f2d-0ce4-45ac-9ab9-d719bb888d0c
relation.isUndergradCourseOfPublication.latestForDiscovery0ad27f2d-0ce4-45ac-9ab9-d719bb888d0c
unesp.campusUniversidade Estadual Paulista (UNESP), Faculdade de Ciências, Baurupt
unesp.examinationboard.typeBanca públicapt
unesp.undergraduateBauru - FC - Ciência da Computaçãopt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
rodrigues_lha_tcc_bauru.pdf
Tamanho:
1.4 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 2 de 2
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.14 KB
Formato:
Item-specific license agreed upon to submission
Descrição:
Carregando...
Imagem de Miniatura
Nome:
rodrigues_lha_autorizacao_bauru.pdf
Tamanho:
124.42 KB
Formato:
Adobe Portable Document Format
Descrição: