Uma estratégia de futebol de robôs baseada em aprendizado por reforço
Carregando...
Data
Autores
Orientador
Pegoraro, Renê 

Coorientador
Pós-graduação
Curso de graduação
Ciência da Computação - FC
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
O uso de técnicas de aprendizado de máquina se popularizou muito nos últimos anos com
avanços em diversas áreas como carros autônomos, geração de imagens e texto. O futebol de
robôs, onde vários agentes interagem, é um ambiente propício para aplicação e verificação de
técnicas de aprendizado. Neste trabalho foi aplicado técnicas de aprendizado por reforço para
treinar uma estratégia de futebol de robôs completamente autônoma para mitigar os problemas
da estratégia baseada em autômatos finitos determinísticos. Para tal, o ambiente do futebol de
robôs do time Carrossel Caipira foi adaptado como um problema padronizado de aprendizado
por reforço utilizando a biblioteca Gym e então treinado com o algoritmo Soft Actor-Critic com
implementação da biblioteca Stable Baselines 3, por ser ideal para problemas com espaços de
ação contínuos. Inicialmente, o goleiro foi treinado junto ao volante e atacante da estratégia
anterior para fins de testes antes de continuar o treinamento junto ao volante e atacante atuais
ao se constatar que o ambiente estava funcionando e o goleiro aprendendo. As recompensas
obtidas durante o treinamento foram salvas e analisadas graficamente junto ao comportamento
dos jogadores observado durante o treinamento. Para o goleiro, ele aprendeu a defender o gol
conforme o aprendizado progrediu, mas para o volante e atacante é necessário mais tempo de
treinamento para aprenderem bem suas posições. Também foi possível observar a tendência de
posicionamento dos robôs em certas posições do campo para maximizar suas recompensas. O
trabalho foi desenvolvido com base nas regras da competição IEEE Very Small Size Soccer da
qual participa a equipe Carrossel Caipira.
Resumo (inglês)
The use of machine learning techniques has become very popular in recent years with advances in several areas such as autonomous cars, image and text generation. Robot soccer,
where several agents interact, is a favorable environment for the application and verification
of learning techniques. In this work, reinforcement learning techniques were applied to train
a completely autonomous robot soccer strategy to mitigate the problems of the strategy
based on deterministic finite automata. To this end, the robot soccer environment of the
Carrossel Caipira team was adapted as a standardized reinforcement learning problem using
the Gym library and then trained with the Soft Actor-Critic algorithm with the implementation
of the Stable Baselines 3 library, as it is ideal for problems with continuous action spaces.
Initially, the goalkeeper was trained with the midfielder and striker of the previous strategy
for testing purposes before continuing training with the current midfielder and striker after it
was verified that the environment was working and the goalkeeper was learning. The rewards
obtained during training were saved and graphically analyzed along with the players’ behavior observed during training. For the goalkeeper, he learned to defend the goal as learning
progressed, but for the midfielder and striker more training time is needed to learn their
positions well. It was also possible to observe the tendency of positioning the robots in certain
positions in the field to maximize their rewards. This work was developed based on the rules
of the IEEE Very Small Size Soccer competition in which the Carrossel Caipira team participates.
Descrição
Palavras-chave
Inteligência artificial, Aprendizado do computador, Redes neurais (Computação), Artificial intelligence, Machine learning DLC, Neural networks (Computer science)
Idioma
Português

