Control of an unmanned aerial vehicle (UAV) using deep reinforcement learning (DRL) approach

Carregando...
Imagem de Miniatura

Data

2021-07-16

Autores

Alves, Adson Nogueira

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Unmanned Aerial Vehicles (UAV) have received increasing attention in recent years mainly due to their breadth of application in complex and costly activities, such as surveillance, agriculture, and entertainment. All of this market and academic interest has highlighted new challenges that the platform will confront. Among these challenges is the complexity of navigation in unknown environments due to the randomness of agents’ position and movement dynamics in the environment. Thus, new learning techniques have been proposed for these and other tasks in recent years. Particularly, model-free algorithms based on the process of exploration and autonomous learning have been highlighted in this domain. This is the case of Reinforcement Learning (RL). RL seeks appropriate behavior for the robot through a trial and error approach and mapping input states to commands in actuators directly. Thus, any pre-defined control structure becomes unnecessary. The present work aims to investigate the navigation of UAVs using a state-of-the-art method and off-policy method, the Soft Actor-Critic (SAC) of Deep Learning (DL). Our proposed approach employs visual information from the environment and multiple embedded sensors and the Autoencoder (AE) method to reduce the dimensionality of the visual data collected in the environment. We developed our work using the CoppeliaSim simulator, which has a high degree of fidelity concerning the real world. In this scenario, we investigated the aircraft state representation and the resulting navigation in environments with or without obstacles, fixed and mobile. The results showed that the learned policy was able to perform the low-level control of the UAV in all analyzed scenarios. The learned policies have good generalization capabilities. However, as the complexity of the environment increased, we re-used the learned policies from less complex environments with further training needed.
Veículos aéreos não tripulados (VANT) têm sido alvo de crescente atenção nos últimos anos principalmente devido a sua amplitude de aplicação em atividades complexas e onerosas, como no setor de vigilância, agricultura, entretenimento, entre outros. Todo esse interesse do mercado e acadêmico colocou em evidência novos desafios que a plataforma enfrentará. Entre esses está a complexidade de navegação em ambientes desconhecidos devido a aleatoriedade da posição e dinâmica de movimento dos agentes no ambiente. Com isso, novas técnicas de aprendizado têm sido propostas para essas e outras tarefas nos últimos anos. Particularmente, algoritmos livres de modelo baseados no processo de exploração e aprendizado autônomo, têm obtido destaque nesse domínio, como é o caso do Aprendizado por Reforço (RL) que através de uma abordagem de tentativa e erro busca atingir um comportamento adequado ao robô, utilizando uma Rede Neural para mapear diretamente os estados de entrada para comandos nos atuadores. Com isso qualquer estrutura de controle pré definida se torna desnecessária. O presente trabalho tem como objetivo investigar a navegação de VANTs utilizando um método de ponta e fora da politica, o Soft Actor- Critic (SAC) de Aprendizado Profundo (DL) fazendo uso simultâneo de informações visuais do ambiente e também de multiplos sensores embarcados, e o método de Autoencoder (AE) para redução de dimensionalidade das informações visuais coletadas no ambiente. O trabalho foi desenvolvido no ambiente de simulação CoppeliaSim, que tem alto grau de fidelidade em relação ao mundo real, utilizando o Pyrep, que é uma estrutura usada para pesquisa de aprendizado de robô. Nesse cenário, foi realizado uma investigação sobre a representação dos estados da aeronave e sua navegação em ambientes com ou sem obstáculos, fixos e móveis. Os resultados mostraram que a politica aprendida foi capaz de realizar o controle de baixo nível do VANT em todos os cenários analisados, a generalização da dinâmica aprendida teve boa evolução conforme aumentava a complexidade do ambiente, porém para cada novo cenário novos treinamentos eram necessários, devido ao período de adaptação, evoluindo conforme previsto.

Descrição

Palavras-chave

Inteligência artificial, Redes neurais (Computação), Sistemas embarcados (Computadores), Drone aircraft, Robot vision

Como citar