Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas
Carregando...
Data
2023-01-06
Autores
Orientador
Galo, Maurício [UINESP]
Coorientador
Shimabukuro, Milton Hirokazu
Pós-graduação
Ciências Cartográficas - FCT 33004129043P0
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Dissertação de mestrado
Direito de acesso
Acesso aberto
Resumo
Resumo (português)
A extração de edificações a partir de imagens ópticas constitui um importante passo para o planejamento urbano e desenvolvimento territorial para as cidades, e os processos automáticos, como o machine learning e deep learning, beneficiam indiretamente os gestores públicos no contexto de processos decisórios. O deep learning é uma subárea do aprendizado de máquina, que se concentra no treinamento de redes neurais profundas com enfoque no aprendizado com base em dados com alta variabilidade, como luminosidade, posição, textura e outros, e difere de outras técnicas por utilizar redes neurais na aprendizagem e envolver o uso de múltiplas camadas de neurônios artificiais para realizar tarefas complexas de processamento de dados. Há diversas redes disponíveis na literatura para os mais variados fins, incluído o contexto de segmentação de edificações em área urbana, ou redes inicialmente designadas para uma finalidade que apresenta compatibilidade em aprendizado de edificações (como a U-Net desenvolvida para segmentação em imagens da área médica). Independente da rede considerada, é comum variações com implementações de módulos e novos processos, como ocorre na ResUNet-a baseada na U-Net, com o objetivo de aprimorar sua segmentação. A melhoria nos resultados dessas redes também pode ser produzida pela entrada de informações adicionais, modificando os dados usados no treinamento para melhorar a identificação de um objeto, como o uso de dados LiDAR (Light Detection And Ranging) e diferentes modelos de cores, por exemplo. A presente pesquisa se propõe a avaliar o efeito da modificação dos dados de entrada nas redes de deep learning, com uso de dados LiDAR e composição de cores, na arquitetura ResUNet-a, e testar a hipótese de aprimoramento da segmentação. Para avaliar a hipótese foi realizado um experimento prático visando testar o uso da rede ResUNet-a, sendo possível atingir 96.0% de correspondência na segmentação semântica de edificações pela métrica F1-Score com um modelo de parâmetros treinado em 60 épocas durante o período de 4 dias. A partir disso, a metodologia foi proposta para avaliar o desempenho utilizando dois datasets: HInDSM (composto por informação de matiz, intensidade e MDSn - modelo digital de superfície normalizado) e imagem RGB, usado para efeito de comparação. O resultado pelo HInDSM alcançou 96,601% de F1-Score, correspondendo a um acréscimo de 1,89% se comparado ao uso apenas da imagem RGB. Além disso, o modelo apresenta melhorias qualitativas na segmentação de edificações, e conclui-se que o uso de MDSn combinado com os componentes matiz (hue) e intensidade, do modelo de cor HSI trazem melhorias na acurácia e desempenho na identificação de edificações em meio urbano.
Resumo (inglês)
The extraction of buildings from optical images is an important step for urban planning and territorial development for cities, and automated processes, such as machine learning and deep learning, indirectly benefit public decision-makers. Deep learning is a subfield of machine learning that focuses on training deep neural networks with an emphasis on data-driven learning with high variability, such as brightness, position, texture, and others. It differs from other techniques in using neural networks in learning and involving the use of multiple layers of artificial neurons to perform complex data processing tasks. There are several networks available in the literature for various purposes, including the context of building segmentation in urban areas, or networks initially designed for a purpose that is compatible with building learning (such as the U-Net developed for segmentation in medical images). Regardless of the network considered, variations with module implementations and new processes are common, as seen in the ResUNet-a based on U-Net, aiming to improve its segmentation. Improved results in these networks can also be achieved by introducing additional information, modifying the training data to enhance object identification, such as the use of Light Detection and Ranging (LiDAR) data and different color models, for example. This research aims to evaluate the effect of modifying input data in deep learning networks, using LiDAR data and color composition in the ResUNet-a architecture, and test the hypothesis of segmentation improvement. To evaluate the hypothesis, a practical experiment was conducted to test the use of the ResUNet-a network, achieving a 96.0% correspondence in semantic building segmentation by the F1-Score metric with a parameter model trained in 60 epochs over a period of 4 days. Subsequently, the methodology was proposed to evaluate performance using two datasets: HInDSM (comprising hue, intensity, and normalized digital surface model (nDSM) information) and RGB images, used for comparison. The result for HInDSM reached a 96.601% F1-Score, representing an increase of 1.89% compared to using only RGB images. Additionally, the model presents qualitative improvements in building segmentation, and it is concluded that the use of nDSM combined with hue and intensity components from the HSI color model brings improvements in accuracy and performance in the identification of buildings in urban environments.
Descrição
Idioma
Português
Como citar
HENRIQUE, Vinícius Barbosa. Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas. Orientador: Maurício Galo. 2024. 95 f. Dissertação (Mestrado em Ciências Cartográficas) - Faculdade de Ciências e Tecnologia, Universidade Estadual Paulista, Presidente Prudente, 2023.