RESSALVA Atendendo solicitação do(a) autor(a), o texto completo desta dissertação será disponibilizado somente a partir de 06/07/2024. Vinícius Barbosa Henrique Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas Presidente Prudente 2024 Vinícius Barbosa Henrique Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas Dissertação apresentada ao Programa de Pós Graduação em Ciências Cartográficas (PPGCC) na Faculdade de Ciências e Tecnologia (FCT) da Universidade Estadual Paulista “Júlio de Mes- quita Filho” (UNESP), como parte dos requisitos para a obtenção do título de Mestre em Ciências Cartográficas. Orientador: Prof. Dr. Maurício Galo Coorientador: Prof. Dr. Milton Hirokazu Shimabukuro Presidente Prudente 2024 H519e Henrique, Vinícius Barbosa Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas / Vinícius Barbosa Henrique. -- Presidente Prudente, 2024 95 p. : il., tabs., fotos, mapas Dissertação (mestrado) - Universidade Estadual Paulista (Unesp), Faculdade de Ciências e Tecnologia, Presidente Prudente Orientador: Maurício Galo Coorientador: Milton Hirokazu Shimabukuro 1. Aprendizado profundo. 2. Extração de edificações. 3. LiDAR. 4. Modelos de cores. I. Título. Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca da Faculdade de Ciências e Tecnologia, Presidente Prudente. Dados fornecidos pelo autor(a). Essa ficha não pode ser modificada. IMPACTO1 ESPERADO DESTA PESQUISA O tema central desta Dissertação é a extração de edificações urbanas por meio da combinação de modelos digitais de superfície normalizados e imagens ópticas usando aprendizado profundo. Essa abordagem aprimora a qualidade da identificação de edificações, permitindo a atualização eficiente de informações urbanas, úteis para o planejamento e gestão das cidades, detecção de expansões e uso do solo. POTENTIAL IMPACT OF THIS RESEARCH The central theme of this Dissertation is the extraction of urban buildings through the com- bination of normalized digital surface models and optical images using deep learning. This approach enhances the quality in building identification, allowing the efficient updating of urban information for city planning and management, including the detection of urban expansion and land use. 1 Informação inserida de acordo com a Portaria Unesp nº 117, de 21 de dezembro de 2022. Dedico este trabalho ao Prof. Dr. Amilton Amorim (in memoriam). Obrigado por ter me orientado no início desta jornada. AGRADECIMENTOS Agradeço aos meus orientadores, Prof. Dr. Maurício Galo e Prof. Dr. Milton Hirokazu Shimabukuro, pela paciência, sugestões e principalmente por acreditarem e terem me motivado. Agradeço ao Programa de Pós Graduação em Ciências Cartográficas (PPGCC) e a UNESP pela oportunidade de desenvolver este projeto, e aos meus amigos que fiz durante este período em Presidente Prudente. Agradeço aos meus familiares pelo apoio e amor, que me ajudaram a finalizar esta pesquisa. O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001. RESUMO A extração de edificações a partir de imagens ópticas constitui um importante passo para o planejamento urbano e desenvolvimento territorial para as cidades, e os processos automáticos, como o machine learning e deep learning, beneficiam indiretamente os gestores públicos no contexto de processos decisórios. O deep learning é uma subárea do aprendizado de máquina, que se concentra no treinamento de redes neurais profundas com enfoque no aprendizado com base em dados com alta variabilidade, como luminosidade, posição, textura e outros, e difere de outras técnicas por utilizar redes neurais na aprendizagem e envolver o uso de múltiplas camadas de neurônios artificiais para realizar tarefas complexas de processamento de dados. Há diversas redes disponíveis na literatura para os mais variados fins, incluído o contexto de segmentação de edificações em área urbana, ou redes inicialmente designadas para uma finalidade que apresenta compatibilidade em aprendizado de edificações (como a U-Net desenvolvida para segmentação em imagens da área médica). Independente da rede considerada, é comum variações com implementações de módulos e novos processos, como ocorre na ResUNet-a baseada na U-Net, com o objetivo de aprimorar sua segmentação. A melhoria nos resultados dessas redes também pode ser produzida pela entrada de informações adicionais, modificando os dados usados no treinamento para melhorar a identificação de um objeto, como o uso de dados LiDAR (Light Detection And Ranging) e diferentes modelos de cores, por exemplo. A presente pesquisa se propõe a avaliar o efeito da modificação dos dados de entrada nas redes de deep learning, com uso de dados LiDAR e composição de cores, na arquitetura ResUNet-a, e testar a hipótese de aprimoramento da segmentação. Para avaliar a hipótese foi realizado um experimento prático visando testar o uso da rede ResUNet-a, sendo possível atingir 96.0% de correspondência na segmentação semântica de edificações pela métrica F1-Score com um modelo de parâmetros treinado em 60 épocas durante o período de 4 dias. A partir disso, a metodologia foi proposta para avaliar o desempenho utilizando dois datasets: HInDSM (composto por informação de matiz, intensidade e MDSn - modelo digital de superfície normalizado) e imagem RGB, usado para efeito de comparação. O resultado pelo HInDSM alcançou 96,601% de F1-Score, correspondendo a um acréscimo de 1,89% se comparado ao uso apenas da imagem RGB. Além disso, o modelo apresenta melhorias qualitativas na segmentação de edificações, e conclui-se que o uso de MDSn combinado com os componentes matiz (hue) e intensidade, do modelo de cor HSI trazem melhorias na acurácia e desempenho na identificação de edificações em meio urbano. Palavras-chave: Aprendizado Profundo. Extração de edificações. LiDAR. Modelo de Cores. ABSTRACT The extraction of buildings from optical images is an important step for urban planning and territorial development for cities, and automated processes, such as machine learning and deep learning, indirectly benefit public decision-makers. Deep learning is a subfield of machine learning that focuses on training deep neural networks with an emphasis on data-driven learning with high variability, such as brightness, position, texture, and others. It differs from other techniques in using neural networks in learning and involving the use of multiple layers of artificial neurons to perform complex data processing tasks. There are several networks available in the literature for various purposes, including the context of building segmentation in urban areas, or networks initially designed for a purpose that is compatible with building learning (such as the U-Net developed for segmentation in medical images). Regardless of the network considered, variations with module implementations and new processes are common, as seen in the ResUNet-a based on U-Net, aiming to improve its segmentation. Improved results in these networks can also be achieved by introducing additional information, modifying the training data to enhance object identification, such as the use of Light Detection and Ranging (LiDAR) data and different color models, for example. This research aims to evaluate the effect of modifying input data in deep learning networks, using LiDAR data and color composition in the ResUNet-a architecture, and test the hypothesis of segmentation improvement. To evaluate the hypothesis, a practical experiment was conducted to test the use of the ResUNet-a network, achieving a 96.0% correspondence in semantic building segmentation by the F1-Score metric with a parameter model trained in 60 epochs over a period of 4 days. Subsequently, the methodology was proposed to evaluate performance using two datasets: HInDSM (comprising hue, intensity, and normalized digital surface model (nDSM) information) and RGB images, used for comparison. The result for HInDSM reached a 96.601% F1-Score, representing an increase of 1.89% compared to using only RGB images. Additionally, the model presents qualitative improvements in building segmentation, and it is concluded that the use of nDSM combined with hue and intensity components from the HSI color model brings improvements in accuracy and performance in the identification of buildings in urban environments. Keywords: Deep learning. Building Extraction. LiDAR. Color Models. LISTA DE ILUSTRAÇÕES Figura 2.1 – Metodologia de avaliação k-fold. . . . . . . . . . . . . . . . . . . . . . . . 21 Figura 2.2 – Representação gráfica de algumas funções de ativação, no qual x é o valor de entrada para o neurônio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Figura 2.3 – Feedforward e camadas em uma rede neural. . . . . . . . . . . . . . . . . . 23 Figura 2.4 – Exemplo de aplicação de camada de max pooling. . . . . . . . . . . . . . . 24 Figura 2.5 – Operação de up-convolution. . . . . . . . . . . . . . . . . . . . . . . . . . 27 Figura 2.6 – Arquitetura U-Net. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Figura 2.7 – Atrous Convolutions, em que Rate é a taxa de dilatação da convolução. . . . 29 Figura 2.8 – Arquitetura ResUNet-a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Figura 2.9 – Bloco residual da ResUNet-a. . . . . . . . . . . . . . . . . . . . . . . . . . 32 Figura 3.10–Técnicas de varredura LiDAR. . . . . . . . . . . . . . . . . . . . . . . . . 34 Figura 3.11–Múltiplos ecos em um pulso. . . . . . . . . . . . . . . . . . . . . . . . . . 35 Figura 3.12–Modelos digitais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Figura 4.13–Representação gráfica e vetorial da mistura de cores, em que as quantidades de energia são representadas pelos vetores P1, P2 e P3, em (a) os planos triangulares são definidos pela combinação das energias, e em (b) a projeção do plano triangular define o diagrama de vetores em que pode-se expressar a quantidade de energia por coordenadas. . . . . . . . . . . . . . . . . . . . . 39 Figura 4.14–Geometria hexacone para representação do modelo IHS. . . . . . . . . . . . 39 Figura 5.15–Identificação e localização do tp, tn, fp e fn ao fazer a comparação entre uma edificação de referência (a), o resultado da edificação gerada por um algoritmo de classificação (b) e na sobreposição da edificação de referência e a gerada por um algoritmo (c). . . . . . . . . . . . . . . . . . . . . . . . . 43 Figura 6.16–Fluxograma da metodologia proposta. . . . . . . . . . . . . . . . . . . . . 45 Figura 6.17–Mosaico do dataset de Potsdam. . . . . . . . . . . . . . . . . . . . . . . . 46 Figura 6.18–Exemplo da composição presente no dataset de Potsdam. (a) é a true ortofoto, (b) é o MDSn, e (c) são os rótulos. . . . . . . . . . . . . . . . . . . . . . . 46 Figura 6.19–Composição HInDSM - top_potsdam_3_12. . . . . . . . . . . . . . . . . . 48 Figura 6.20–Combinação RGB - top_potsdam_3_12. . . . . . . . . . . . . . . . . . . . 49 Figura 6.21–Tiles de imagem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Figura 6.22–Tiles de rótulo de referência. . . . . . . . . . . . . . . . . . . . . . . . . . 51 Figura 6.23–Tiles de bordas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Figura 6.24–Tiles de mapa de distâncias. . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Figura 7.25–Acurácia do treinamento em cada modelo. . . . . . . . . . . . . . . . . . . 58 Figura 7.26–Função custo em cada modelo. . . . . . . . . . . . . . . . . . . . . . . . . 58 Figura 7.27–Média móvel da função custo. . . . . . . . . . . . . . . . . . . . . . . . . . 59 Figura 7.28–Acurácia da validação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Figura 7.29–F1-Score da validação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Figura 7.30–Predição 1 com o modelo HInDSM_205 em tiles de validação. . . . . . . . 64 Figura 7.31–Predição 2 com o modelo HInDSM_205 em tiles de validação. . . . . . . . 65 Figura 7.32–Predição 3 com o modelo RGB_201 em tiles de validação. . . . . . . . . . . 66 Figura 7.33–Predição 4 com o modelo RGB_201 em tiles de validação. . . . . . . . . . . 66 Figura 7.34–Dados dos HInDSM e RGB da área 1. . . . . . . . . . . . . . . . . . . . . . 67 Figura 7.35–Predição da área 2 no RGB_201 e HInDSM_205. . . . . . . . . . . . . . . . 67 Figura 7.36–Dados dos datasets HInDSM e RGB da área 2 . . . . . . . . . . . . . . . . 68 Figura 7.37–Predição da área 1 no RGB_201 e HInDSM_205. . . . . . . . . . . . . . . . 69 Figura 7.38–Predição da área 1 no HInDSM_203 e RGB_200. . . . . . . . . . . . . . . . 70 Figura 7.39–Predição da área 2 no HInDSM_203 e RGB_200. . . . . . . . . . . . . . . . 70 Figura A.1 – Resultado da predição no modelo Potsdam256_4, sendo a primeira linha composta pelo tile, rótulo e predição. Na segunda linha é visto o tile, as bordas e a predição das bordas. Na terceira linha são apresentadas as distâncias das bordas, e a inferência das distâncias das bordas; e na quarta linha são mostrados o primeiro tile, o tile reconstruído, e o tile em HSI. . . . . . . . . 87 Figura A.2 – Resultado da predição no modelo Potsdam256_1, sendo a primeira linha composta pelo tile, rótulo e predição. Na segunda linha é visto o tile, as bordas e a predição das bordas. Na terceira linha são apresentadas as distâncias das bordas, e a inferência das distâncias das bordas; e na quarta linha são mostrados o primeiro tile, o tile reconstruído, e o tile em HSI. . . . . . . . . 88 Figura A.3 – Resultado do modelo Potsdam128_4, sendo a primeira linha composta pelo tile, rótulo e predição. Na segunda linha é visto o tile, as bordas e a predição das bordas. Na terceira são apresentadas as distâncias das bordas, e a inferên- cia das distâncias das bordas; na quarta linha são mostrados o primeiro tile, o tile reconstruído, e o tile em HSI. . . . . . . . . . . . . . . . . . . . . . . . 89 Figura A.4 – Evolução da função custo Tanimoto with dual pelo número de épocas. . . . 90 LISTA DE TABELAS Tabela 2.1 – Redes selecionadas para a revisão. . . . . . . . . . . . . . . . . . . . . . . 26 Tabela 6.2 – Parâmetros de recorte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Tabela 6.3 – Parâmetros de normalização. . . . . . . . . . . . . . . . . . . . . . . . . . 53 Tabela 7.4 – Maiores acurácias do treinamento para cada dataset. . . . . . . . . . . . . . 57 Tabela 7.5 – Matriz de confusão do modelo na época 205 - HInDSM. . . . . . . . . . . . 60 Tabela 7.6 – Métricas do modelo na época 205 - HInDSM. . . . . . . . . . . . . . . . . 60 Tabela 7.7 – Matriz de confusão do modelo na época 201 - RGB. . . . . . . . . . . . . . 60 Tabela 7.8 – Métricas do modelo na época 201 - RGB. . . . . . . . . . . . . . . . . . . 60 Tabela 7.9 – Diferença percentual entre as métricas estimadas para o modelo HInDSM (época 205) e RGB (época 201). . . . . . . . . . . . . . . . . . . . . . . . . 61 Tabela 7.10–Matriz de confusão do modelo na época 203 - HInDSM. . . . . . . . . . . . 61 Tabela 7.11–Matriz de confusão do modelo na época 200 - RGB. . . . . . . . . . . . . . 61 Tabela 7.12–Métricas do modelo HInDSM na época 203. . . . . . . . . . . . . . . . . . 62 Tabela 7.13–Métricas do modelo RGB na época 200. . . . . . . . . . . . . . . . . . . . 62 Tabela 7.14–Diferença percentual entre as métricas estimadas para o modelo HInDSM (época 203) e RGB (época 200). . . . . . . . . . . . . . . . . . . . . . . . . 62 Tabela A.1 – Conjunto de dados preparados para o treinamento. . . . . . . . . . . . . . . 81 Tabela A.2 – Matriz de confusão do conjunto Potsdam256_4. . . . . . . . . . . . . . . . 86 Tabela A.3 – Matriz de confusão do conjunto Potsdam256_1. . . . . . . . . . . . . . . . 86 Tabela A.4 – Métricas do conjunto Potsdam256_4 em porcentagem. . . . . . . . . . . . . 86 Tabela A.5 – Métricas do conjunto Potsdam256_1 em porcentagem. . . . . . . . . . . . . 86 Tabela A.6 – Matriz de confusão do conjunto Potsdam128_4. . . . . . . . . . . . . . . . 89 Tabela A.7 – Métricas do conjunto Potsdam128_4 em porcentagem. . . . . . . . . . . . . 90 LISTA DE ABREVIATURAS E SIGLAS CLS - Classificador CUDA - Compute Unified Device Architecture cuDNN - CUDA Deep Neural Network library DL - Deep Learning DSM - Digital Surface Model DTM - Digital Terrain Model FN - False Negative FP - False Positive FPN - Feature Pyramid Network GIS - Geographic Information System GPU - Graphics Processing Unit GSD - Ground Sample Distance HInDSM - Composição hue, intensidade e MDSn HSV - Hue, Saturation e Value IHS - Intesidade, Hue e Saturação IoU - Intersection Over Union LASER - Light Amplification by Stimulated Emission of Radiation LiDAR - Light Detection And Ranging MCC - Matthews Correlation Coefficient MDS - Modelo Digital de Superficie MDSn - Modelo Digital de Superficie Normalizado MDT - Modelo Digital de Terreno mIoU - Mean Intersection Over Union nDSM - Normalized Digital Surface Model OA - Overall acurracy RBF - Radial Basis Function REG - Regressão ReLu - Rectified Linear Unit RGB - Red, Green e Blue RPN - Region Proposal Networks TN - True Negative TP - True Positive VRAM - Video Random Access Memory Wcov - Weighted By Coverage CÓDIGOS B.1 Código destinado à preparação do dataset HInDSM. . . . . . . . . . . . . . . . 92 B.2 Cálculo dos parâmetros de normalização. . . . . . . . . . . . . . . . . . . . . 93 B.3 Aplicação da função de agregação de gradientes. . . . . . . . . . . . . . . . . 94 B.4 Aplicação da função visando inicializar a lista de gradientes com o valor nulo. . 94 B.5 Código utilizado para a execução da agregação manual de gradientes. . . . . . 94 SUMÁRIO 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.1 Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2.1 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2.2 Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2 DEEP LEARNING E REDES NEURAIS CONVOLUCIONAIS . . . . . 20 2.1 Deep learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2 Redes Neurais Convolucionais . . . . . . . . . . . . . . . . . . . . . . . . 24 2.3 Arquiteturas para segmentação de edificações . . . . . . . . . . . . . . . 25 2.3.1 Arquitetura U-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.2 Arquitetura ResUNet-a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3 LASER E SISTEMAS LIDAR . . . . . . . . . . . . . . . . . . . . . . . . 33 3.1 Princípios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.1.1 Modelos digitais de superfície . . . . . . . . . . . . . . . . . . . . . . . . . 36 4 MODELOS DE CORES RGB E IHS . . . . . . . . . . . . . . . . . . . . 38 5 EXTRAÇÃO DE EDIFICAÇÕES . . . . . . . . . . . . . . . . . . . . . . 41 5.1 Métricas para avaliação das extrações . . . . . . . . . . . . . . . . . . . 42 6 MATERIAL E METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . 44 6.1 Material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6.2.1 Área de estudos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 6.2.2 Preparação dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 6.2.2.1 Dataset HInDSM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 6.2.2.2 Dataset RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 6.2.2.3 Rótulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 6.2.2.4 Recorte dos datasets - criação dos tiles . . . . . . . . . . . . . . . . . . . . . . 49 6.2.3 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 6.2.3.1 Ambiente de treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 6.2.3.2 Parâmetros de treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 6.2.3.2.1 Transformações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 6.2.3.2.2 Agregação manual de gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 6.2.3.2.3 Critério de parada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 6.2.3.3 Treinamento no dataset HInDSM e RGB . . . . . . . . . . . . . . . . . . . . . 55 6.2.4 Validação dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 7 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 7.1 Treinamento do modelo de parâmetros . . . . . . . . . . . . . . . . . . . 57 7.2 Validação do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 7.2.1 Avaliação Quantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 7.2.2 Avaliação Qualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 8 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 APÊNDICES 79 APÊNDICE A – EXPERIMENTO PRELIMINAR . . . . . . . . . . . 80 A.1 Metodologia do experimento preliminar . . . . . . . . . . . . . . . . . . 80 A.1.1 Preparação dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 A.1.2 Treinamento do modelo de parâmetros da rede . . . . . . . . . . . . . . . . 82 A.1.3 Validação dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 A.2 Resultados e análise do experimento preliminar . . . . . . . . . . . . . . 84 APÊNDICE B – ALGORITMOS/CÓDIGOS . . . . . . . . . . . . . . . 92 17 1 INTRODUÇÃO A extração automática de edificações em meio urbano não é uma necessidade recente, e tem se tornado cada vez mais essencial no cotidiano administrativo das cidades, como no planejamento urbano e desenvolvimento territorial. Para as cidades, a representação detalhada da complexidade territorial é um tópico relevante e de grande importância por fomentar a resolução de questões de direito ao solo, permitir implantação de políticas públicas direcionadas e, dessa forma, melhorar as condições de vida do cidadão. Todavia, segundo Sohn e Dowman (2007) extrações automáticas não atingem 100% de sucesso por algumas razões, como, por exemplo: a complexidade nas cenas, oclusões e dependência dos sensores. Como consequência, pesquisas sobre esse assunto são importantes meios para melhorar essas segmentações e reduzir a necessidade de extrações manuais. Há uma gama de metodologias para a extração automática de feições a partir de dados obtidos por sensores remotos, com o uso de algoritmos de aprendizagem de máquina ou de classificadores lineares, que podem ser aplicados a dados distintos. Duas informações importantes nesse sentido são imagens de sensores ópticos, por permitirem ampla visão da superfície terrestre, e dados LiDAR advindos de sistemas de varredura LASER (Light Amplification by Stimulated Emission of Radiation), sendo esse amplamente utilizado por ser uma fonte de aquisição de nuvens de pontos com coordenadas tridimensionais em alta densidade. Apesar da alta resolução desses produtos, a segmentação manual em imagens de sensores ópticos para extração de objetos urbanos possui complexidades relacionadas à extração perfeita e exaustiva por um operador humano, e o desenvolvimento computacional em hardwares e linguagens de programação envolvidos nesses processos não acompanharam o aumento da oferta de imagens de alta resolução, contexto já observado por (WILKINSON, 2005). O ritmo de mudanças também é um fator de relevância no espaço urbano, devido às cidades estarem em constantes processos de alterações, requerendo procedimentos rápidos de modo a permitir constantes atualizações. Ao se tratar da extração em dados LiDAR, tem-se que essa também pode ser conduzida por algoritmos computacionais ou manualmente, filtrando os objetos de interesse na nuvem de pontos ou aplicando algoritmos que identificam uma geometria específica, e segmenta esses dados. Yuan (2018) diz que em 2006 o interesse em pesquisas envolvendo redes neurais de aprendizagem profunda, ou deep learning, aumenta com investigações voltadas para a criação de algoritmos capazes de aprenderem uma determinada função, como reconhecimento facial ou diagnósticos em saúde, com processos de funcionamento semelhante ao do neurônio humano. Segundo Yuan (2018), o uso de deep learning surge, nesse aspecto da extração de informações, como uma alternativa aos classificadores lineares, por permitir a inclusão da aprendizagem profunda em imagens ópticas e de dados LASER, transferindo o foco da extração dos objetos urbanos para a eficácia das redes neurais em aprender, detectar e segmentar, e introduzindo o Capítulo 1. Introdução 18 conceito de generalização ilimitada como habilidade em distinguir objetos em sua diversidade de cores e formas. Há uma variedade de redes que podem ser enquadradas na segmentação semântica de edificações, como a U-Net e ResUNet-a que utilizam poucas imagens para treino, com enfoque na definição das bordas dos objetos. Portanto, a aplicação de algoritmos de deep learning para a extração de edificações em áreas urbanas torna-se promissora devido a esse ambiente possuir características com alta variabilidade entre si, como a diversidade de coberturas de edificações, com a presença de materiais distintos, em diferentes formas e condições físicas. Apesar dessa possibilidade, os dados usados para segmentação semântica em ambiente urbano ainda são majoritariamente imagens aéreas com composição de cores em RGB (Red, Green e Blue), por ser um dado com maior disponibilidade. Como as redes neurais permitem a inserção de dados distintos, o aprendizado com outras composições ou a adição de outras informações podem impactar nos resultados apresentados pelas redes. Desse modo, este trabalho tem por objetivo avaliar o uso combinado de dados LiDAR e imagens ópticas no modelo de cor HSI (Hue, Saturação e Intensidade) para o aprimoramento dos resultados das redes neurais, com enfoque na extração de edificações em ambiente urbano. 1.1 Hipótese Este trabalho avaliou o uso combinado de imagens ópticas com diferentes modelos de cor e modelos de elevação de superfície normalizados, advindos de dados LiDAR, para a extração de edificações com uso da rede neural convolucional ResUNet-a. Estima-se que a rede neural usada permita a identificação e segmentação semântica desses objetos urbanos pelo uso combinado desses dados como camadas de entrada na rede. Desse modo, a hipótese colocada é: “A acurácia e desempenho na segmentação semântica de edificações em meio urbano, por técnicas de deep learning, são aprimorados pela combinação de imagens ópticas e dados LiDAR”. 1.2 Objetivos 1.2.1 Objetivo geral Avaliar a extração de edificações por redes neurais convolucionais, inserindo a combina- ção de modelos digitais de superfície normalizados advindos de dados LiDAR e imagens ópticas representadas nos modelos de cores IHS e RGB. 1.2.2 Objetivos específicos Como objetivos específicos tem-se que: Capítulo 1. Introdução 19 • Construir, treinar e gerar um modelo por rede neural convolucional a partir da combina- ção de dados LiDAR e imagens ópticas em diferentes modelos de cor, e aplicá-lo para segmentação semântica de edificações em área urbanizada; • Comparar a segmentação semântica obtida, com a resultante de imagens sem transformação (RGB) e dados LiDAR. 72 8 CONCLUSÕES Os resultados encontrados no modelo usando a composição de cores Hue e Intensidade unido com o modelo digital de superfície normalizado demonstrou ser superior ao uso do modelo tradicional (com a composição de cores RGB). Apesar do resultado positivo visto nas métricas, como o ganho de 1,89% em termos de F1-Score, outros pontos se destacaram na metodologia proposta, como a estabilidade do treinamento, alta convergência e consequente redução do tempo de treinamento do modelo de parâmetros. Ao comparar o uso do modelo HInDSM ao uso das componentes RGB foi possível identificar que o uso do primeiro modelo permitiu uma convergência mais rápida da rede, tanto em termos de custo quanto acurácia. O destaque do HInDSM pode ser justificado por permitir a arquitetura reconhecer as edificações em meio urbano devido à presença da informação de altura. O uso desta informação convertida em uma imagem com níveis de cinza facilita ao modelo diferenciá-los de outros objetos urbanos, como vias, carros e vegetação. O emprego do modelo de cor Hue e Intensidade como camadas da imagem composta também trazem maior contexto ao treinamento. A cada canal adicionado no processamento, aumenta-se o custo computacional para o aprendizado. Deste modo, apesar de ser viável adicionar o MDSn em níveis de cinza juntamente com a informação de cor, o custo computacional se amplia quando comparado ao utilizado nesta pesquisa devido à presença de mais um canal de processamento pela arquitetura, limitando mais o uso de GPUs nos processos de deep learning. Deste modo, alternativas como a proposta nesta pesquisa, que reduzem o número de dados com melhoria dos resultados, trazem avanços aos estudos de segmentação de edificações por deep learning. A principal limitação de hardware detectada na pesquisa foi a impossibilidade de se aumentar o batch do treinamento devido ao tamanho da memória VRAM presente nas máquinas do Google Colab. O problema decorre do processamento de imagens ter alto consumo de memória. Tal limitação foi superada ao utilizar a metodologia de agregação manual de gradientes, permitindo o batch ser aumentado para 264 tiles para cada atualização dos pesos, trazendo mais estabilidade aos processos e maior contexto para a arquitetura durante o treinamento. Apesar de a segmentação ter atingido 96,6% de F1-Score, o tempo de treinamento da arquitetura ainda é um fator a se considerar. O alto custo computacional havia sido detectado no experimento preliminar realizado, antes do treinamento da metodologia proposta, e apesar do número reduzido de canais ter diminuído o tempo de processamento, ainda é um custo computacional considerável da arquitetura utilizada. O tempo de treinamento poderia ser reduzido pela sincronização com outras GPUs, dividindo os processos entre cada instância e utilizando a técnica de agregação manual de gradientes para o cálculo dos pesos. Na análise qualitativa a metodologia proposta também apresentou melhores resultados Capítulo 8. Conclusões 73 no modelo HInDSM, com baixo ruído e alta correspondência com a referência. Apesar disto, em ambos os modelos há erros na segmentação de edificações, que corresponde ao visto nas métricas avaliadas. Os principais pontos identificados foram a dificuldade da arquitetura com objetos urbanos sem altura, como canteiros de avenidas e quadras esportivas. Ao comparar os modelos, o modelo HInDSM conseguiu reduzir os problemas mencionados, mas não extinguiu-os. Não obstante, o modelo HInDSM tem mais regularidade nas edificações. Os resultados produzidos poderiam ser aplicados na atualização rápida e constante de informações urbanas requeridas pelos gestores públicos. De fato, o tempo de processamento ainda é um fator determinante no treinamento das arquiteturas de deep learning, que devem ser reduzidos com o aprimoramento das técnicas e métodos, e a maior disponibilidade de hardware eficientes em processos de aprendizagem profunda. Após o modelo treinado, a inferência é rápida e pode ser realizada continuamente em imagens ópticas e dados LiDAR, permitindo aplicações como detecção de expansão urbana, uso irregular do solo, atualização de atributos e outras aplicações. Além do meio urbano, trabalhos futuros podem verificar a aplicação da metodologia na melhoria dos modelos de deep learning na detecção de desmatamento e pontos de fogo em áreas de proteção ambiental. Conclui-se que a acurácia e o desempenho na segmentação semântica de edificações em meio urbano, por deep learning, foi aprimorado pela combinação de imagens ópticas e dados LiDAR, validando a hipótese inicialmente colocada para esta pesquisa. 74 REFERÊNCIAS AHMED, N.; MAHBUB, R. B.; RAHMAN, R. M. Learning to extract buildings from ultra-high-resolution drone images and noisy labels. International Journal of Remote Sensing, Taylor & Francis, v. 41, n. 21, p. 8216–8237, 2020. ISSN 0143-1161. DOI: https://doi.org/10.1080/01431161.2020.1763496. AMORIM, A.; PELEGRINA, M. A.; JULIÃO, R. P. Cadastro e gestão territorial: uma visão luso-brasileira para a implementação de sistemas de informação cadastral nos municípios. São Paulo: Editora Unesp Digital, 2018. ISBN 9788595462823. APACHE-MXNET. MXNet. 2022. Disponível em: . Acesso em: 2022-03-08. AWRANGJEB, M.; RAVANBAKHSH, M.; FRASER, C. S. Automatic detection of resi- dential buildings using LIDAR data and multispectral imagery. ISPRS Journal of Photo- grammetry and Remote Sensing, v. 65, n. 5, p. 457–467, 2010. ISSN 0924-2716. DOI: https://doi.org/10.1016/j.isprsjprs.2010.06.001. BADRINARAYANAN, V.; KENDALL, A.; CIPOLLA, R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. IEEE Transactions on Pattern Analy- sis and Machine Intelligence, v. 39, n. 12, p. 2481–2495, dez. 2017. ISSN 1939-3539. DOI: https://doi.org/10.1109/TPAMI.2016.2644615. BERALDIN, J. A.; BLAIS, F.; LOHR, U. Laser scanning technology. In: VOSSELMAN, G.; MAAS, H.-G. (Org.). Airborne and Terrestrial Laser Scanning. 1. ed. Dunbeath: CRC Press, 2010. p. 1–39. ISBN 978-1-4398-2798-7. BRENNER, C. Building extraction. In: VOSSELMAN, G.; MAAS, H.-G. (Org.). Airborne and Terrestrial Laser Scanning. 1. ed. Dunbeath: CRC Press, 2010. p. 169–207. ISBN 978-1-4398- 2798-7. BRIESE, C. Extraction of digital terrain models. In: VOSSELMAN, G.; MAAS, H.-G. (Org.). Airborne and Terrestrial Laser Scanning. 1. ed. Dunbeath: CRC Press, 2010. p. 135–163. ISBN 978-1-4398-2798-7. BUJÁN, S. et al. Land use classification from lidar data and ortho-images in a rural area. The Photogrammetric Record, v. 27, n. 140, p. 401–422, 2012. DOI: https://doi.org/10.1111/j.1477- 9730.2012.00698.x. CASTREJON, L. et al. Annotating Object Instances with a Polygon-RNN. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI: IEEE, 2017. p. 4485–4493. ISBN 978-1-5386-0457-1. DOI: https://doi.org/10.1109/CVPR.2017.477. CHEN, L.-C. et al. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. In: FERRARI, V. et al. (Ed.). Computer Vision – ECCV 2018. Cham: Sprin- ger International Publishing, 2018. v. 11211, p. 833–851. ISBN 978-3-030-01233-5. DOI: https://doi.org/10.1007/978-3-030-01234-2_49. https://mxnet.apache.org/versions/1.5.0/ Referências 75 CHENG, D. et al. DARNet: Deep Active Ray Network for Building Segmentation. In: 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). [S.l.: s.n.], 2019. p. 7423–7431. DOI: https://doi.org/10.1109/CVPR.2019.00761. DENG, L.; YU, D. Deep learning: Methods and applications. Foundations and Trends in Signal Processing, v. 7, n. 3–4, p. 197–387, 2014. ISSN 1932-8346. DOI: https://doi.org/10.1561/2000000039. DIAKOGIANNIS, F. I. et al. ResUNet-a: A deep learning framework for semantic segmentation of remotely sensed data. ISPRS Journal of Photogrammetry and Remote Sensing, v. 162, p. 94–114, abr. 2020. ISSN 0924-2716. DOI: https://doi.org/10.1016/j.isprsjprs.2020.01.013. EL-SHEIMY, N.; VALEO, C.; HABIB, A. Digital terrain modeling: acquisition, manipulation, and applications. Boston: Artech House, 2005. ISBN 978-1-58053-921-0. ETTEN, A. V. City-scale road extraction from satellite imagery v2: Road speeds and travel times. In: 2020 IEEE Winter Conference on Applications of Computer Vision (WACV). [S.l.: s.n.], 2020. p. 1775–1784. ISSN 2642-9381. DOI: https://doi.org/10.1109/WACV45572.2020.9093593. FREUDENBERG, M. et al. Large scale palm tree detection in high resolution satellite images using U-Net. Remote Sensing, Multidisciplinary Digital Publishing Institute (MDPI), v. 11, n. 3, p. 312, 2019. DOI: https://doi.org/10.3390/rs11030312. GONZALEZ, R. C.; WOODS, R. E. Digital image processing. 3. ed. Upper Saddle River, N.J: Prentice Hall, 2008. ISBN 978-0-13-168728-8. GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep Learning. Cambridge, Massachusetts: The MIT Press, 2016. Disponível em: . Acesso em: 20 abr. 2021. HE, K. et al. Mask R-CNN. In: 2017 IEEE International Conference on Computer Vision (ICCV). [S.l.: s.n.], 2017. p. 2980–2988. ISSN 2380-7504. DOI: https://doi.org/10.1109/ICCV.2017.322. HE, K. et al. Deep Residual Learning for Image Recognition. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. p. 770–778. ISBN 978-1-4673-8851-1. DOI: https://doi.org/10.1109/CVPR.2016.90. HUANG, J. et al. Automatic building extraction from high-resolution aerial images and LiDAR data using gated residual refinement network. ISPRS Journal of Photo- grammetry and Remote Sensing, v. 151, p. 91–105, maio 2019. ISSN 09242716. DOI: https://doi.org/10.1016/j.isprsjprs.2019.02.019. INTEL. 2D Max Pooling Forward Layer. 2017. Disponível em: . Acesso em: 15 out. 2021. IOFFE, S.; SZEGEDY, C. Batch Normalization: Accelerating Deep Network Training by Redu- cing Internal Covariate Shift. 2015. DOI: http://doi.org/10.48550/ARXIV.1502.03167. ISPRS-WG-III/4. 2D Semantic Labeling. 2018. Disponível em: . Acesso em: 20 abr. 2021. JAIN, A. K. Fundamentals of digital image processing. Englewood Cliffs, NJ: Prentice Hall, 1989. (Prentice Hall information and system sciences series). ISBN 978-0-13-336165-0. http://www.deeplearningbook.org https://software.intel.com/sites/products/documentation/doclib/daal/daal-user-and-reference-guides/daal_prog_guide/GUID-CCB814DD-945A-46DD-989A-8BC39D2D01CA.htm https://software.intel.com/sites/products/documentation/doclib/daal/daal-user-and-reference-guides/daal_prog_guide/GUID-CCB814DD-945A-46DD-989A-8BC39D2D01CA.htm https://software.intel.com/sites/products/documentation/doclib/daal/daal-user-and-reference-guides/daal_prog_guide/GUID-CCB814DD-945A-46DD-989A-8BC39D2D01CA.htm https://www2.isprs.org/commissions/comm2/wg4/benchmark/semantic-labeling https://www2.isprs.org/commissions/comm2/wg4/benchmark/semantic-labeling Referências 76 JIAO, C. et al. Burn image segmentation based on Mask Regions with Convolutional Neural Network deep learning framework: more accurate and more convenient. Burns and Trauma, v. 7, 02 2019. ISSN 2321-3876. DOI: https://doi.org/10.1186/s41038-018-0137-9. JUPYTER. JupyterNotebook. 2022. Disponível em: . Acesso em: 2022-03- 08. KANG, W. et al. EU-Net: An Efficient Fully Convolutional Network for Building Extraction from Optical Remote Sensing Images. Remote Sensing, v. 11, n. 23, p. 2813, nov. 2019. ISSN 2072-4292. DOI: https://doi.org/10.3390/rs11232813. KOHAVI, R. A study of cross-validation and bootstrap for accuracy estimation and model selection. In: Proceedings of the 14th International Joint Conference on Artificial Intelligence. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1995. v. 2, p. 1137–1143. ISBN 1558603638. DOI: https://doi.org/10.5555/1643031.1643047. LECUN, Y.; BENGIO, Y.; HINTON, G. Deep learning. Nature, v. 521, n. 7553, p. 436–444, 2015. ISSN 1476-4687. DOI: https://doi.org/10.1038/nature14539. LI, Z.; WEGNER, J. D.; LUCCHI, A. Topological Map Extraction From Overhead Images. In: 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. p. 1715–1724. ISBN 978-1-72814-803-8. DOI: https://doi.org/10.1109/ICCV.2019.00180. LI, Z.; ZHU, Q.; GOLD, C. Digital terrain modeling: principles and methodology. New York: CRC Press, 2005. ISBN 978-0-415-32462-5. MENESES, P. R. Modelos de cores aplicados às imagens. In: MENESES, P. R.; ALMEIDA, T. d. (Org.). Introdução ao processamento de imagens de sensoriamento remoto. Brasília: Universidade de Brasília e CNPq, 2012. p. 121–134. MEYER, L.; LEMARCHAND, F.; SIDIROPOULOS, P. A deep learning architecture for batch-mode fully automated field boundary detection. ISPRS Journal of Photogramme- try and Remote Sensing, XLIII-B3-2020, p. 1009–1016, 2020. ISSN 2194-9034. DOI: https://doi.org/10.5194/isprs-archives-XLIII-B3-2020-1009-2020. MILLER, C. L.; LAFLAMME, R. A. The Digital Terrain Model: Theory & Application. [S.l.]: MIT Photogrammetry Laboratory, 1958. MIROSłAW-ŚWIąTEK, D. et al. Developing an algorithm for enhancement of a digital terrain model for a densely vegetated floodplain wetland. Journal of Applied Remote Sensing, SPIE, v. 10, n. 3, p. 1 – 16, 2016. DOI: https://doi.org/10.1117/1.JRS.10.036013. MISHRA, D. Transposed Convolution Demystified. 2020. Disponível em: . Acesso em: 2021- 06-06. MOUJAHID, A. A Practical Introduction to Deep Learning with Caffe and Python // Adil Moujahid // Data Analytics and more. 2016. Disponível em: . Acesso em: 2022-03-08. https://jupyter.org https://towardsdatascience.com/transposed-convolution-demystified-84ca81b4baba https://towardsdatascience.com/transposed-convolution-demystified-84ca81b4baba http://adilmoujahid.com/posts/2016/06/introduction-deep-learning-python-caffe/ http://adilmoujahid.com/posts/2016/06/introduction-deep-learning-python-caffe/ Referências 77 NASCIMENTO, G. A. G. d. Verificação da Aplicabilidade de Dados Obtidos por Sistema LASER Batimétrico Aerotransportado à Cartografia Náutica. Dissertação (Mestrado em Ciências Cartográficas) — Universidade Estadual Paulista (Unesp), Faculdade de Ciências e Tecnologia, Presidente Prudente, 2019. Disponível em: . Acesso em: 20 abr. 2021. PEDRINI, H.; SCHWARTZ, W. R. Análise de imagens digitais princípios, algoritmos e aplica- ções. São Paulo: Thomson Learning, 2008. OCLC: 319215118. ISBN 978-85-221-0595-3. RONNEBERGER, O.; FISCHER, P.; BROX, T. U-net: Convolutional networks for biomedical image segmentation. In: Medical Image Computing and Computer-Assisted Intervention – (MICCAI). Cham: Springer International Publishing, 2015. p. 234–241. ISBN 978-3-319-24574- 4. DOI: https://doi.org/10.1007/978-3-319-24574-4_28. SANTOS, R. C. dos; GALO, M.; CARRILHO, A. C. Building boundary extraction from lidar data using a local estimated parameter for alpha shape algorithm. The Int. Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, ISPRS TC I Mid-term Symposium "Innovative Sensing - From Sensors to Methods and Applications", V.XLII-1, p. 127–132, 2018. ISSN 2194-9034. DOI: https://doi.org/10.5194/isprs-archives-XLII-1-127-2018. SANTOS, R. C. dos; GALO, M.; HABIB, A. F. Regularization of Building Roof Boundaries from Airborne LiDAR Data Using an Iterative CD-Spline. Remote Sensing, v. 12, n. 12, p. 1904, jun. 2020. ISSN 2072-4292. DOI: https://doi.org/10.3390/rs12121904. SCIKIT-LEARN. scikit-learn: machine learning in Python — scikit-learn 1.0.2 documentation. 2022. Disponível em: . Acesso em: 2022-03-08. SHAN, J.; TOTH, C. K. Topographic laser ranging and scanning: principles and processing. 1. ed. Boca Raton: CRC Press, 2008. ISBN 978-1-4200-5142-1. SHI, Y.; LI, Q.; ZHU, X. X. Building footprint generation using improved generative adversarial networks. IEEE Geoscience and Remote Sensing Letters, v. 16, n. 4, p. 603–607, 2019. ISSN 1545-598X, 1558-0571. DOI: https://doi.org/10.1109/LGRS.2018.2878486. SOHN, G.; DOWMAN, I. Data fusion of high-resolution satellite imagery and LiDAR data for automatic building extraction. ISPRS Journal of Photogrammetry and Remote Sensing, v. 62, n. 1, p. 43–63, 2007. ISSN 0924-2716. DOI: https://doi.org/10.1016/j.isprsjprs.2007.01.001. SOKOLOVA, M.; JAPKOWICZ, N.; SZPAKOWICZ, S. Beyond accuracy, F-Score and ROC: A family of discriminant measures for performance evaluation. In: AI 2006: Advances in Ar- tificial Intelligence. Berlin: Springer, 2006. p. 1015–1021. ISBN 978-3-540-49788-2. DOI: https://doi.org/10.1007/11941439_114. TRANSFER, K. PyTorch K-Fold Cross-Validation using Dataloader and Sklearn. 2021. Disponí- vel em: . Acesso em: 01 set. 2021. WANG, Y.; ZHANG, D.; DAI, G. Classification of high resolution satellite images using improved U-Net. International Journal of Applied Mathematics and Computer Science, v. 30, n. 3, p. 399–413, 2020. DOI: https://doi.org/10.34768/AMCS-2020-0030. WEHR, A.; LOHR, U. Airborne laser scanning—an introduction and overview. ISPRS Journal of Photogrammetry and Remote Sensing, v. 54, n. 2-3, p. 68–82, jul. 1999. ISSN 09242716. DOI: https://doi.org/10.1016/S0924-2716(99)00011-8. https://repositorio.unesp.br/handle/11449/181407 https://scikit-learn.org/stable/ https://androidkt.com/pytorch-k-fold-cross-validation-using-dataloader-and-sklearn/ Referências 78 WEI, S.; JI, S.; LU, M. Toward Automatic Building Footprint Delineation From Ae- rial Images Using CNN and Regularization. IEEE Transactions on Geoscience and Re- mote Sensing, v. 58, n. 3, p. 2178–2189, mar. 2020. ISSN 0196-2892, 1558-0644. DOI: https://doi.org/10.1109/TGRS.2019.2954461. WILKINSON, G. G. Results and implications of a study of fifteen years of satellite image classification experiments. IEEE Transactions on Geoscience and Remote Sensing, v. 43, n. 3, p. 433–440, 2005. ISSN 1558-0644. DOI: https://doi.org/10.1109/TGRS.2004.837325. XU, B. et al. Livestock classification and counting in quadcopter aerial images using Mask R-CNN. International Journal of Remote Sensing, Taylor & Francis, v. 41, n. 21, p. 8121–8142, 2020. ISSN 0143-1161. DOI: https://doi.org/10.1080/01431161.2020.1734245. XU, Y. et al. Building extraction in very high resolution remote sensing imagery using deep lear- ning and guided filters. Remote Sensing, Multidisciplinary Digital Publishing Institute (MDPI), v. 10, n. 1, p. 144, 2018. DOI: https://doi.org/10.3390/rs10010144. YEKEEN, S. T.; BALOGUN, A.; YUSOF, K. B. W. A novel deep learning instance segmentation model for automated marine oil spill detection. ISPRS Journal of Pho- togrammetry and Remote Sensing, v. 167, p. 190–200, 2020. ISSN 0924-2716. DOI: https://doi.org/10.1016/j.isprsjprs.2020.07.011. YUAN, J. Learning building extraction in aerial scenes with convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 40, n. 11, p. 2793–2798, 2018. ISSN 1939-3539. DOI: https://doi.org/10.1109/TPAMI.2017.2750680. ZHANG, Z.; LIU, Q.; WANG, Y. Road extraction by deep residual U-Net. IEEE Geosci- ence and Remote Sensing Letters, v. 15, n. 5, p. 749–753, 2018. ISSN 1558-0571. DOI: https://doi.org/10.1109/LGRS.2018.2802944. ZHENG, X. et al. Parsing very high resolution urban scene images by learning deep ConvNets with edge-aware loss. ISPRS Journal of Photogrammetry and Remote Sensing, v. 170, p. 15–28, dez. 2020. ISSN 09242716. DOI: https://doi.org/10.1016/j.isprsjprs.2020.09.019. RESSALVA - texto parcial.pdf 2024_MSc_Henrique_VB__PPGCC.pdf Folha de rosto Dedicatória Agradecimentos Resumo Abstract Lista de ilustrações Lista de tabelas Lista de abreviaturas e siglas Sumário Introdução Hipótese Objetivos Objetivo geral Objetivos específicos Deep Learning e Redes Neurais Convolucionais Deep learning Redes Neurais Convolucionais Arquiteturas para segmentação de edificações Arquitetura U-Net Arquitetura ResUNet-a LASER e Sistemas LiDAR Princípios Modelos digitais de superfície Modelos de cores RGB e IHS Extração de edificações Métricas para avaliação das extrações Material e Metodologia Material Metodologia Área de estudos Preparação dos dados Dataset HInDSM Dataset RGB Rótulos Recorte dos datasets - criação dos tiles Treinamento Ambiente de treinamento Parâmetros de treinamento Transformações Agregação manual de gradiente Critério de parada Treinamento no dataset HInDSM e RGB Validação dos modelos Resultados Treinamento do modelo de parâmetros Validação do modelo Avaliação Quantitativa Avaliação Qualitativa Conclusões Referências Apêndices Experimento preliminar Metodologia do experimento preliminar Preparação dos dados Treinamento do modelo de parâmetros da rede Validação dos modelos Resultados e análise do experimento preliminar Algoritmos/Códigos