Otimização em algoritmos de extração de bibliométricas de redes de colaboração científica

Freitas, José Carlos deOtimização em algoritmos de extração de bibliométricas de redes de colaboração científicaSpark-based transitivity algorithm for co-authorship network analysisUniversidade Estadual Paulista (Unesp)2020BibliometriaParalelização e distribuição de algoritmosRede de colaboração científicaBibliometricBig dataData miningNoSQLAlgorithm parallelization and distributionCo-authorship networkMy UniversityMy UniversityValêncio, Carlos Roberto [UNESP]2020-08-312020-08-312020-08-28porDissertação de mestradohttp://hdl.handle.net/11449/19334733004153073P2Acesso abertoCom o processo natural de evolução da ciência, a produção de informações nesta área passou a ganhar dimensões importantes, como é o caso quanto as produções científicas e as respectivas colaborações dos pesquisadores. Isso deu origem a grandes redes de colaboração científica, as quais podem ser extraídas de plataformas de armazenamento de informações acadêmicas. Nesse contexto, tem-se a bibliometria com o objetivo de extrair conhecimento quantitativo dessas redes de colaboração científica por meio de métricas, denominadas bibliométricas. Entretanto, os algoritmos de extração de bibliométricas não são escaláveis e, portanto, não suportam grandes redes de colaboração. Neste sentido, faz-se necessário o desenvolvimento de algoritmos otimizados por meio de distribuição de dados, que utilizam os recursos de forma mais eficiente. Assim, a contribuição científica desse trabalho é a proposição de algoritmos de extração de bibliométricas com desempenho superior aos semelhantes encontrados na literatura para grandes redes de colaboração. Verificou-se por meio dos testes que o algoritmo de extração da bibliométrica de transitividade desenvolvido tem crescimento de tempo de processamento 12,76 vezes menor que o tempo de processamento do algoritmo paralelo proposto na literatura, quando o número de pesquisadores tende ao infinito. Como subproduto, foi desenvolvida uma Ferramenta de Extração de Indicadores Bibliométricos com o objetivo de facilitar o uso dos algoritmos desenvolvidos para extração de conhecimento de redes de colaboração científica.Due to the natural process of science evolution, information production in this area has been reaching important dimensions, such as scientific productions and their respective collaborations of researchers. As a result, large scientific collaboration networks have arisen, which can be extracted from academic information storage platforms. In this context, Bibliometry aims at extracting quantitative knowledge from these scientific collaboration networks through metrics, called bibliometrics. However, the extraction algorithms of bibliometrics are not scalable and, consequently, do not support large collaboration networks. Considering this, the development of an optimized algorithm becomes necessary through data distribution that uses resources more efficiently. Therefore, the scientific contribution of this work is to implement the transitivity algorithm for extracting bibliometrics developed through the Apache Spark framework with superior performance to those found in the literature for large collaboration networks. Tests have revealed that the developed algorithm has a processing time growth 12.76 times smaller than the processing time of the parallel algorithm proposed in the literature, where the number of researchers tends to infinity. As a by-product, a Tool for Extracting Bibliometric Indicators was designed to enable the use of algorithms developed to extract knowledge from scientific collaboration networks.