DEISE DEOLINDO SILVA MEDIDA DE DISPERSÃO PARA O ÍNDICE h: proposta de um indicador do tipo h de Hirsch Marília – SP 2018 MEDIDA DE DISPERSÃO PARA O ÍNDICE h: proposta de um indicador do tipo h de Hirsch DEISE DEOLINDO SILVA Tese apresentada junto ao Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista “Júlio de Mesquita Filho”, Câmpus de Marília, como requisito parcial para obtenção do título de Doutor em Ciência da Informação. Área: Informação, Tecnologia e Conhecimento. Linha de pesquisa: Produção e Organização da Informação. Orientadora: Profa. Dra. Maria Cláudia Cabrini Grácio. Marília – SP 2018 Silva, Deise Deolindo. S586m Medida de dispersão para o índice h : proposta de um indicador do tipo h de Hirsch / Deise Deolindo Silva. – Marília, 2018. 93 f. ; 30 cm. Orientadora: Maria Cláudia Cabrini Grácio. Tese (Doutorado em Ciência da Informação) - Universidade Estadual Paulista (Unesp), Faculdade de Filosofia e Ciências, 2018. Bibliografia: f. 86-90. 1. Bibliometria. 2. Indicadores de ciência. 3. Ciência da informação – Métodos estatísticos. I. Título. CDD 020.182 Ficha catalográfica elaborada por Telma Jaqueline Dias Silveira - CRB 8/7867 MEDIDA DE DISPERSÃO PARA O ÍNDICE h: proposta de um indicador do tipo h de Hirsch Tese apresentada junto ao Programa de Pós-Graduação em Ciência da Informação, da Faculdade de Filosofia e Ciências da Universidade Estadual Paulista Júlio de Mesquita Filho, Câmpus de Marília, como requisito parcial para obtenção do título de Doutor em Ciência da Informação, sob a orientação da Profa. Dra. Maria Cláudia Cabrini Grácio. Área de concentração: Informação, Tecnologia e Conhecimento. Linha de Pesquisa: Produção e Organização da Informação. Membros da Banca Examinadora: Titular 1: Orientadora: Profa. Dra. Maria Cláudia Cabrini Grácio (UNESP/Marília) ___________________________________________________________________ Titular 2: Profa. Dra. Ely Francina Tannuri de Oliveira (UNESP/Marília) ___________________________________________________________________ Titular 3: Dr. Leandro Innocentini Lopes de Faria (UFSCar) ___________________________________________________________________ Titular 4: Dr. Rogério Mugnaini (USP) ___________________________________________________________________ Titular 5: Dr. Daniel Martinez Ávila (UNESP/Marília) ___________________________________________________________________ Suplente 1: Dr. Hércules de Araújo Feitosa (UNESP/Bauru) ___________________________________________________________________ Suplente 2: Dr. Fábio Mascarenhas (UFPE) ___________________________________________________________________ Suplente 3: Dr. Rene Faustino Gabriel Junior (UFRGS) ___________________________________________________________________ Marília, 2018 Dedico este trabalho aquele que me concedeu a vida, que me educou no caminho do bem, que sempre estimou pelo meu aprimoramento intelectual e que hoje é meu intercessor junto a Deus Meu PAI: Luiz Deolindo Apolinário. AGRADECIMENTOS Agradeço primeiramente a Deus, por ter me concedido o dom da vida, do amor, da sabedoria e do discernimento, e ao Espírito Santo, por me reavivar sempre nas horas de desânimo e nesses momentos me conceder o dom da fortaleza. à Maria, mãe de Deus, por ser minha mãe espiritual, ser meu espelho de mulher, cuja história de vida me ensinou a ouvir e a silenciar nos momentos mais difíceis. ao meu pai, Luiz Deolindo Apolinário, que, durante toda sua trajetória de vida, soube amar sua família e também ao próximo, possuía uma sabedoria invejável e, mesmo não estando em nosso meio, sei que sempre sonhou em me ver alcançando esse tão almejado título. à minha mãe, Josefa da Silva Deolindo, pelo amor incondicional, pelas palavras de incentivo, pelo carinho, por não me deixar desanimar diante dos obstáculos e por toda a educação concedida a mim. ao meu esposo, Wanderley Alves Ferreira, pelo amor que nos une, por todo o incentivo e apoio, pela compreensão, pois iniciei o doutorado no início do nosso casamento e, mesmo assim, sempre me animou a prosseguir meus estudos e vibrou com cada conquista minha. ao meu filho, Luiz Felipe Deolindo Ferreira, que me foi concedido no decorrer do doutorado e que me fez uma pessoa mais feliz e humana. Seu amor me deu forças para finalizar esse processo de doutoramento e me fez valorizar o que realmente é essencial em nossas vidas. à minha irmã, Débora Deolindo Silva, por ser minha melhor amiga, por ser minha defensora e por me apoiar em todos os momentos da minha vida. ao meu irmão, Jorge Luiz Deolindo Silva, por ser uma pessoa excepcional, sempre disposto a me ajudar, por ser um irmão muito especial, por alegrar todos a sua volta e pelo amor que nos une. em especial à minha família – meus tios, primos, afilhados, cunhados e sobrinhos – pelo carinho que prezam por mim e aos meus amigos e colegas de trabalho pelo incentivo e apoio. aos amigos do curso de pós-graduação em Ciência da Informação e do grupo de pesquisa em Estudos Métricos da Informação, pelo incentivo e carinho. aos meus professores Maria José Jorente, Ely Francina, José Augusto, Leilah Bufrem, Lena Vânia, Maria das Graças, por toda transmissão de conhecimento. de forma muito especial a Profa. Dra. Maria Cláudia Cabrini Grácio, por sua amizade, por sua orientação, por sua paciência, por entender meus problemas de horário, também, os problemas pessoais e, principalmente, pelas ideias e contribuições durante todo este trabalho. Espero que essa amizade se estenda por toda a vida! à Faculdade de Tecnologia de Garça – FATEC/Garça, à Faculdade de Agronomia e Engenharia Florestal – FAEF/Garça e à Faculdade de Tecnologia de Pompeia – FATEC/Pompeia, pelo incentivo ao meu crescimento profissional. ao convênio entre o Programa INOVA do Centro Paula Souza e à UNESP, por meio do qual fui selecionada para cursar o doutorado. Conquiste a sabedoria, e ela o exaltará. Abrace-a, e ela o honrará. Provérbios 4, 8. RESUMO Conhecer o desempenho científico de um investigador, temática, disciplina, área do conhecimento ou país é uma atividade essencial para subsidiar e orientar políticas científicas institucionais ou governamentais. Para tanto, se faz necessário ter critérios de avaliação consistentes e fidedignos ao desempenho do avaliado e considerar na análise aspectos qualitativos e quantitativos. Entre os indicadores de impacto presentes na literatura científica, destaca-se o índice h, proposto por Jorge Hisch em 2005, considerado um parâmetro avaliativo robusto por avaliar de forma simultânea os aspectos relativos à produtividade e ao impacto científico do avaliado. Apesar de ser uma medida simples de ser obtida e de seu desempenho ter se mostrado o mais significativo na representação do desempenho científico de um pesquisador, diversos trabalhos subsequentes apontam suas deficiências e limitações e propõem variações no intuito de minimizar ou dirimir os problemas e apontados. Neste contexto, esta Tese teve por objetivo analisar o índice h, suas propriedades, variações e ponderações e propor dois novos indicadores complementares ao índice h, denominados índices dci e dco, dedicados a medir a dispersão do índice h. Tem-se por hipótese que esses novos índices podem contribuir para avaliar a representatividade do índice h como indicador do impacto científico acumulado de um pesquisador e distinguir, de forma mais precisa, pesquisadores seletivos e produtivos. Além disso, contribui para estimar a possibilidade de o autor avaliado incrementar seu índice h, por meio da análise da dispersão do número de citações contidas no h-core e também fora dele. Para verificar a validade dos indicadores como medidas de dispersão, tomou-se como universo de análise o conjunto de 20 autores mais produtivos na revista Scientometrics, no período de 35 anos (1980-2014), equivalente à publicação de ao menos 20 artigos científicos. Considerou-se um segundo universo de análise, em âmbito brasileiro, relativo aos 116 pesquisadores com bolsa produtividade em Pesquisa Qualis1 (PQ1) em Matemática, e compararam-se o índice h, alguns indicadores do tipo h presentes na literatura e os índices dci e dco. Para ambos universos, levantaram-se na base Scopus, para cada pesquisador, o total de artigos publicados, o número de citações por artigo e o ano de publicação. A partir dos dados levantados, calcularam-se os índices de cada investigador. Conclui-se que, em ambas situações, os indicadores cientométricos (h e índices do tipo h), complementam-se e auxiliam na identificação de autores com alta produtividade em uma temática. As medidas de dispersão dci e dco mostraram-se capazes de caracterizar fidedignamente a dispersão do desempenho do pesquisador em torno do seu índice h e, consequentemente, a pertinência da representatividade desse índice como indicador do desempenho científico do pesquisador avaliado. Tais medidas de dispersão permitiram, ainda, distinguir de forma mais precisa o desempenho dos pesquisadores de um mesmo campo científico. Palavras-chave: Indicadores bibliométricos. Índice h. Bibliometria. ABSTRACT Knowing the scientific performance of a researcher, thematic, discipline, area of knowledge or country is an essential activity to subsidize and guide institutional or governmental scientific policies. Therefore, it is necessary to have consistent and reliable evaluation criteria for the performance of the evaluated and to consider qualitative and quantitative aspects in the analysis. Among the impact indicators present in the scientific literature, the h-index, proposed by Jorge Hisch in 2005, stands out as a robust evaluation parameter for simultaneously evaluating aspects related to productivity and to scientific impact of the evaluated researcher. Although h-index is a simple measure to obtain and its performance has been the most significant in the representation of the scientific performance of a researcher, several subsequent works pointed out their deficiencies and limitations and proposed variations in order to minimize or solve the problems. In this context, this Thesis aimed to analyze the h-index, its properties, variations and weights and propose two new complementary indicators to the h-index, called indexes dci and dco, dedicated to measure the dispersion of the h-index. It is hypothesized that these new indexes can contribute to evaluate the representativeness of the h-index as an indicator of the cumulative scientific impact of a researcher and to distinguish, more accurately, selective and productive researchers. In addition, it contributes to estimate the possibility of the evaluated author increasing his h-index by analyzing the dispersion of the number of citations contained in the h-core and also outside it. To verify the validity of the indicators as measures of dispersion, it was taken the group of 20 most productive authors of the Scientometrics journal, in the 35-year period (1980-2014), equivalent to the publication of at least 20 scientific articles. It was considered a second universe of analysis, in the Brazilian context, related to the 116 researchers with productivity scholarship in Qualis1 Research (PQ1) in Mathematics, and it were compared the h-index, some indicators of type h present in the literature and the indices dci and dco. For both universes, the total number of articles published, the number of citations per article and the year of publication were raised in the Scopus database for each researcher. From the data collected, the indices of each researcher were calculated. In conclusion, in both situations, the cientificometric indicators (h and h-type indices) complement and assist in the identification of authors with high productivity in a thematic. The dci and dco dispersion measures were able to reliably characterize the dispersion of the researcher's performance around his h-index and, consequently, the pertinence of the representativeness of this index as an indicator of the scientific performance of the evaluated researcher. These dispersion measures also allowed to distinguish in a more accurate way the performance of the researchers of the same scientific field. Keywords: Bibliometric indicators. h-index. Bibliometry. LISTA DE FIGURAS Figura 1 – Representação gráfica do índice h........................................................................... 36 Figura 2 – Distribuição de frequências das citações recebidas pelos autores A, B, C e D ....... 39 Figura 3– Interpretação geométrica do índice e. ...................................................................... 52 LISTAS DE GRÁFICOS Gráfico 1 – Boxplot para o índice h dos pesquisadores PQ1 de acordo com os níveis ............ 75 Gráfico 2: Pesquisadores PQ1 em Matemática subdivididos de acordo com o valor mediano do CVdci e do CVdco................................................................................................................. 79 LISTA DE QUADROS Quadro 1 – Representação e descrição dos indicadores ........................................................... 38 Quadro 2 – Escala classificatória para a dispersão do índice dci e dco ..................................... 65 Quadro 3 – Pesquisadores PQ1 em Matemática. ...................................................................... 72 LISTA DE TABELAS Tabela 1 - Ilustração de como encontrar o índice h de um pesquisador ................................... 31 Tabela 2 – Índice h dos autores E. Garfield e F. Narin ............................................................ 33 Tabela 3 – Indicadores do contexto de desempenho para os autores A, B, C e D ................... 41 Tabela 4 – Cálculo do índice h e g para o pesquisador Egghe ................................................. 45 Tabela 5 – Cálculo do índice ar para o pesquisador Egghe ..................................................... 48 Tabela 6 – Cálculo do índice hw, utilizando os dados do autor Egghe ..................................... 50 Tabela 7– Elementos para o cálculo do índice e. ..................................................................... 53 Tabela 8 – Elementos para o cálculo do dci e dco ..................................................................... 64 Tabela 9 – Cálculo do dci e dco para os autores A, B, C e D .................................................... 66 Tabela 10 – Estatísticas descritivas para os indicadores bibliométricos .................................. 73 Tabela 11 – Estatísticas descritivas para os indicadores bibliométricos, de acordo com o nível do pesquisador PQ1. ................................................................................................................. 74 Tabela 12 – Estatísticas descritivas para os indicadores bibliométricos, conforme o nível de dispersão do núcleo Hirsch (CVdci) ......................................................................................... 77 Tabela 13 - Classificação dos pesquisadores de acordo com o CVdci e CVdco ....................... 78 Tabela 14 – Estatísticas descritivas para os indicadores bibliométricos, conforme o índice h 81 Tabela 15 – Estatísticas descritivas para os indicadores bibliométricos, conforme o número de artigos. ...................................................................................................................................... 82 LISTA DE ABREVIATURAS C&T: Ciência e Tecnologia CA: Comitês de Assessoramento CAPES: Coordenação de Aperfeiçoamento Pessoal de Nível Superior CNPq: Conselho Nacional de Pesquisa CVdci: Coeficiente de variação da dispersão das citações no interior do h-core CVdco: Coeficiente de variação da dispersão das citações fora do h-core dci: Dispersão das citações no interior do h-core dco: Dispersão das citações fora do h-core FAPs: Fundações Estaduais de Amparo à Pesquisa g: Índice g h: Índice h PIB: Produto Interno Bruto PQ: Produtividade em Pesquisa PQ1: Pesquisadores Produtividade em Pesquisa 1 PQ1A: Pesquisadores Produtividade em Pesquisa 1A PQ1B: Pesquisadores Produtividade em Pesquisa 1B PQ1C: Pesquisadores Produtividade em Pesquisa 1C PQ1D: Pesquisadores Produtividade em Pesquisa 1D PQ2: Pesquisadores Produtividade em Pesquisa 2 TIC: Tecnologia de Informação e Comunicação SUMÁRIO INTRODUÇÃO ...................................................................................................................... 17 OBJETIVO GERAL ................................................................................................................... 20 OBJETIVOS ESPECÍFICOS ........................................................................................................ 20 JUSTIFICATIVA ....................................................................................................................... 20 ORGANIZAÇÃO DO TRABALHO ............................................................................................... 21 1 INDICADORES BIBLIOMÉTRICOS ......................................................................... 22 1.1 ORIGEM E EVOLUÇÃO DA BIBLIOMETRIA ......................................................................... 22 1.2 INDICADORES BIBLIOMÉTRICOS E CIENTOMÉTRICOS: TRAJETÓRIA HISTÓRICO-CONCEITUAL .............................................................................................................................................. 24 1.2.1 INDICADORES DE CITAÇÃO .......................................................................................... 27 1.2.2 CLASSIFICAÇÃO DOS INDICADORES CIENTOMÉTRICOS ................................................ 29 2 ÍNDICE DO TIPO H DE HIRSCH ............................................................................... 30 2.1 RELAÇÃO DO ÍNDICE H COM O NÚMERO TOTAL DE CITAÇÕES ........................................... 34 2.1.1 Análise de autores com mesmo índice h ................................................................. 38 2.2 ÍNDICE H NAS DIFERENTES BASES DE DADOS .................................................................... 42 2.3 VARIAÇÕES DO ÍNDICE H ............................................................................................. 43 2.3.1 Quociente m ............................................................................................................. 43 2.3.2 Índice g .................................................................................................................... 44 2.3.3 Índice h(2) ................................................................................................................. 46 2.3.4 Índice a .................................................................................................................... 47 2.3.5 Índice r ..................................................................................................................... 47 2.3.6 Índice ar ................................................................................................................... 48 2.3.7 Índice h normalizado (hn) ....................................................................................... 49 2.3.8 Índice hw .................................................................................................................. 49 2.3.9 Índice m ................................................................................................................... 50 2.3.10 Índice v ................................................................................................................... 51 2.3.11 Índice π .................................................................................................................. 51 2.3.12 Índice e ................................................................................................................... 52 2.3.13 Índice w de Wu ...................................................................................................... 53 2.3.14 Índice q2 ................................................................................................................. 53 2.3.15 Índice hg ................................................................................................................ 54 2.3.16 Índice hc ................................................................................................................. 56 2.3.17 Índice ht ................................................................................................................. 57 2.3.18 Índice h dinâmico .................................................................................................. 58 2.3.19 Índice hpd .............................................................................................................. 59 2.3.20 Indicador de vitalidade do impacto ....................................................................... 60 2.3.21 Índice k .................................................................................................................. 60 2.3.22 Índice s ................................................................................................................... 61 2.3.23 Índice f ................................................................................................................... 61 2.4 ESTUDOS ENVOLVENDO AS VARIAÇÕES DO ÍNDICE H .................................................. 62 2.5 PROPOSTA DE UM INDICADOR DO TIPO HIRSCH ........................................................... 62 3. ANÁLISE BIBLIOMÉTRICA PARA OS PESQUISADORES PQ1 EM MATEMÁTICA ..................................................................................................................... 70 3.1 CARACTERÍSTICAS ASSOCIADAS AOS BOLSISTAS PRODUTIVIDADE EM PESQUISA ............. 70 3.2 DESCRIÇÃO DO CORPUS DE PESQUISA ............................................................................... 71 3.2.1 ANÁLISE BIBLIOMÉTRICA PARA OS PESQUISADORES PQ1 EM MATEMÁTICA ................. 72 4. CONSIDERAÇÕES FINAIS ............................................................................................. 83 REFERÊNCIAS BIBLIOGRÁFICAS ................................................................................. 86 APÊNDICE ............................................................................................................................. 91 17 INTRODUÇÃO A socialização do conhecimento produzido é um fenômeno que cresce ao longo das últimas décadas, principalmente com o advento das Tecnologias da Informação e Comunicação (TIC). Nota-se um crescimento significativo do número de resultados de pesquisas científicas disseminados nos diferentes canais de comunicação científica, informais e formais, especialmente em bases de dados. A produção científica tem sido sistematicamente analisada ao longo desse período, uma vez que reflete o grau de desenvolvimento de uma nação, por impactar de forma significativa em suas questões sociais, tecnológicas e econômicas. Neste contexto, governo e a comunidade científica entram em uma relação retroalimentadora, em que o primeiro exige o aumento da produtividade dos pesquisadores e estes aumentam a produção a fim de garantir os subsídios necessários aos seus programas educacionais e aos de pesquisa. Em consequência, a avaliação da produção científica tornou-se um fator imprescindível, assim como a elaboração de critérios que avaliem os diferentes níveis de agregação: micro (pesquisadores), meso (periódicos científicos) e macro (país). Velho (1986) discute esse cenário e considera que, quanto mais produtivo o ambiente científico, mais frequentes e rigorosas serão as rotinas avaliativas. Assim, por mostrar aspectos relativos ao grau de desenvolvimento de uma nação e proporcionar avanços em âmbitos social, político e econômico, a elaboração de critérios e indicadores para a análise e caracterização do desempenho científico para os diversos domínios do conhecimento e suas respectivas comunidades tornaram-se atividades imprescindíveis. Em um mundo em que os recursos são limitados, a mensuração do desempenho científico, mesmo que potencialmente desconfortável, muitas vezes é necessária para fins avaliativos e comparativos, na seleção e análise do desempenho de docentes universitários, para a concessão de bolsas de pesquisa a programas de pós-graduação e a seus discentes, dentre outras situações (HIRSCH, 2005). Os Estados Unidos e nações da Europa, que apresentam intensa atividade científica, têm adotado a avaliação da produção científica como uma prática comum utilizada pelas agências de fomento, ministérios e organismos ligados às políticas de Ciência e Tecnologia (C&T). As práticas em questão têm despertado o interesse de países, em especial, dos que têm crescimento da produção, como o Brasil (VANZ; STUMPF, 2010). Nesse contexto, destaca-se a necessidade de esforços para a elaboração de mecanismos adequados de avaliação dos domínios científicos, assim como dispor-se de instrumentos e de 18 indicadores apropriados para a definição de suas diretrizes, alocação de investimentos e recursos, formulação de programas e avaliação de atividades relacionadas ao desenvolvimento científico e tecnológico, como forma de identificar as elites científicas, garantindo um investimento profícuo das agências de fomento à pesquisa (MUGNAINI et al., 2004; THOMAZ et al., 2011; VANZ, STUMPF, 2010). Mugnaini et al. (2004) apontam a necessidade de se dispor de indicadores fidedignos1 ao real comportamento científico dos pesquisadores, dos periódicos ou das instituições, entre outros, para a definição de diretrizes, alocação de investimentos e recursos, formulação de programas e avaliação de atividades relacionadas ao desenvolvimento científico e tecnológico no país. Thomaz et al. (2011) afirmam que, diante da crescente demanda por insumos para financiamento de pesquisas científicas, tornou-se necessária a elaboração de mecanismos de avaliação da qualidade acadêmico-científica, como forma de prestigiar instituições e indivíduos capazes de produzir pesquisas que contribuam para a ampliação das fronteiras do conhecimento, garantindo um investimento profícuo das agências de fomento à pesquisa. Com a mesma visão, Vanz e Stumpf (2010) consideram que o Brasil precisa desenvolver técnicas quantitativas de medição da produção científica e elaborar diferentes bases de dados e indicadores. Afirmam que as bases de dados darão o suporte para a visibilidade da produção científica nacional, e o desenvolvimento de indicadores permitirá uma análise mais fidedigna do desempenho científico das suas instituições, dos periódicos, das áreas de conhecimento, das relações de colaboração científica já existentes e dos investimentos em pesquisas. Entre as abordagens para a caracterização e para a avaliação de um domínio científico, Hjørland (2002) destaca os estudos bibliométricos, em especial as análises baseadas nas citações recebidas pela produção científica de uma comunidade científica, por constituírem estudos que permitem uma ampla visualização da visibilidade, da influência e do impacto do conhecimento gerado, também, dos autores de maior reconhecimento nesta comunidade. Os estudos bibliométricos compreendem o conjunto de estudos relacionados à avaliação da informação científica registrada, em diferentes suportes, baseados em recursos quantitativos, como procedimento de análise. Fundamentados na Sociologia da Ciência, na Ciência da Informação, na Matemática, na Estatística e na Computação, são estudos de natureza teórico- conceitual quando contribuem para o avanço do conhecimento da própria temática, propondo novos conceitos e indicadores, bem como reflexões e análises relativas à área. São de natureza 1 Indicadores fidedignos têm a propriedade que diz respeito à consistência e à estabilidade de uma medida (FONSECA, 2010). 19 metodológica quando se propõem a dar sustentação aos trabalhos metateóricos nas áreas em que estão aplicados (OLIVEIRA; GRÁCIO, 2011). As análises bibliométricas têm se mostrado procedimentos tangíveis e confiáveis. Seus indicadores, em geral, avaliam aspectos relativos à produção, à ligação e à citação e têm por finalidade explicitar, além da produtividade, o impacto e o reconhecimento de autores, de periódicos, de instituições, de grupos ou de países, nas diferentes áreas do conhecimento (OLIVEIRA; GRÁCIO, 2011). No âmbito das questões relativas ao reconhecimento de um pesquisador na comunidade científica, a fim de mensurar o impacto acumulado da produção científica de um pesquisador, Hirsch (2005) desenvolveu um índice bibliométrico em cuja formulação consideram-se aspectos relativos à qualidade (impacto) e à quantidade (número de artigos produzidos), denominado índice h. Esse indicador foi definido da seguinte forma: Um pesquisador tem índice h, se h de seus Np artigos têm pelo menos h citações cada, e os outros (Np - h) artigos têm não mais que h citações cada. O autor supracitado disse que o índice h adquiriu rapidamente visibilidade e passou a ser critério de avaliação em diversas agências de fomento. Lima et al. (2012) relataram que o índice h tem sido adotado por diversos órgãos financiadores de pesquisa, com destaque para agências de algumas nações da Europa e da Oceania. No Brasil, a utilização do índice está acontecendo de maneira lenta. Destaca-se algumas fundações estaduais de amparo à pesquisa (FAPs), o Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) e a Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) estão utilizando-o como critério para alocação de recursos e benefícios, tais como as bolsas de produtividade científica concedidas pelo CNPq. No entanto, existem limitações relativas a esse índice, apontam-se os fatos de ele não ser indicado para comparar pesquisadores de áreas diferentes do conhecimento e de poder atribuir vantagens para pesquisadores que têm maior tempo de dedicação à pesquisa. Egghe (2010) aponta que novos pesquisadores têm clara desvantagem quando comparados aos que possuem carreira mais longa, pois estes tiveram um tempo maior para se dedicar à pesquisa e acumular citações. Além disso, autores estabelecidos podem aumentar seu índice h, por meio de um incremento no número de citações recebidas, mesmo se não houver novos artigos publicados, já que o índice h não é influenciado pelo número de publicações e sim pelas citações recebidas pelos artigos. Nesse âmbito, como contextualizar o índice h a fim de contemplar diferenças de comportamento no desempenho científico, em função das citações recebidas pelos artigos 20 publicados, e de contribuir para a melhoria da avaliação do impacto científico dos pesquisadores? Considera-se que a elaboração de uma medida de dispersão para o índice h possa oferecer uma resposta a essa questão e contribuir para o aprimoramento do processo avaliativo da produção científica de um pesquisador. Tem-se por hipótese que uma medida que caracterize a dispersão do número de citações contidas no h-core, e também fora dele, possa contribuir para distinguir de forma mais precisa o impacto científico acumulado dos pesquisadores e para identificar pesquisadores seletivos ou produtivos, bem como pode verificar a possibilidade de o autor incrementar seu índice h. Objetivo Geral Este trabalho teve por objetivo geral propor dois indicadores bibliométricos derivados do índice h de Hirsch, que mensurem e avaliem as caudas superior e inferior da distribuição das citações de um pesquisador, denominados dci e dco, respectivamente. A finalidade foi proporcionar indicadores mais fidedignos do impacto cumulativo do avaliado. Buscou-se contribuir para se discernir, de forma mais precisa, as diferenças entre o impacto científico acumulado de pesquisadores de um mesmo domínio científico. Objetivos Específicos Em âmbito específico, busca-se: a) analisar o índice h e suas variações considerando pesquisadores com tempos de atuação distintos e diferentes distribuições de citações; b) propor índices derivados do índice h de Hirsch, a partir da mensuração do número de citações dentro e fora do núcleo Hirsch e c) realizar uma análise comparativa entre os resultados do índice h, índice derivado de h proposto, índice g e outros observados na literatura, por meio da avaliação de pesquisadores com bolsa produtividade em Pesquisa Qualis1 (PQ1) em Matemática. Justificativa Essa pesquisa justifica-se pela contribuição para o aprofundamento da análise dos índices do tipo h de Hirsch e da relação entre eles, assim como para a compreensão desses indicadores como descritores da trajetória acadêmica de um pesquisador. 21 Considera-se, também, a preocupação crescente com a avaliação da produção científica e, por consequência, a necessidade de proporcionarem-se indicadores mais fidedignos ao real impacto e ao reconhecimento dos pesquisadores que constroem o conhecimento científico, propiciando parâmetros que tornem possível uma avaliação mais precisa, a fim de subsidiar as tomadas de decisões de forma mais consistente, viabilizando novas estratégias de crescimento. Além disso, aponta-se a carência de estudos relacionados a indicadores bibliométricos que trabalhem de forma conjunta e aprofundada com metodologias estatísticas (VANZ, STUMPF, 2010; OLIVEIRA, GRÁCIO, 2011; MUGNAINI, et al., 2004). Desse modo, considera-se que esta pesquisa contribui para os estudos da área da Ciência da Informação, especialmente da Bibliometria e Cientometria, ao colaborar para compreensão, discussão e visualização do papel dos indicadores bibliométricos no processo avaliativo da produção científica. Organização do trabalho Inicialmente, realizou-se pesquisa bibliográfica acerca dos temas pertinentes ao trabalho, em especial, o estudo de índice h e suas variações. Os levantamentos sobre as teorias associadas ao índice h de Hirsch teve por objetivo descrever, analisar sua formulação matemática e estudar as diferentes variações, generalizações e ponderações existentes para o indicador. Assim, no Capítulo 1 apresentaram-se os indicadores bibliométricos e, no Capítulo 2, os indicadores do tipo Hirsch. Como aplicação prática, analisaram-se os índices para pesquisadores de uma área específica, com tempos de atuação eram diferentes. Com esta análise, objetivou-se investigar as vantagens e as desvantagens em se utilizar o índice h como indicador bibliométrico. Após essas análises, encontrou-se um índice h do tipo Hirsch, a partir da contextualização do número de citações contidas na cauda superior e inferior da distribuição de citações do pesquisador, com base no instrumental estatístico. Encontrados os indicadores, realizou-se uma análise comparativa entre os resultados do índice h, dos novos índices derivados de h, do índice g e de outros observados. Por fim, adotou-se como universo de aplicação e de análise do comportamento dos novos indicadores, dci e dco, associados ao índice h, os pesquisadores com bolsa produtividade em Pesquisa Qualis1 (PQ1) em Matemática, a fim de se verificar as principais diferenças entre os indicadores do tipo h de Hirsch e a eficácia do desempenho dos novos índices propostos, em diferentes cenários. 22 1 INDICADORES BIBLIOMÉTRICOS 1.1 Origem e evolução da Bibliometria Em 1934, Paul Otlet definiu a bibliometria como parte da bibliografia na qual se analisa a medida ou a quantidade aplicada ao livro (OTLET, 1986). O termo bibliometria deriva-se de Biblion (livro) e metron (medida), e foi utilizado inicialmente como um instrumento de avaliação quantitativa aplicado ao comportamento da literatura científica – quantidade de edições, de exemplares, de palavras contidas nos livros, de espaços ocupados nas bibliotecas (DANUELLO, 2014; ARAÚJO, 2006). Originalmente, a finalidade da Bibliometria restringia-se a medir e a avaliar os custos, a extensão e a utilização das coleções, dessa maneira, esta atividade ficou conhecida como bibliografia estatística. Em 1948, Ranganathan introduziu o termo bibliotecometria para referir- se à atividade quantitativa no contexto das bibliotecas (DANUELLO, 2014). Embora o termo Bibliometria tenha aparecido nos estudos de Otlet, consagrou-se e popularizou-se a partir de 1969, quando Alan Pritchard sugeriu que essa terminologia fosse mais adequada para substituir o termo bibliografia estatística. Pritchard a definiu como sendo os métodos estatísticos e matemáticos aplicados a livros ou outros meios de comunicação e sugeriu sua utilização em todos os estudos voltados à quantificação dos processos da comunicação escrita (PRITCHARD, 1969). Com o passar dos anos, a Bibliometria deixou de analisar somente informações relacionadas a livros e voltou-se à análise de outros formatos da produção bibliográfica: artigos, periódicos, patentes e outros tipos de documentos. Além disso, passou a ocupar-se também da avaliação da produtividade dos autores, das instituições e dos estudos relacionados às citações (ARAÚJO, 2006). Narin (1976) afirma que a Bibliometria poderia ser desdobrada em duas vertentes: a descritiva e a avaliativa. A primeira estuda determinadas características da literatura científica relacionadas, por exemplo, à distribuição geográfica e à evolução temporal da produção bibliográfica. A segunda analisa aspectos qualitativos da atividade científica, especificamente por meio das análises de citações e das publicações. Thelwall (2008) relata, além destas, a existência da bibliometria relacional a qual busca apresentar as relações no âmbito da investigação. Pode-se destacar: a estrutura cognitiva dos campos de pesquisa, o surgimento de novas frentes de pesquisa nacionais ou internacionais e os padrões de co-autoria. 23 Nesse sentido, pode-se dizer que a Bibliometria analisa os aspectos quantitativos da produção científica, da disseminação e do uso da informação registrada, utiliza os resultados para elaborar previsões e auxilia tomadas de decisões em diferentes níveis – tanto ao pesquisador, quanto à instituição e ao governo, entre outros. Contemporaneamente, na Ciência da Informação, considera-se uma abordagem da Análise de Domínio e adota-se, assim, um paradigma social como fundamento teórico-metodológico de sustentação para seus estudos e indicadores destinados à análise objetiva da produção científica. Como recursos metodológicos, apoia-se em procedimentos matemáticos e estatísticos, os quais são capazes de quantificar os processos de comunicação escrita e podem contribuir para a visualização do comportamento de um campo do conhecimento científico (TAGUE-SUTCLIFFE, 1992; PRICE, 1963; GRÁCIO, OLIVEIRA, 2011; HJØRLAND, 2002; ARAUJO, 2006). Logo, os estudos bibliométricos contribuem para se evidenciar o referencial teórico epistemológico de um campo científico e as relações existentes, seja dentro desse campo ou com os demais. Ao utilizar métodos quantitativos, a Bibliometria aproxima-se e intercepta-se à Cientometria, à Informetria e à Patentometria, mas diferencia-se quanto ao objeto e quanto ao objetivo do estudo (PRICE, 1963; GRÁCIO, OLIVEIRA, 2011; ROSAS, 2013). Glänzel (2003) considera que as análises bibliométricas têm três fins e, a partir deles, definiu três grupos-alvo da Bibliometria: 1) Bibliometria para especialistas em bibliometria: pesquisas destinadas a contribuir à teoria e ao desenvolvimento metodológico da própria área, 2) Bibliometria para disciplinas científicas: pesquisas metateóricas, voltadas a contribuir ao conhecimento das diversas disciplinas e 3) Bibliometria para a política e gestão científica: estudos destinados a avaliar a pesquisa científica, com a finalidade de subsidiar as tomadas de decisão em política científica. Considerando os objetivos propostos, esta pesquisa insere-se no grupo-alvo 1- Bibliometria para especialistas em bibliometria, ao se propor a contribuir para a discussão e refinamento do índice h e seus derivados, por meio do estabelecimento de novos indicadores que mensurem a dispersão da distribuição das citações de um pesquisador. Embora não seja objetivo principal desta pesquisa, ao analisar o conjunto de pesquisadores bolsistas produtividade em pesquisa, nível 1, esta pesquisa insere-se, ainda que tangencialmente, no grupo-alvo 2, contribuindo para o conhecimento do desempenho científico de pesquisadores da área da Matemática. Os indicadores propostos medem o desvio, ou a dispersão, das citações dentro e fora do núcleo Hirsch, podendo ser utilizados para a avaliação da pesquisa científica e 24 auxiliar em possíveis tomadas de decisões para órgãos destinados à política e gestão científica. Logo, considera-se que este estudo também está inserido no grupo-alvo 3. 1.2 Indicadores bibliométricos e cientométricos: trajetória histórico-conceitual A produção científica nacional tem grande influência no desenvolvimento econômico e social de um país. Por isso, há a necessidade de se avaliar essa atividade e seus resultados, sendo um dos critérios mais relevantes, as publicações científicas (DORTA-GONZÁLEZ, P; DORTA-GONZÁLEZ, M., 2010). Essa avaliação tem por objetivo analisar de maneira quantitativa as publicações científicas, por meio de indicadores que caracterizem as variáveis relacionadas à produtividade e à visibilidade. Santos e Kobashi (2005) consideram que os indicadores quantitativos não representam uma verdade absoluta sobre o estado da ciência e da tecnologia, mas configuram-se como aproximações da realidade ou como uma expressão incompleta dela. Sugerem que a utilização desses indicadores seja comparativa para ter significado, a fim de contextualizar e de relativizar os resultados, e que o excesso de confiança seja evitado. Consideram a seleção e a construção de indicadores adequados aos diferentes contextos serem uma tarefa extremamente complexa. Diante dessa complexidade, parte dos esforços em Ciência, Tecnologia e Inovação concentram-se na elaboração de metodologias apropriadas para a formulação de indicadores adequados e representativos do universo (temática, disciplina, campo, área, país, entre outros) analisado. Narin (1994) considera que o uso de indicadores quantitativos possibilita o entendimento do desenvolvimento científico e tecnológico contemporâneo. Sugere que existem três pressuposições básicas para a análise bibliométrica e estas podem ser utilizadas para avaliar a atividade científica, em três diferentes perspectivas: 1. indicadores de atividade; 2. indicadores de impacto e 3. indicadores de ligação. No Brasil, a preocupação com o desenvolvimento de indicadores representativos vem se fortalecendo nas últimas décadas, dado o reconhecimento, por parte dos governos e da comunidade científica, da necessidade de dispor-se de instrumentos adequados para a definição de diretrizes, a alocação de investimentos e de recursos, a formulação de programas e a avaliação de atividades relacionadas ao desenvolvimento científico e tecnológico no país. Todavia, apesar de a atenção e de os esforços recentes no sentido de construírem-se metodologias, instrumentos e indicadores contextualizados, essa questão não está ainda plenamente solucionada (SPINAK, 1998; MUGNAINI et al., 2004). 25 Um indicador em Ciência e Tecnologia (C&T) é uma medida, em geral quantitativa, usada para expressar, para quantificar ou para representar conceitos relacionados ao desempenho, ao processo ou ao grau de desenvolvimento científico ou tecnológico de um campo do conhecimento. Logo, mostram-se necessários e relevantes para a análise e para a avaliação das diferentes áreas da ciência (JANNUZZI, 2002; GRÁCIO, OLIVEIRA, 2012). De acordo com Mugnaini et al. (2004), originalmente, os indicadores de C&T integravam os sistemas de indicadores econômicos, uma vez que existe uma dependência entre Produto Interno Bruto (PIB) de um país e seu dispêndio em C&T. Todavia, nas últimas décadas, observam-se o desenvolvimento e a ampliação conceitual e metodológica destes indicadores, de forma autônoma dos indicadores econômicos. Essa configuração resulta da evolução histórica na forma de entender o processo de produção do conhecimento científico e tecnológico. Mugnaini et al. (2004) elucidam, ainda, que inicialmente os esforços em C&T eram mensurados por meio de indicadores de input (baseados em insumo), como o volume de investimento em pesquisa científica e tecnológica. A partir da década de 1960, os indicadores de output (focados em resultados) começaram a ser utilizados, devido à necessidade de dispor- se de medidas que permitissem aos tomadores de decisão avaliarem o retorno dos investimentos aplicados. Nesse contexto, surge a cientometria, considerada um instrumento de Sociologia da Ciência, dedicada ao estudo e à análise da evolução, do comportamento e do impacto social das ciências. Abrangendo o sistema de pesquisa como um todo, utiliza indicadores que buscam realizar associações de causas e de efeitos dentro do sistema. A cientometria é, também, intitulada “ciência das ciências” (PRICE, 1963; MUGNAINI, et al., 2004; SPINAK, 1998). Na cientometria, os indicadores baseiam-se em procedimentos e em técnicas matemáticas e/ou em análises estatísticas, que têm um importante papel junto aos órgãos nacionais de avaliação em C&T por fornecerem medidas objetivas dos resultados relativos aos recursos investidos e aos avanços científicos obtidos, assim como subsídios para a visualização e análise de domínios científicos potenciais para o investimento de recursos financeiros subsequentes. Assim, esses indicadores emergiram com o objetivo de planejar, de monitorar e de avaliar as atividades em C&T (MUGNAINI, et al., 2004; VELHO, 1997; SPINAK, 1998). Os indicadores em C&T podem ser definidos como números sínteses que mensuram e expressam pontualmente características, comportamentos e tendências científicas de países, de domínios do conhecimentos, de periódicos, de instituições e de pesquisadores, entre outros, e destinam-se a: a. identificar e visualizar o desempenho científico e tecnológico dos países; b. 26 identificar trabalhos e projetos promissores de uma área; c. auxiliar as tomadas de decisões de gestores da política de C&T e d. analisar o domínio em que a comunidade científica está inserida e entender o ciclo de gestação, de reprodução e de disseminação da ciência, entre outros (SANTOS, KOBASHI, 2005; MUGNAINI, et al., 2004). Como ressaltado, Narin (1994) disse que, os indicadores podem ser agrupados em três grupos: 1. indicadores de atividade que mensuram a atividade e desenvolvimento da ciência; 2. indicadores de impacto que mensuram o impacto dessas atividades de pesquisa e 3. indicadores de ligação que mensuram as ligações entre as organizações produtoras das atividades científicas e as ligações de conhecimento entre suas áreas ou temáticas. Em concordância, Gregolin et al. (2005), disseram que os indicadores bibliométricos compõem um ferramental capaz de analisar quantitativamente a ciência e podem ser agrupados em indicadores de produção, de citação e de ligação, os quais compreendem: a) Indicadores de produção científica: baseiam-se na contagem do número de publicações, por país, por temática ou área do conhecimento, por tipologia documental, por ano, por instituição, pesquisador, entre outros. Os indicadores de produção baseados na intensidade da produção científica, notadamente, identificam a produtividade, mas não a qualidade das publicações. Como exemplos desses indicadores, citam-se, ainda, as taxas de crescimento da produção científica e tecnológica, porcentagens, meia-vida das publicações e as distribuições de produtividade (Lei de Lotka), de uso de vocabulários (distribuição de Zipf) e de classificações de periódicos (distribuição de Bradford). b) Os indicadores de citação: baseiam-se no número de citações e buscam mensurar a noção de impacto, a influência e a visibilidade de uma publicação, em nível micro (autores), meso (periódico e instituição, entre outros) ou macro (área do conhecimento e país, entre outros), ao atribuírem crédito aos autores (nível micro), que se estendem, consequentemente, para os níveis meso e macro. No entanto, devem ser compreendidos como parâmetros complexos, pois podem não ser equivalentes e nem estar correlacionados à qualidade científica. c) Os indicadores de ligação (ou relacionais): destinam-se à análise das intensidades de relações entre dois indivíduos (pesquisadores, palavras-chave, temáticas, instituições, periódicos, países, entre outros), sejam elas simétricas, como as relações de coautoria, de cocitação, de acoplamento bibliográfico ou de coocorrência de palavras-chave, ou assimétricas, como as relações citante-citado, relação autor-temática, autor-evento, entre outras. Esses indicadores permitem a visualização da proximidade ou da 27 similaridade entre os indivíduos envolvidos na relação analisada, contribuindo para se identificar e evidenciar, por exemplo, comunidades sociais, cognitivas e epistêmicas. Normalmente, representados por meio de redes, elaboradas pela abordagem de Análise de Redes Sociais e utilizam a análise de clusters para gerar os agrupamentos dos indivíduos envolvidos na relação analisada, a partir da proximidade ou da similaridade observada nesta relação. Segundo Narin (1994), esses indicadores podem ser agrupados quanto a quatro aspectos distintos, a saber: 1. Questões relacionadas à política: caracteriza a produção científica e tecnológica das nações e regiões, por meio da análise das atividades científicas; 2. Análise estratégica: caracteriza a produção de publicações ou patentes dos centros de pesquisa e universidades, ou do rendimento tecnológico das empresas por meio da análise conjunta dessas atividades científicas; 3. Análise tática: trata do seguimento das atividades de pesquisa e de desenvolvimento realizadas em determinadas áreas ou que estejam relacionadas com problemas científicos e tecnológicos; e 4. Recuperação da informação convencional: identifica as atividades e as pessoas envolvidas na pesquisa e no seu desenvolvimento. Considerando que o objeto de estudo desta pesquisa está no escopo dos indicadores de citação, por serem índices relacionados ao índice h de Hirsch, apresentam-se, de forma mais detalhada, na Seção seguinte, conceitos, definições e propriedades desta tipologia de indicadores. 1.2.1 Indicadores de citação Baseada no conjunto de referências arroladas no final de cada trabalho científico, a análise de citação constitui importante parte da Bibliometria. Segundo Araújo (2006), a análise de citação permite identificar características específicas da comunicação científica: i. autores mais citados; ii. frente de pesquisa; iii. procedência geográfica e/ou institucional; iv. tipologia documental mais citada; v. meia-vida da literatura usada; 28 vi. obsolescência da literatura; vii. idioma predominante na literatura citada; viii. core de periódicos que compõem um campo. Logo, a análise de citação tem por objetivo medir o impacto e a visibilidade de determinados autores, instituições, periódicos ou país dentro de uma comunidade científica e possibilita a análise das fontes de informações utilizadas. Apesar de haver críticas relacionadas à sua utilização, os estudos de citação têm demonstrado confiabilidade como instrumento avaliativo do impacto das publicações (VANZ, CAREGNATO, 2003; GLÄNZEL, 2003). Algumas questões associadas ao uso de indicadores de citação referem-se: às diferenças epistemológicas e de práticas de comunicação científica entre as diferentes áreas do conhecimento; às diferentes motivações para a citação e para a não citação; à própria natureza da publicação (se é de revisão ou original); à barreira linguística; à origem da publicação (de países periféricos ou mainstream) (VANZ, CAREGNATO, 2003; OLIVEIRA, GRÁCIO, 2011). As autocitações também têm sido objeto de análise, de reflexão, de questionamentos e de críticas na comunidade científica. Glänzel (2003) aponta que a autocitação é condenada por alguns estudiosos por ser uma forma de reforçar sua posição na comunidade científica, ao amplificar os seus indicadores de citação, avultando e adulterando o real impacto das suas pesquisas na comunidade científica. Em contrapartida, há pesquisadores que as consideram como essenciais para a comunicação científica, ao revelarem o lastro científico do pesquisador e sua consistência na temática. Segundo ainda o autor, a falta quase absoluta de autocitação, durante um longo período de tempo, é tão patológica quanto uma presença intensa de autocitação, uma vez que a primeira pode indicar o caráter neófito do pesquisador na temática da publicação, e a segunda pode evidenciar um isolamento e a falta de comunicação do pesquisador. P. Dorta-González e M. Dorta-González (2010) ressaltam que existem diversos indicadores clássicos, dentre eles, pode-se citar: número de artigos publicados, número total de citações e citações por artigo que, de forma individual, não refletem satisfatoriamente o êxito da carreira profissional de um pesquisador. Além disso, esses indicadores não são considerados robustos, pois podem ser afetados, tanto por artigos poucos citados, como por aqueles muito citados. 29 1.2.2 Classificação dos indicadores cientométricos Conforme Vinkler (2010) os indicadores cientométricos podem ser classificados de acordo com o número de conjuntos de dados utilizados e, com a aplicação de referência, podem ser indicadores 1. simples, 2. compostos ou 3. complexos. 1. Indicadores Simples: esses indicadores utilizam um único aspecto dos sistemas cientométricos; são representados por uma única variável cientométrica e com um único nível hierárquico. Pode-se citar, como exemplo, o número total de citações de um conjunto de publicações. 2. Indicadores Complexos: esses indicadores utilizam dois ou mais conjuntos cientométricos ou consideram uma única variável cientométrica com mais de um nível hierárquico. Por exemplo, para o cálculo do índice h, deve-se considerar os artigos publicados [conjunto A] e as citações correspondentes [conjunto B]. 3. Indicadores Compostos: esses indicadores são formados por vários indicadores simples ou complexos, de preferência com fatores de ponderação, e cada fator representa um aspecto especial de um dado sistema cientométrico. Eles consistem em índices parciais bem selecionados, por exemplo, podem caracterizar a atividade global de organizações (Instituição ou país) dentro de um sistema correspondente (universidade, mundo) contendo várias organizações. Diante da necessidade da elaboração de indicadores bibliométricos e cientométricos que compreendam um significado maior e mais abrangente da atuação e do impacto científico de um pesquisador, Instituição ou país, verifica-se ser necessário o desenvolvimento de índices compostos e/ou complexos que avaliem adequadamente a atividade científica do avaliado. Logo, o Capítulo 2 apresenta diversos índices do tipo h de Hirsch, os quais são considerados indicadores de citação complexos. 30 2 ÍNDICE DO TIPO h DE HIRSCH O físico argentino Jorge Hirsch, professor da Universidade da Califórnia, em San Diego, propôs, em 2005, o denominado índice h, um indicador bibliométrico destinado a medir, simultaneamente, o volume e o impacto da produção científica de um pesquisador. O desenvolvimento desse índice surgiu da indagação sobre como quantificar o impacto acumulado dos resultados das investigações de um pesquisador como reflexo da relevância científica da sua atuação (HIRSCH, 2005). Uma das justificativas apresentadas por Hirsch para a proposição desse indicador foi o fato de os recursos serem limitados e a quantificação, mesmo que muitas vezes seja desconfortável, é necessária para fins avaliativos e comparativos. Destacou que o registro do conjunto de publicações de um indivíduo e de respectivas citações configura um corpus de informação relevante sobre o desempenho e o reconhecimento junto à comunidade científica. O autor propôs, então, o índice h, como um número particularmente simples de ser obtido e útil para caracterizar o impacto científico de um pesquisador. Hirsch (2005) definiu o índice h da seguinte forma: Definição 1 (Hirsch, 2005, p.1, tradução nossa): “Um cientista tem índice h, se h de seus Np artigos têm ao menos h citações cada, e os outros (Np - h) artigos têm não mais que h citações cada”2. Em que: h = valor do índice h; Np = número de publicações. Egghe (2010) destacou a seguinte definição equivalente para o índice h apresentada por Hirsch: Definição 2 (Egghe, 2010, p.3, tradução nossa): Ranquear os artigos de um autor e, em ordem decrescente, colocar o número de citações recebidas. O índice h do autor é o maior valor r = h que o trabalho teve no rank 1,2,...,h, tendo h ou mais citações3. 2A scientist has index h if h of his/her Np papers have at least h citations each, and the other (Np - h) papers have no more than h citations each. 3If we rank the papers of an author in decreasing order of the number of citations they received then this author’s h-index is the highest rank r=h such that the papers on ranks 1,2,…,h each have h or more citations. 31 Desse modo, para determinar o índice h, é necessário construir uma sequência numérica4 decrescente das citações dos artigos de um pesquisador. Formalmente, a sequência de citações recebidas pelo conjunto de artigos publicados por esse pesquisador pode ser descrita por: (N1, ..., Ni, ..., Nc), em que: C = total de artigos publicados pelo pesquisador, com C  1; Ni = número de citações recebidas pelo i-ésimo artigo publicado pelo pesquisador, com Ni  Ni+1, para 1  i  C; C e N N (conjunto dos números naturais). Para determinar o valor do índice h, deve-se encontrar o maior valor de i, aqui rotulado por h, tal que h  Nh. Assim, todos os artigos de número de ordem menor que h têm pelo menos h citações e aqueles com número de ordem i maior que h, isto é, os posteriores, não têm mais que h citações cada. A fim de ilustrar a forma de obter o índice h, a Tabela 1 simula a obtenção do índice h de um pesquisador hipotético. Tabela 1 - Ilustração de como encontrar o índice h de um pesquisador Posição (i) do artigo na sequência de artigos No de Citações (Ni) 1 60 2 57 3 42 4 38 5 38 6 35 7 26 8 25 9 25 10 20 11 15 12 12 13 11 14 11 15 10 16 9 17 9 18 8 19 7 20 7 Fonte: elaborada pela autora. Para a Tabela 1, observa-se que C = 20 e para h = 12, temos que h = Nh e h =12 é o maior valor de i tal que h  Nh. Portanto, o índice h do autor hipotético é igual a 12, significando 4 Uma sequência (xn) de números reais diz-se crescente se tem x1 < x2 <...< xn < ..., isto é, xn < xn+1, para todo 𝑛 ∈ N (LIMA, 1993, p.121). 32 que este autor tem 12 artigos com pelo menos 12 citações cada e os outros 8 artigos (N13, N14, ..., N20) não tem mais que 12 citações cada. Observa-se, assim, uma característica relevante do índice h: ser uma medida capaz de combinar quantidade e qualidade da produção acadêmica e, por esse motivo, é considerado um indicador eficaz (MARQUES, 2013; EGGHE, 2010). Desse modo, o índice h identifica o núcleo mais produtivo das publicações científicas de um pesquisador em termos daqueles trabalhos que receberam maiores número de citações. Esse grupo de artigos é composto pelos primeiros documentos h e é chamado de núcleo Hirsch, termo inserido por Rousseau em 2006. Outra terminologia utilizada para descrever os artigos que compõem o núcleo Hirsch é h-core. Os documentos que compõem esse grupo têm alto impacto, no que diz respeito à carreira do cientista (JIN et al., 2007, p.855; BURRELL, 2007b, p.170; ROUSSEAU, 2006). A Tabela 2 apresenta uma situação presente em Egghe (2010), em que se comparam pesquisadores com quantidade de artigo e de citações diferentes, mas índices h iguais. Observa-se, na Tabela 2, que tanto E. Garfield como F. Narin possuem índice h = 27. Todavia, para todos os 26 artigos entre a 1ª posição e 26ª posição, Garfield recebeu mais citações do que Narin, evidenciando que o índice h não diferencia a distribuição das citações acima do valor de h dos pesquisadores e, desse modo, não beneficia os artigos altamente citados. Neste contexto, Garfield tem 14 artigos com mais de 100 citações e Narin somente 1, todavia esse fato não influenciou o valor do índice h. Além disso, somando-se o total de citações dos artigos de ordem de 1 a 27 (N1 a N27) de cada autor, observa-se que, até o valor do índice h (27), Garfield acumulou 3048 citações, ao passo que Narin acumulou 1406 citações, correspondentes a menos da metade (46%) das citações recebidas por Garfield. Essa característica do índice h associa-se à sua robustez5 em dois aspectos: não é influenciada por um conjunto de artigos com poucas citações, nem por artigos altamente citados (EGGHE, 2010). 5 Por analogia à definição de teste robusto presente em Vieira (2003), considerou-se uma medida robusta como aquela em que pequenas modificações nos dados não alteram o resultado do índice. 33 Tabela 2 – Índice h dos autores E. Garfield e F. Narin E. GARFIELD F. NARIN Posição do artigo (i) No de Citações (Ni) Posição do artigo(i) No de Citações (Ni) 1 625 1 112 2 149 2 95 3 138 3 86 4 132 4 82 5 132 5 73 6 129 6 71 7 127 7 70 8 111 8 63 9 109 9 59 10 108 10 55 11 107 11 55 12 105 12 53 13 104 13 52 14 101 14 52 15 96 15 44 16 91 16 41 17 89 17 38 18 88 18 37 19 87 19 35 20 85 20 33 21 80 21 33 22 67 22 29 23 63 23 28 24 41 24 28 25 29 25 28 26 28 26 27 27 27 27 27 28 26 28 26 ⋮ ⋮ ⋮ ⋮ Fonte: Egghe (2010). Entre os diversos artigos que discutem os pontos positivos em se utilizar este indicador, citam-se Egghe (2010), Marques (2013) e Hirsch (2005), os quais salientam as seguintes propriedades do índice h: 1. Capacidade de combinar quantidade e impacto da pesquisa em um único indicador; 2. Facilidade de ser obtido e de se compreender; 3. Possibilidade de caracterizar a produtividade científica de um pesquisador com objetividade, 4. Possibilidade de utilizá-lo na tomada de decisões sobre promoções, alocação de verbas e atribuição de prêmios. 34 5. Desempenho melhor do que o de outros indicadores bibliométricos utilizados para a avaliação da produtividade científica de um pesquisador (fator de impacto, número de artigos, número de citações, citações por artigo e número de artigos altamente citados), quando utilizado de forma isolada. 6. Identifica pesquisadores que produzem de forma consistente bons trabalhos durante um intervalo de tempo e aqueles que escrevem artigos altamente citados, durante um curto período de tempo e depois se estagnam em produção científica. Por outro lado, Egghe (2010), Marques (2013) e P. Dorta-Gonzalez e M. Dorta- Gonzalez, P. (2010) apontaram algumas limitações do índice h, a saber: 1. Não é indicado para comparar pesquisadores de disciplinas diferentes; 2. Não é indicado para comparar pesquisadores com tempo de titulação diferente, pois tem alta correlação positiva, tanto com o número total de citações, como com o número de publicações dos investigadores, o que tende a favorecer autores com carreiras mais longas do que aqueles com titulação mais recente; 3. Pode ser influenciado pelas autocitações; 4. Dá a livros o mesmo peso que dá aos artigos, tornando complicado comparar pesquisadores de áreas em que há a cultura de publicar os resultados de pesquisa em livros, como as humanidades; 5. Não considera o contexto das citações: não faz distinção entre um artigo de autoria individual ou de um pequeno grupo de colaboradores e um artigo com centenas de autores, cuja participação individual é difícil avaliar; 6. Dificuldade em obter todas as publicações de um autor, o que dificulta o cálculo do índice h, além de poder apresentar problemas relacionados à homografia; 7. Não é adequado para a comparação de pesquisadores de áreas científicas distintas, uma vez que cada uma tem diferentes práticas de publicação e citação e, portanto, o número de citações depende de distintos parâmetros bibliométricos entre áreas, que não estão relacionados com a qualidade. 2.1 Relação do índice h com o número total de citações Hirsch (2005) descreveu uma relação entre o valor do índice h e o número total de citações (Nc). O limite inferior do número total de citações de um pesquisador é dado por h2, uma vez que todos os primeiros h artigos (aqueles com maiores quantidades de citação) 35 apresentam a relação Ni  Nh  h, para 1  i  h. Logo, para cada i  h, Ni  h, então, o número total de citações (Nc) será maior que h×h = h2. Assim, a relação pode ser escrita da seguinte forma: Nc =  Ni = ah2, para 1  i  C. (1) Para o exemplo da Tabela 1, tem-se que: Nc = 465, h = 12 e h2 = 144. Logo, Nc = ah2 465 = a.144 a = 465/144 = 3,23. Hirsch (2005) encontrou empiricamente um valor para o coeficiente a entre 3 e 5. No modelo linear, o valor mínimo para o coeficiente a na equação (1) é a = 2. Esse valor é considerado quando o número de novas citações por ano (c) for igual ao número de artigos publicados por ano (p). Nesse caso, os artigos com pelo menos h citações e aqueles com menos de h citações contribuem igualmente para o total de citações (Nc). O valor de a será maior para ambos os casos: c > p e c < p. Para c > p, há mais contribuições para o número total de citações a partir dos artigos altamente citados, ao passo que, para c < p, as contribuições dão-se pelos artigos esparsamente citados (HIRSCH, 2005). A Figura 1 apresenta a interpretação gráfica do índice h, em que o eixo horizontal do plano cartesiano refere-se ao número de ordem, na sequência de artigos publicados por um pesquisador, e o eixo vertical corresponde às citações recebidas pelos respectivos artigos. Para cada par ordenado (número de ordem dos artigos em ordem crescente e respectivo número de citações - em ordem decrescente), assinala-se no plano cartesiano um ponto correspondente. A intersecção a 45 graus da linha com a curva determina o índice h. 36 Figura 1 – Representação gráfica do índice h Fonte: adaptado de Hirsch (2005). O número total de citações corresponde à área total abaixo sob a curva, correspondente à soma das áreas S+h2+I. Assumindo a segunda derivada não negativa em todos os pontos, a área mínima é dada pela distribuição indicada pela linha pontilhada, quando a = 2 na Equação 1. Em trabalho publicado em 2006, em função da incipiência dos estudos relativos ao recém proposto índice h, Glänzel (2006) apontou que havia incertezas relacionadas à interpretação do índice h, em decorrência da falta de experiência com esse indicador e, também, devido aos aspectos matemático-estatísticos ainda não terem sido completamente estudados, naquele momento. Desde então, diversos estudos têm sido propostos, dedicados à compreensão das propriedades matemáticas desse índice. Em 2010, P. Dorta-Gonzalez e M. Dorta-Gonzalez (2010) apresentaram uma formulação matemática que leva em consideração as citações recebidas pelas publicações e a influência que essas têm em incrementar os valores futuros do índice h. Os autores propuseram o raciocínio seguinte: considere as publicações de um autor, coloque em ordem decrescente o número de citações, com Np representando o número total de publicações deste autor e ci o número de citações recebidas pela publicação i (c1 ≥ c2 ≥ ... ≥ cNp), com 1  i  Np. Para 𝐶𝑗 = ∑ 𝑐𝑖 𝑗 𝑖=1 , a soma das citações para as j publicações mais citadas, com j  Np, 𝐶𝑁𝑝 = ∑ 𝑐𝑖 𝑁𝑝 𝑖=1 , define a soma total de citações do autor e 𝐶̅= CNp/Np a média de citações por artigo. 37 A representação do par “posição do artigo na sequência ordenada e respectivo número de citações”, rotulado por (i, ci), resulta na distribuição das citações e a linha que une esses pontos consiste na curva das citações, observada na Figura 1. O índice h é o maior inteiro que satisfaz ch ≥ h, ou seja, h = máximo valor de i ∈ Np tal que ci ≥ i. (2) Geometricamente (Figura 1), é o ponto de intersecção da curva das citações com a bissetriz do primeiro quadrante (linha a 45 graus do eixo horizontal) que sinaliza o autor ter h trabalhos com pelo menos h citações cada. O índice h fornece um limite inferior H = h2 do número total de citações, não incluindo o volume de citações nas caudas da distribuição de citações: cauda superior “S”, composta por artigos mais citados e cauda inferior “I” por publicações menos citadas (Figura 1). Observam- se as seguintes relações: CNp = H + S + I, (3) S = 𝑪𝒉 – H, (4) I = CNp –𝑪𝒉. (5) O peso relativo das caudas da distribuição de citações é dada por CNpH. De acordo com estimativas Hirsch, pode-se dizer que, se CNpH < 3, a distribuição tem caudas pouco pesadas, enquanto se CNpH > 5 a distribuição tem caudas pesadas. Segundo P. Dorta-Gonzalez e M. Dorta-Gonzalez (2010), o índice h beneficia aqueles pesquisadores que têm caudas menos pesadas. Isso porque, à medida que aumenta o peso relativo da cauda, a proporção de eventos considerados no cálculo deste índice é menor e consideravelmente prejudica pesquisadores com uma proporção das caudas S/I elevada. Quando S/I > 1, o peso da cauda superior é maior do que a inferior, o que pode indicar que é um investigador seletivo (possui artigos altamente citados), ou seja, ele pode ter menos publicações, mas são de grande impacto. Quando ocorre o inverso, isto é, S/ I < 1, a relação entre caudas poderia indicar que se tem um pesquisador altamente produtivo (as citações recebidas pelos artigos que compõem o núcleo Hirsch são bem distribuídas). Além dessa análise, os autores supracitados fazem uma comparação do índice h com a mediana (m). Quando a distribuição das citações é simétrica em relação à bissetriz, tem-se que m < h e S = I. O caso m << h (onde << indica que muito inferior) corresponde a uma distribuição em que S >> I, enquanto m >> h corresponde a S << I. 38 Sabe-se que o índice h não consegue discriminar os diferentes perfis na distribuição de citação, uma vez que não leva em consideração o peso das caudas, mesmo para valores de m distante de h. Pode acontecer de duas distribuições terem o mesmo valor para h, uma com S >> I e outra com S << I. Nesses casos, a medição dos parâmetros S e I complementam a análise. Assim, aumenta a capacidade de discriminação nos casos em que exista uma dúvida sobre o desempenho dos investigadores (DORTA-GONZALEZ, P; DORTA-GONZALEZ, M., 2010). Quadro 1 – Representação e descrição dos indicadores Indicador Descrição Fórmulas % de citações Np Número de publicações - - i=1, 2, ..., Np Índice de publicações em ordem decrescente do número de citações - - ci Citações da publicação i - - 𝐶𝑗 Número de citações acumuladas até a j-ésima publicação 𝐶𝑗 = ∑ 𝑐𝑖 𝑗 𝑖=1 - H Quadrado de Hirsch h2 ℎ2 𝐶𝑁𝑝 × 100 S Cauda superior 𝐶ℎ − 𝐻 𝐶ℎ − 𝐻 𝐶𝑁𝑝 × 100 I Cauda inferior 𝐶𝑁𝑝 − 𝐶ℎ (1 − 𝐶ℎ 𝐶𝑁𝑝 ) × 100 𝐶ℎ Número de citações dos h artigos 𝐶ℎ = ∑ 𝑐𝑖 ℎ 𝑖=1 = S+H 𝐻 + 𝑆 𝐶𝑁𝑝 × 100 CNp Total de citações ∑ 𝑐 𝑁𝑝 𝑖=1 𝑖 = S+ H+I 100 𝐶̅ Média de citações 𝐶̅ = 𝐶𝑁𝑝 𝑁𝑝 - S/I Relação entre as caudas - - CNp/H Peso relativo das caudas - - M Mediana do número de citações - 50 Fonte: adaptado de Dorta-Gonzalez, P. e Dorta-Gonzalez, M. (2010). 2.1.1 Análise de autores com mesmo índice h A fim de exemplificar a relação entre número de citações e o valor do índice h, na Figura 2 apresentam-se situações hipotéticas relativas à distribuição das citações recebidas pelas publicações e o valor do índice h de quatro autores fictícios: A, B, C e D. O índice h desses 4 pesquisadores é h = 10, mas o número de publicações (Np) e as citações recebidas pelas publicações (ci  cj com 1  i  j  Np) diferem significativamente entre os 4 autores fictícios. O autor A tem 30 artigos publicados (Np = 30) e possui artigos altamente citados, com c1 = 100 citações, como também artigos com poucas citações. O autor B também tem 30 artigos 39 publicados, mas seu artigo expoente (c1) recebeu 30 citações. O cientista C tem 15 artigos publicados (Np = 15), mas tem trabalhos altamente citados, com c1 = 100 citações, c2 = 90 citações, c3 = 80 citações, e muito poucos artigos pouco citados. O autor D tem 10 artigos (Np = 10) e cada um deles recebeu 10 citações (ci = 10, para 1  i 10). Figura 2 – Distribuição de frequências das citações recebidas pelos autores A, B, C e D Autor A Autor B Autor C Autor D Fonte: elaborada pela autora. Observa-se na Figura 2 que, embora os 4 pesquisadores fictícios apresentem diferentes distribuições das citações recebidas, todos têm índice h = 10, desconsiderando tanto os artigos altamente citados como as distintas quantidades de artigos publicados por cada pesquisador, assim como não conseguindo diferenciar o desempenho desses pesquisadores. 100 82 75 60 48 35 30 22 15 101099888777755555322220 10 20 30 40 50 60 70 80 90 100 1 3 5 7 9 11131517192123252729 N Ú M ER O D E C IT A Ç Õ ES NÚMERO DE ARTIGOS 30282523222120 1514 10999999888877755533330 10 20 30 40 50 60 70 80 90 100 1 3 5 7 9 11131517192123252729 N Ú M ER O D E C IT A Ç Õ ES NÚMERO DE ARTIGOS 100 90 80 65 50 40 30 20 15 1098765 0 10 20 30 40 50 60 70 80 90 100 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 N Ú M ER O D E C IT A Ç Õ ES NÚMERO DE ARTIGOS 10 0 20 40 60 80 100 1 3 5 7 9 11131517192123252729 N Ú M ER O D E C IT A Ç Õ ES NÚMERO DE ARTIGOS 40 Diante desse cenário, os debates concentram-se sobre quão o índice h é uma medida significativa do desempenho de um cientista (BORNMANN, et al 2008; EGGHE, 2010), visto que, observando somente o resultado do índice h, os autores fictícios da Figura 2 têm desempenhos iguais. As distribuições de frequências das citações dos autores A, B e C, apresentadas na Figura 2, mostram que o comportamento de tais pesquisadores pode ser modelado pela distribuição probabilística Exponencial Estendida ou pela Lei de Potências. Redner (1998) ressaltou que, para um número pequeno de citações, a Exponencial Estendida é adequada (número de citações menor que 500), enquanto a um número grande de citações os dados ajustam-se melhor por meio da Lei de Potências. Além disso, observou que o comportamento das citações pode ser modelado pela mistura das duas funções. A distribuição probabilística da Exponencial Estendida, com parâmetro α, pode ser descrita pela equação (6): 𝒇(𝒙) = 𝜶𝒆−𝜶𝒙, 𝒙 > 0, (6) em que, α é a taxa da distribuição e deve satisfazer α > 0. A função de probabilidade da Lei de Potências é descrita por: 𝒇(𝒙) = 𝑪𝒙−𝜶, (7) em que, C: constante de normalização, tal que, as probabilidades para todos os valores de x devam somar 1. α: parâmetro escala, geralmente estimado após a aplicação do logaritmo natural (ln). Em relação aos autores fictícios presentes na Figura 2, considerando que os autores A e C somam 593 citações e 535 citações, respectivamente, a distribuição de probabilidade que melhor modela o comportamento do impacto científico desses pesquisadores é a Lei das Potências, expressa pela função (7). O autor B soma 342 citações e, portanto, sua distribuição de probabilística pode ser representada pela Exponencial Estendida. A distribuição do autor D assemelha-se a uma distribuição Uniforme Discreta (f(x) = 1/Np). Nesse caso, conforme Bornmann et al. (2008), o desempenho científico do pesquisador é considerado constante (evento raro). 41 De acordo com a abordagem de P. Dorta-Gonzalez e M. Dorta-Gonzalez (2010), esses autores têm o mesmo índice h, mas diferentes indicadores de desempenho, os quais complementam o contexto da sua atuação e do impacto científico. A Tabela 3 apresenta essa relação. Tabela 3 – Indicadores do contexto de desempenho para os autores A, B, C e D Indicador Autores A B C D Np 30 30 15 10 CNp 593 342 535 100 h 10 10 10 10 H 100 100 100 100 𝐶ℎ 477 208 500 100 S 377 108 400 0 I 116 134 35 0 S/I 3,25 (autor seletivo) 0,81(autor produtivo) 11,43 (autor seletivo) - CNp /H 5,93 (cauda pesada) 3,42 (cauda normal) 5,35 (cauda pesada) 1 (cauda leve) M 4 8 4 5 Fonte: elaborada pela autora. A partir da Tabela 3, observa-se que os totais de citações recebidas são diferentes entre os autores. Além disso, os autores A e C possuem razão S/I > 1, portanto, são considerados seletivos. Complemente-se que eles têm distribuição de citação com cauda pesada, pois a relação CNp/H foi maior que 5. Tais valores indicam que esses pesquisadores têm publicações de grande impacto, uma vez que o referido comportamento é refletido nesses indicadores. O autor B foi considerado produtivo, pois tem razão S/I < 1 e a sua distribuição de citação tem cauda considerada normal, pois varia entre 3 e 5, significando que o pesquisador não tem um artigo altamente citado. O autor D é considerado de desempenho constante, pois todos os artigos publicados têm o mesmo número de citações. Destaca-se, todavia, que probabilisticamente a situação hipotética desse autor fictício é rara. Ao analisar a mediana da distribuição das citações dos autores, verifica-se que os investigadores A e C têm m = 4 << h = 10 e S >> I, ou seja, metade das citações recebidas pelos autores concentram-se nos quatro primeiros artigos e se distanciam do valor do índice h (o índice h de A se encontra no percentil 80 e de C no percentil 93). O pesquisador B tem m = 8 < h = 10 e S < I, nota-se que há uma proximidade maior do valor da mediana e do índice h (o qual se localiza no percentil 60). A proximidade da mediana caracteriza o perfil do pesquisador como sendo mais produtivo do que seletivo. Existe, na literatura, a discussão em torno da interpretação do índice h. Egghe (2010) questionou sobre o que ele mensura, por não ser uma média, não ser um percentil, não ser uma 42 fração e ser, em seu ponto de vista, uma medida de performance, de impacto e de visibilidade totalmente nova. Acredita-se que o índice h seja uma medida de posição6. 2.2 Índice h nas diferentes bases de dados Existem na literatura alguns estudos comparativos no que se refere ao valor do índice h nas diferentes bases de dados. Bar-Ilan (2008) compara os índices h de um conjunto de pesquisadores israelenses com base nas citações obtidas da Web of Science, Scopus e Google Scholar. Os resultados obtidos por meio do Google Scholar são consideravelmente diferentes dos resultados coletados via Web of Science e Scopus. Jacso (2008a, 2008b, 2008c) analisam os valores dos indicadores obtidos em diferentes fontes de informações. Ressaltam que os aspectos práticos para a determinação do índice h precisam ser examinados, porque algumas características de conteúdo, banco de dados e software podem influenciar fortemente os valores do indicador. Além disso, destacam que o processo de rastreamento e de contagem de citações é muito demorado para se analisar e corrigir manualmente. Concluíram que existe um manejo não cuidadoso dos dados obtidos por meio do Google Scholar e que a base de dados Scopus é a mais realista e justa para a representação do desempenho científico de um pesquisador. Franceschet (2010) apresentou um estudo de caso para acadêmicos da Ciência da Computação, utilizando, de forma comparativa, como fonte de dados Web of Science e Google Scholar. O estudo conclui que o Google Scholar calcula indicadores significativamente mais altos do que a Web of Science e as classificações baseadas no índice h mostram um grau moderado de variação entre as bases. Silva e Grácio (2017) realizaram uma pesquisa analisando os índices h para 20 pesquisadores representativos na temática “Estudos Métricos da Informação” nas fontes de dados — Scopus, Web of Science e Google Acadêmico– , com o objetivo de identificar e analisar possíveis diferenças entre os valores desses indicadores e examinar a congruência dos índices nessas bases. Identificaram que o valor do índice h não diferiu estatisticamente entre as bases de dados Scopus e Web of Science, considerando um nível de significância de 5%. Por outro lado, esse índice diferiu significativamente dos valores obtidos a partir do Google Acadêmico. 6 Medidas de posição: é um valor que descreve ou representa os dados de acordo com sua localização (SEBASTIÃO, 2017). 43 Dessa maneira, destacam-se a importância e a influência da base de dados escolhida pelo avaliador na determinação do valor do índice h. Assim, o avaliador deve escolher criteriosamente o banco de dados que utilizará para a obtenção do índice h, a fim de que possa retratar o mais fidedignamente possível o pesquisador avaliado. 2.3 Variações do índice h Atualmente, existem estudos direcionados à obtenção de variações, de ponderações e de generalizações do índice h, em função das limitações e das questões apontadas nas seções anteriores, uma vez que esse indicador tem se mostrado relevante para a análise bibliométrica de pesquisadores, de grupos, de instituições ou de países e sido utilizado como critério de mérito e de excelência por agências de fomento e por instituições para distribuição de verbas e reconhecimento acadêmico-científico. Bornmann et al. (2008) e Egghe (2010) apresentam diversas variações do índice h, todas têm o intuito de minimizar ou de dirimir os problemas e questões levantadas. A seguir apresentam-se algumas variações do índice h. 2.3.1 Quociente m Hirsch (2005) desenvolveu o quociente m, pois identificou que o índice h poderia ser influenciado pelo tempo e que o pesquisador dedica-se à pesquisa. O quociente m é obtido pela equação: 𝑄𝑢𝑜𝑐𝑖𝑒𝑛𝑡𝑒 𝑚 = ℎ 𝑦 (8) em que, h = índice h e y = número de anos desde a publicação do primeiro artigo. No entanto, determinar o número de anos que o pesquisador dedica-se à pesquisa, muitas vezes, não é uma tarefa fácil, por isso, Silva e Grácio (2015a) propuseram relativizar o índice h pelo tempo (t) de publicação que o autor tem na revista científica ou na base de dados analisada. Dessa forma, elimina-se a influência do tempo no valor do índice h e propicia uma visualização mais fidedigna do impacto e da inserção do pesquisador na comunidade científica. O indicador relativo h/t é definido da seguinte forma: dado o índice h do autor e o tempo t de publicação, obtém-se a razão h/t, segundo a qual o autor publicou, em média, h/t artigos com pelo menos h/t citações cada, por ano (SILVA; GRÁCIO, 2015a). 44 As autoras analisaram um universo de 20 autores, considerados mais produtivos na revista Scientometrics, ou seja, eles deveriam ter pelo menos 20 artigos científicos publicados, no período de 35 anos (1980-2014). Concluíram que a razão h/t pode complementar a avaliação de um autor quando são analisados pesquisadores com diferentes tempos de publicação em uma determinada revista, visto que esse quociente elimina a influência do tempo, pois traz o índice h por ano, ou seja, o índice h médio. 2.3.2 Índice g Egghe (2006, p. 8) desenvolveu uma variação de h denominada índice g, definida por: “um conjunto de artigos tem índice g se g é o posto mais alto, de modo que os artigos principais têm juntos, pelo menos g2 citações”. A métrica g tem a propriedade índice g ≥ índice h, pois g considera em sua estrutura a quantidade de citações recebidas pelo grupo de artigos mais citados, ao passo que o índice h não as considera (EGGHE, 2010). Por essa característica, o autor considera o índice g superar uma das desvantagens de h. Silva e Grácio (2015b) exemplificaram o cálculo do índice h e g para o pesquisador Egghe. Para esse pesquisador, recuperaram-se 47 artigos na base Scopus e as respectivas quantidades de citações recebidas. Para o cálculo do índice g, é necessário que se tenham a frequência acumulada das citações (𝐶𝑖) e o número de cada artigo elevado ao quadrado (i2). O índice g é o posto (número do artigo) mais alto, de modo que os artigos principais têm, juntos, pelo menos g2 citações. A Tabela 4 apresenta estas informações. Neste exemplo (Tabela 4), Egghe apresenta índice h = 11 e índice g = 32, pois escreveu 32 artigos que têm, conjuntamente, pelo menos 1024 citações e índice h =11, confirmando a propriedade apresentada por Egghe (2010): índice g ≥ índice h. Uma das características desse indicador é atribuir maior peso ao número de citações recebidas pelo artigo. Todavia, também o índice g pode atribuir maiores valores para pesquisadores com maior tempo de dedicação à pesquisa. 45 Tabela 4 – Cálculo do índice h e g para o pesquisador Egghe Ano de publicação Índice h Índice g I ci 𝑪𝒊 i2 2006 1 524 524 1 2006 2 167 691 4 1992 3 48 739 9 2002 4 39 778 16 1996 5 31 809 25 2000 6 27 836 36 1993 7 23 859 49 2000 8 17 876 64 1988 9 14 890 81 2008 10 13 903 100 1986 11 12 915 121 2004 12 11 926 144 1995 13 11 937 169 2012 14 10 947 196 1991 15 10 957 225 2001 16 9 966 256 2010 17 8 974 289 2008 18 8 982 324 2002 19 8 990 361 1999 20 8 998 400 2002 21 7 1005 441 2010 22 6 1011 484 2013 23 5 1016 529 1999 24 5 1021 576 2009 25 4 1025 625 1998 26 4 1029 676 1997 27 4 1033 729 1987 28 4 1037 784 2007 29 3 1040 841 2005 30 3 1043 900 2013 31 2 1045 961 2011 32 2 1047 1024 2011 33 2 1049 1089 2011 34 2 1051 1156 2010 35 2 1053 1225 2009 36 2 1055 1296 2005 37 2 1057 1369 1999 38 2 1059 1444 2013 39 1 1060 1521 2013 40 1 1061 1600 2006 41 1 1062 1681 2014 42 0 1062 1764 2011 43 0 1062 1849 2010 44 0 1062 1936 2005 45 0 1062 2025 1994 46 0 1062 2116 1992 47 0 1062 2209 Fonte: adaptado de Silva e Grácio (2015b). Silva e Grácio (2015b) também propuseram relativizar o índice g pelo tempo de publicação no veículo de comunicação científica que disseminou sua publicação. Para o índice g, o indicador relativo g/t é definido por: dado o índice g do autor e o tempo t de publicação no veículo de comunicação, obtém-se a razão g/t, segundo a qual o pesquisador publicou, em média, g/t artigos por ano, os quais têm, juntos, pelo menos g2/t citações. 46 Desta forma, g/t determina as citações recebidas conjuntamente pelos artigos publicados, por ano. Egghe (2010) diz que o índice h não consegue distinguir, dentre os autores com mesmo índice, aqueles que têm artigos mais citados. Burrel (2007a) afirma que, para autores com elevado tempo de dedicação à pesquisa, os indicadores em questão são proporcionais. Shing e Kumar (2014) apontam que, na literatura, a métrica g vem ganhando popularidade e visibilidade na avaliação da produtividade científica. Esses autores desenvolveram uma análise comparativa do desempenho dos índices h e g, com investigadores da área de Física, na qual observaram que o valor de g é 1,5 vezes maior que o de h. Silva e Grácio (2015b) realizaram uma análise comparativa entre o índice h e o índice g, a fim de verificar seus desempenhos, propriedades e relações, como indicadores de impacto na comunidade científica, tomando como universo de aplicação os investigadores mais produtivos em “Estudos Métricos”, temática consignada à área de Ciência da Informação, e obtiveram que g é 1,76 vezes maior que o índice h. Além disso, concluíram que a razão g/h pode auxiliar e/ou complementar a avaliação de um autor, quando são analisados pesquisadores com diferentes tempos de publicação em um determinado periódico, visto que esse quociente elimina a influência do tempo. 2.3.3 Índice h(2) O indicador foi proposto por Kosmulski (2006) e é descrito como o maior número natural tal que seus h(2) trabalhos mais citados receberam cada um, pelo menos, [h(2)]2 citações. Segundo o autor, um índice h(2) de 20, por exemplo, significa que o pesquisador analisado publicou pelo menos 20 artigos, dos quais cada um foi citado pelo menos 400 vezes. Para os dados da Tabela 4, identifica-se que h(2) = 5 e [h(2)]2=25, o artigo da posição i = 5 é o maior número natural, que tem pelo menos 25 citações (no caso, este artigo tem 31 citações). Em outras palavras, o autor analisado tem 5 artigos, com pelo menos 25 citações cada. É notável que esse indicador beneficia aqueles artigos altamente citados, ou seja, aqueles artigos expoentes do autor. Além disso, esse índice tem a seguinte propriedade matemática: valor h(2) ≤ h. Jin et al. (2007) ressaltam que a principal vantagem do índice h(2) em relação ao índice h é que ele reduz o problema de precisão, uma vez que necessita de um conjunto de publicações 47 menor e, por isso, exige menos trabalho para verificar a precisão dos dados das publicações, especialmente no caso em que existam homógrafos. 2.3.4 Índice a Jin (2006) desenvolveu o índice a, o qual considera as citações acumuladas até a posição do índice h, ponderado pelo valor de h. í𝑛𝑑𝑖𝑐𝑒 𝑎 = 1 ℎ ∑ 𝑐𝑖 , ℎ 𝑖=1 (9) em que 𝑐𝑖= número de citações recebidas pelo artigo i, para 1  i  h. Para os dados presentes na Tabela 4, a soma das citações até h é 915 e h = 11. Logo, o índice a é dado por 915/11 = 83,18 citações/artigo. O índice a é interpretado como o impacto médio do núcleo Hirsch (h-core). Burrel (2007b) mostra que o índice a depende do tempo de dedicação à pesquisa do pesquisador. 2.3.5 Índice r Jin et al. (2007) observaram que o índice a penaliza os pesquisadores com maiores índices h, pois o cálculo de a envolve uma divisão por h. Dessa forma, em vez de dividirem por h, propuseram a utilização da raiz quadrada da soma de citações do núcleo Hirsch. Por remeter à raiz quadrada, designaram o novo indicador por índice r. Em termos formais, o índice r é obtido por: í𝑛𝑑𝑖𝑐𝑒 𝑟 = √∑ 𝑐𝑖 ℎ 𝑖=1 , (10) em que h = índice h, e ci = número de citações recebidas pelo artigo i, para 1  i  h. Assim como o índice a, o índice r mede a intensidade das citações do núcleo Hirsch, por isso, pode ser sensível a artigos altamente citados. Bornmann et al. (2008) ressaltam que o índice r é sensível à influência de alguns artigos expoentes do autor. Para os dados da Tabela 4, tem-se que a soma das citações é 915. Logo, o índice r = √915 = 30,25 citações1/2 (nota-se que a unidade de medida não tem uma interpretação real). 48 2.3.6 Índice ar Jin (2007) propôs o índice ar, que constitui uma adaptação do índice r, ao relativizar esse índice pela idade das publicações no núcleo Hirsch. Segundo o autor, o valor desse índice pode tanto aumentar como diminuir ao longo do tempo. Considerou esse fato como uma característica benéfica e necessária para um índice de avaliação de pesquisa, ao ser sensível às mudanças de desempenho do cientista. O índice ar é definido como a raiz quadrada da soma do número de citações por ano dos artigos incluídos no h-core. í𝑛𝑑𝑖𝑐𝑒 𝑎𝑟 = √∑ 𝑐𝑖 𝑎𝑖 ℎ 𝑖=1 , (11) em que ai = número de anos desde a publicação do artigo i, h = índice h e ci número de citações do artigo i, para 1  i  h. A Tabela 5 apresenta os elementos necessários para calcular o índice ar, conforme Egghe. Para este exemplo, o índice ar = √74,68 = 8,64 (𝑐𝑖𝑡𝑎çõ𝑒𝑠/𝑎𝑛𝑜)1/2. Assim como o índice a, a unidade de medida desse indicador não é facilmente interpretada. Tabela 5 – Cálculo do índice ar para o pesquisador Egghe Ano de publicação Número do artigo (i) Número de anos até 2017(ai) Ci Ci/ai 2006 1 11 524 47,64 2006 2 11 167 15,18 1992 3 25 48 1,92 2002 4 15 39 2,60 1996 5 21 31 1,48 2000 6 17 27 1,59 1993 7 24 23 0,96 2000 8 17 17 1,00 1988 9 29 14 0,48 2008 10 9 13 1,44 1986 11 31 12 0,39 Total 915 74,68 Fonte: elaborada pelo autor. 49 2.3.7 Índice h normalizado (hn) Em função do fato de o índice h ser uma métrica que depende do número de publicações do pesquisador, Sidiropoulos et al. (2007) propuseram uma versão para este indicador, denominado índice h normalizado, relativizando-o pelo número de publicações. Enunciam o índice h normalizado (hn) da seguinte maneira: um pesquisador tem índice normalizado hn = h/Np, se h de seus artigos Np receberam pelo menos h citações cada, e o restante (Np -h) artigos não receberam mais de h citações. Aplicando este indicador para os dados da Tabela 4, temos índice h = 11 e Np = 47. Logo, o índice ℎ𝑛 = 11 47⁄ = 0,23 𝑐𝑖𝑡𝑎çõ𝑒𝑠/𝑎𝑟𝑡𝑖𝑔𝑜. 2.3.8 Índice hw Egghe e Rousseau (2008) desenvolveram o índice hw (índice h ponderado pelo impacto da citação) que, assim como o índice ar, é sensível às mudanças de desempenho do pesquisador em sua vida científica. O índice hw é definido como: í𝑛𝑑𝑖𝑐𝑒 ℎ𝑤 = √∑ 𝑐𝑖 𝑟0 𝑖=1 (12) em que r0 = a maior posição (menor valor) de i tal que 𝑟𝑤(𝑖) = (𝐶𝑖 ÷ ℎ) ≤ 𝑐i, isto é, o total de citações até o artigo i (rotulado por Ci) dividido pelo índice h é menor que o número de citações do artigo i (rotulado por ci), para 1  i  h. A fim de exemplificar a obtenção do índice hw, a Tabela 6 apresenta o cálculo para os dados da Tabela 4, relativos ao pesquisador Egghe, em que h = 11, ci = nº de citações para o artigo i e Ci = total de citações acumuladas até o artigo de posição, para 1  i  11. Para este exemplo, r0 = 2, pois o artigo que ocupa a segunda posição (menor valor de i = 2) satisfaz a relação 𝑟𝑤(𝑖) ≤ 𝑐𝑖, pois rw(2) = 62,81 < 167. Logo, o índice hw para Egghe é: 50 í𝑛𝑑𝑖𝑐𝑒 ℎ𝑤 = √∑ 𝑐𝑗 2 𝑗=1 √524 + 167 = √691 = 26,29 𝑐𝑖𝑡𝑎çõ𝑒𝑠1/2. Tabela 6 – Cálculo do índice hw, utilizando os dados do autor Egghe Posição citações (ci) Ci rw = Ci/h 1 524 524 524/11 = 47,64 2 167 691 691/11 = 62,81 3 48 739 739/11 = 67,18 4 39 778 778/11 = 70,73 5 31 809 809/11 = 73,55 6 27 836 836/11 = 76,00 7 23 859 859/11 = 78,09 8 17 876 876/11 = 79,64 9 14 890 890/11 = 80,91 10 13 903 903/11 = 82,09 11 12 915 915/11 = 83,18 Fonte: elaborada pelo autor. Os autores ressaltaram que o índice hw é maior ou igual ao índice h. Para o exemplo da Tabela 6, Egghe tem hw = 26,29 > h = 11. Além disso, verifica-se que a unidade de medida desse indicador, assim como os índices a e ar, não é interpretável. 2.3.9 Índice m Bornmann et al. (2008) definem o índice m como o número mediano de citações recebidas por artigos do núcleo Hirsch. A opção pela mediana é baseada no fato de que, geralmente, a distribuição das citações é assimétrica, portanto, a medida de tendência central mais indicada é a mediana. Considerando os dados da Tabela 4, a mediana dá-se para o artigo da posição i = 6, o qual tem 27 citações. Logo, m = 27 citações. Segundo Bornmann et al. (2008), pode-se dividir os índices do tipo h de Hirsch em dois grupos. O primeiro é composto por: índice h, quociente m, índice g e índice h(2), que descrevem o núcleo da produtividade de um cientista. Os índices índice a, índice m, índice r, índice ar e o índice hw retratam o impacto dos artigos do núcleo. 51 2.3.10 Índice v Riikonen e Vihinen (2008) definiram o índice v como a porcentagem de artigos que formam o índice h. Destacam que um único indicador não consegue avaliar todos os aspectos de um pesquisador. Por isso, sugerem que os analistas utilizem o índice h e v para verificar o reconhecimento dos cientistas e a amplitude de sua produtividade. Os autores apontam que o índice h cresce muito lentamente com um aumento no número de publicações, todavia o índice v consegue identificar variações na proporção de artigos altamente citados para pesquisadores com valores semelhantes de índice h. Para os dados da Figura 2, relativa aos quatro autores fictícios com mesmo valor para o índice h, mas com comportamento distinto tanto na distribuição de citação e como na quantidade de publicações científicas, os autores A e B com 30 artigos publicados, cada um, e índice h = 10, logo o índice v destes dois autores é 0,33, obtido a partir da razão h/Np = 10/30, o que significa que o índice h é composto por 33% das publicações destes pesquisadores. O autor C tem 15 artigos e h = 10, então v = 10/15 = 0,67, ou seja, o índice h do autor C é composto por 67% de sua publicação e, por fim, D utiliza 100% de sua produção para compor seu índice h. 2.3.11 Índice π Vinkler (2009) propôs o índice π a fim de poder avaliar, de forma comparativa, pesquisadores de temáticas semelhantes, dando ênfase aos artigos mais influentes (maiores quantidades de citação). Para P o número de artigos publicados por um pesquisador e denotando-se por Pπ o número de artigos no conjunto daqueles altamente citados, em que Pπ = √𝑃, o índice π é igual a um centésimo do número total de citações do conjunto Pπ dos artigos mais citados, denominado por C(Pπ).