José Victor de Souza Uma proposta de glossário bilíngue inglês-português de pesticidas organofosforados por meio da Linguística de Corpus: foco no trato da variação denominativa São José do Rio Preto 2023 Câmpus de São José do Rio Preto José Victor de Souza Uma proposta de glossário bilíngue inglês-português de pesticidas organofosforados por meio da Linguística de Corpus: foco no trato da variação denominativa Dissertação apresentada como parte dos requisitos para obtenção do título de Mestre em Estudos Linguísticos, junto ao Programa de Pós- Graduação em Estudos Linguísticos, do Instituto de Biociências, Letras e Ciências Exatas da Universidade Estadual Paulista “Júlio de Mesquita Filho”, Câmpus de São José do Rio Preto. Financiadora: FAPESP – Processo 2021/08830-9 CNPq – Processo 130524/2021-2 Orientadora: Profª. Drª. Paula Tavares Pinto Coorientadora: Profª. Drª. Marcela Marques de Freitas Lima São José do Rio Preto 2023 José Victor de Souza Uma proposta de glossário bilíngue inglês-português de pesticidas organofosforados por meio da Linguística de Corpus: foco no trato da variação denominativa Dissertação apresentada como parte dos requisitos para obtenção do título de Mestre em Estudos Linguísticos, junto ao Programa de Pós- Graduação em Estudos Linguísticos, do Instituto de Biociências, Letras e Ciências Exatas da Universidade Estadual Paulista “Júlio de Mesquita Filho”, Câmpus de São José do Rio Preto. Financiadora: FAPESP – Processo 2021/08830-9 CNPq – Processo 130524/2021-2 Orientadora: Profª. Drª. Paula Tavares Pinto Coorientadora: Profª. Drª. Marcela Marques de Freitas Lima Comissão Examinadora Profª. Drª. Paula Tavares Pinto UNESP – Câmpus de São José do Rio Preto Orientadora Profª. Drª. Maria José B. Finatto Universidade Federal do Rio Grande do Sul Prof. Dr. Tony Berber Sardinha Pontifícia Universidade Católica de São Paulo São José do Rio Preto 3 de maio de 2023 A quem possa interessar. AGRADECIMENTOS À minha mãe, Carla das Graças, que me ensinou muito sobre resiliência. A todos meus familiares e amigos, que me ajudaram a chegar até aqui, e ao meu namorado, Fabrício Akira, por ser a melhor companhia. Às minhas orientadoras e mães acadêmicas, professoras doutoras Paula Tavares Pinto e Marcela Marques de Freitas Lima. Na verdade, a todas as professoras e professores, em especial da Unesp, que fizeram parte da minha formação. Espero deixá-los orgulhosos. Às minhas amigas do laboratório LETraQuim, sem as quais esse trabalho não aconteceria. São elas as professoras doutoras Talita Serpa e Francine Silveira, e a graduanda Maria Camila. Às minhas amigas e amigos do grupo de estudos en-Corpora, em especial as professoras mestras Carolina Tavares e Jeane Cardoso, com quem aprendi e dividi bons momentos. Ao nosso time suíço, da Universidade de St. Gallen, coordenado pelo professor doutor Siegfried Handschuh, tendo como membros a doutora Christina Niklaus e o doutor Reto Gubelmann. Muito obrigado por nos receberem de braços abertos. Meus agradecimentos ao professor doutor Odair Nadin da Silva pelas sugestões e debate do meu painel durante o Seminário de Estudos Linguísticos (SELIN). Agradeço aos membros da banca, os professores doutores Maria José Finatto, que também contribuiu para o debate no SELIN, e Tony Berber Sardinha pela inestimável contribuição de ambos e aos membros suplentes, professores doutores Eduardo Batista e Talita Serpa, pelo aceite ao convite. Às servidoras e servidores do Ibilce, em especial a Luciane da Biblioteca, que nos ajudou com prontidão a ter acesso às normas da ISO. Agradeço também aos professores doutores Marcos Lopes e Marcello Modesto, da USP, por terem me apresentado ao mundo da programação com muita paciência e didática. Agradeço à representante do CAS no Brasil, Denise Ferreira, por construir a ponte entre nosso grupo e a Sociedade Americana de Química. Agradeço ao CNPq pelo financiamento nas fases iniciais do projeto, sob o processo nº 130524/2021-2. Agradeço à FAPESP pela concessão da bolsa de pesquisa, sob o processo nº 2021/08830-9, Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP). E agradeço a você que está lendo essa dissertação. Espero que goste. “Diga-me com quem andas e eu te direi quem és.” Ditado popular. “Birds of a feather flock together.” Ditado popular. “You shall know a word by the company it keeps!” Firth (1957, p. 11) RESUMO O presente estudo parte da importância dos Objetivos de Desenvolvimento Sustentável (ODS) da ONU, que tratam de questões como pobreza, desigualdade, mudanças climáticas, degradação ambiental, paz e justiça. No contexto brasileiro, destaca-se a necessidade de se estudar a Química de Pesticidas, dada a importância da agricultura no país e o fato de que o Brasil é um dos maiores consumidores de agrotóxicos no mundo. Dessa maneira, realizamos uma descrição linguística a partir de corpora da variação denominativa de nomes comuns de agrotóxicos em inglês e em português brasileiro, com ênfase nos pesticidas organofosforados, que têm sido associados a problemas de saúde pública. Concluímos que, em português, o número de variantes é proporcionalmente maior devido à falta de instituições normalizadoras na língua. Além disso, mostramos como nomes comuns apresentam desafios específicos para a tradução, o que faz com que pesquisadores muitas vezes mobilizem seu conhecimento do sistema de nomenclatura para propor traduções, que podem ser atravessadas por crenças sobre o funcionamento da língua. Destacamos o trabalho transdisciplinar para uma compreensão mais profunda do objeto de estudo e ressaltamos a importância do fator humano no uso de ferramentas de Processamento de Linguagem Natural. Por fim, apresentamos o glossário elaborado com objetivo de auxiliar estudantes de Química e tradutores especializados na produção de textos. Palavras–chave: Linguística de Corpus. Terminologia. Tradução. Variação denominativa. Agrotóxicos organofosforados. ABSTRACT The present study is based on the importance of the United Nations Sustainable Development Goals (SDGs), which address issues such as poverty, inequality, climate change, environmental degradation, peace, and justice. In Brazil, the study of pesticide chemistry stands out due to the importance of agriculture and the fact that the country is one of the largest pesticide consumers in the world. Therefore, we conducted a corpus-based analysis of the denominative variation of pesticide names in English and Brazilian Portuguese, with emphasis on organophosphate pesticides, which have been associated with public health problems. We concluded that, in Portuguese, the number of variants is proportionally higher due to the lack of standardization. Additionally, we showed how common names pose specific challenges for translation, causing Chemistry researchers to mobilize their knowledge of the nomenclature system to propose translations that may be influenced by their beliefs about the functioning of language. We highlighted the importance of transdisciplinary work for a deeper understanding of the object and emphasized the significance of the human factor in the use of Natural Language Processing tools. Finally, we presented a glossary designed to assist Chemistry students and specialized translators in their text productions. Keywords: Corpus Linguistics. Terminology. Translation. Denominative variation. Organophosphate pesticides. LISTA DE ILUSTRAÇÕES EQUAÇÃO 1 — FÓRMULA DO MÉTODO SIMPLE MATHS RESUMIDA 58 EQUAÇÃO 2 — FÓRMULA PARA A FREQUÊNCIA RELATIVA POR MILHÃO 58 FIGURA 1 — FÓRMULA ESTRUTURAL DO CO2 23 FIGURA 2 — FÓRMULA ESTRUTURAL DO MALATION 23 FIGURA 3 — PLN COMO SUBÁREA DA IA E SUAS RELAÇÕES COM AM E AP 31 FIGURA 4 — ESQUEMATIZAÇÃO DE UMA REDE NEURAL COM VÁRIAS CAMADAS INTERMEDIÁRIAS 32 FIGURA 5 — FREQUÊNCIA DE “AGROTÓXICO” E OUTROS ITENS 38 FIGURA 6 — CONSTRUCTO TEÓRICO PARA A VARIAÇÃO NA TERMINOLOGIA 39 FIGURA 7 — COMPILAÇÃO DE CORPUS A PARTIR DE TEXTOS DA WEB NO SE 50 FIGURA 8 — PARTE DAS OBRAS QUE COMPÕEM OS CORPORA DISPOSTAS NO ZOTERO 53 FIGURA 9 — EXEMPLO DE CONCORDANCIADOR NO SE 55 FIGURA 10 — LINHA DE CONCORDÂNCIA COM VISUALIZAÇÃO DO LEMPOS DE CADA ITEM 56 FIGURA 11 — LINHA DE CONCORDÂNCIA RESULTANTE DE UMA TABELA 57 FIGURA 12 — KEYWORDS: INTERFACE AVANÇADA DO USUÁRIO COM VALORES PADRÕES 59 FIGURA 13 — RESUMO DOS PASSOS METODOLÓGICOS PRINCIPAIS 64 FIGURA 14 — FICHA TERMINOLÓGICA COM VARIANTES DENOMINATIVAS DE UM MESMO CONCEITO 68 FIGURA 15 — SUBFORMULÁRIO EM INGLÊS 69 FIGURA 16 — EDITOR DE VERBETE NO LEXIQUE PRO COM ETIQUETAS EM EVIDÊNCIAS À ESQUERDA 72 FIGURA 17 — ESTRUTURAS DE ÉSTERES ORGANOFOSFORADOS 85 FIGURA 18 — FÓRMULA ESTRUTURAL DO GLIFOSATO 91 FIGURA 19 — FUNÇÃO CETONA 97 FIGURA 20 — FUNÇÃO TIOCETONA OU TIONA 97 FIGURA 21 — FÓRMULA ESTRUTURAL DO PARATHION-METHYL 101 FIGURA 22 — FÓRMULA ESTRUTURAL DO PARATHION 102 FIGURA 23 — TIPOS DE VARIANTES DE NOMES COMUNS EM INGLÊS 135 FIGURA 24 — TIPOS DE VARIANTES DE NOMES COMUNS EM PORTUGUÊS 136 FIGURA 25 — PROCESSO DE DOMESTICAÇÃO DA PRONÚNCIA E DA GRAFIA DO ITEM "PARATHION" 137 FIGURA 26 — RAZÕES PARA A VARIAÇÃO EM RELAÇÃO À CONCORRÊNCIA OU COOCORRÊNCIA 139 FIGURA 27 — ANÁLISE DOS MOTIVOS PARA A VARIAÇÃO NO CORPUS EM INGLÊS 140 FIGURA 28 — ANÁLISE DOS MOTIVOS PARA VARIAÇÃO NO CORPUS EM PORTUGUÊS BRASILEIRO 141 GRÁFICO 1 — QUANTIDADE DE DOCUMENTOS POR ANO EM ORCHEUS-PTBR 48 GRÁFICO 2 — QUANTIDADE DE DOCUMENTOS POR ANO EM ORPHEUS-EN 52 QUADRO 1 — MALATHION E SEUS EQUIVALENTES EM PORTUGUÊS 14 QUADRO 2 — IUPAC COLOR BOOKS 22 QUADRO 3 — CLASSIFICAÇÃO DO TAMANHO DO CORPUS 28 QUADRO 4 — MODELO DE VERBETE PREENCHIDO 72 QUADRO 5 — ITENS COMPLEXOS REGISTRADOS EM INGLÊS 74 QUADRO 6 — ITENS NÃO ESCOLHIDOS COMO TERMOS-ENTRADAS APESAR DA ALTA FREQUÊNCIA 76 QUADRO 7 — HAPAX LEGOMENA NO CORPUS EM INGLÊS 78 QUADRO 8 — ITENS EXTERNOS AO CORPUS EM INGLÊS 79 QUADRO 9 — HAPAX LEGOMENA NO CORPUS EM PORTUGUÊS 82 QUADRO 10 — ASPECTOS SINTÁTICOS DE “ORGANOPHOSPHORUS”, “ORGANOPHOPHATE” E “ORGANOFOSFORADO” 84 QUADRO 11 — MAPA CONCEPTUAL 86 QUADRO 12 — SELEÇÃO DE CONTEXTOS DE USO DOS ITENS GLYPHOSATE E GLIFOSATO 90 QUADRO 13 — REGRAS PARA A TRADUÇÃO DE NOMES COMUNS DE AGROTÓXICOS 94 QUADRO 14 — ITENS COMPOSTOS PELO FORMANTE -THION 95 QUADRO 15 — ITENS TERMINADOS EM -ON, -TON E -OXON 98 QUADRO 16 — OS TERMOS GLYPHOSATE E DISULFOTON COM SEUS EQUIVALENTES E TRANSCRIÇÕES FONÉTICAS 100 QUADRO 17 — CASOS EM QUE OS FORMANTES METHYL E ETHYL APARECEM SEM O HÍFEN 102 QUADRO 18 — EXEMPLOS DE OCORRÊNCIAS DOS FORMANTES “METIL”, “METÍLICO”, “ETIL” E “ETÍLICO” 103 QUADRO 19 — RESUMO DA ANÁLISE TERMINOLÓGICA EM INGLÊS 140 QUADRO 20 — RESUMO DA ANÁLISE TERMINOLÓGICA EM PORTUGUÊS BRASILEIRO 142 LISTA DE TABELAS TABELA 1 — TIPOS TEXTUAIS EM ORCHEUS-PTBR 48 TABELA 2 —TIPOS TEXTUAIS EM ORPHEUS-EN 51 TABELA 3 — 20 PRIMEIROS RESULTADOS DO MÉTODO SIMPLE MATHS EM ORCHEUS-EN (N = 0,001) 60 TABELA 4 — 20 PRIMEIROS RESULTADOS DO MÉTODO SIMPLE MATHS EM ORCHEUS-EN (N = 100) 61 TABELA 5 — RECORTE DE RESULTADOS OBTIDOS PELO MODELO 66 TABELA 6 — PUBLICAÇÕES ESTADUNIDENSES QUE CORRESPONDEM A MAIS DE METADE DO CORPUS 76 LISTA DE ABREVIATURAS E SIGLAS AChE Acetilcolinesterase AM Aprendizado de máquina AP Aprendizado profundo BCPC British Compendium of Pesticide Common Names CAS Chemical Abstracts Service DOCF Frequência por documento EVOLVE Language as a tool for EnVirOnmentaLly sustainable actions in deVEloping countries: for the right to healthy food FA Frequência absoluta INCA Instituto Nacional do Câncer IA Inteligência artificial ISO Organização Internacional de Normalização IUPAC União Internacional de Química Pura e Aplicada LC Linguística de Corpus NIH National Institutes of Health ODS Objetivos de Desenvolvimento Sustentável ORCHEUS-ptbr Organophosphorus Chemistry Corpus of Academic Brazilian Portuguese ORPHEUS-en Organophosphorus and Phosphorus Chemistry Corpus of Academic English PIN Preferred IUPAC Name PLN Processamento de Linguagem Natural SBQ Sociedade Brasileira de Química SE Sketch Engine TCC Trabalho de conclusão de curso TCT Teoria Comunicativa da Terminologia TGT Teoria Geral da Terminologia LISTA DE SÍMBOLOS C carbono N nitrogênio O oxigênio P fósforo S enxofre SUMÁRIO 1 INTRODUÇÃO 13 2 FUNDAMENTAÇÃO TEÓRICA 18 2.1 AGROTÓXICOS E SUA NOMENCLATURA 19 2.1.1 Uma breve história dos organofosforados 19 2.1.2 Nomenclatura e catalogação de substâncias: IUPAC, ISO e CAS 21 2.2 LINGUÍSTICA DE CORPUS E PROCESSAMENTO DE LINGUAGEM NATURAL (PLN) 25 2.2.1 Linguística de Corpus: empirismo linguístico por meio do computador 25 2.2.2 Linguística Computacional ou Processamento de Linguagem Natural (PLN) 30 2.3 INTERFACE ENTRE TERMINOLOGIA E TRADUÇÃO 34 2.3.1 A importância do rigor terminológico na Química 35 2.3.2 Variação na Terminologia 36 2.3.3 Neologismo, empréstimo e decalque 41 2.3.4 Tradução e Terminologia (a partir de corpora) 42 2.4 DA PALAVRA-CHAVE AO TERMO 43 3 MATERIAIS E MÉTODOS 46 3.1 CRIAÇÃO DOS CORPORA 46 3.1.1 ORCHEUS-ptbr (Organophosphorus Chemistry Corpus of Academic Brazilian Portuguese) 46 3.1.2 ORPHEUS-en (Organophosphorus and Phosphorus Chemistry Corpus of Academic English) 49 3.1.3 Metadados 52 3.2 LEMATIZADOR, ETIQUETADOR DE CLASSE GRAMATICAL E CONCORDANCIADOR 54 3.3 PALAVRAS-CHAVE 57 3.4 SELEÇÃO DOS TERMOS 62 3.5 IDENTIFICAÇÃO DE EQUIVALENTES EM PORTUGUÊS POR MEIO DE APRENDIZADO PROFUNDO 64 3.6 REGISTRO DOS TERMOS 67 3.7 MACRO E MICROESTRUTURAS DO GLOSSÁRIO 71 4 RESULTADOS 73 4.1 LINGUÍSTICA DE CORPUS É CONTAR PALAVRAS? 73 4.1.1 Em inglês 73 4.1.1.1 Frequência absoluta e frequência por documentos no corpus em inglês 74 4.1.1.2 Hapax legomena e termos externos ao corpus em inglês 77 4.1.2 Em português 80 4.1.2.1 Frequência absoluta e frequência por documento no corpus em português brasileiro 81 4.1.2.2 Hapax legomena e termos externos ao corpus em português brasileiro 81 4.2 MAPA CONCEPTUAL A PARTIR DOS SIGNIFICANTES 83 4.2.1 Organophosphate ou organophosphorus compound? 83 4.2.2 Organofosforados e suas subcategorias 85 4.2.2.1 O glifosato é um organofosforado? 89 4.3 TRADUÇÃO MORFOLÓGICA OU MICROTRADUÇÃO 92 4.3.1 Revisão da norma em português brasileiro 93 4.3.1.1 Sobre nasalização 94 4.3.1.1.1 O formante thion 95 4.3.1.1.2 Outros formantes terminados em -n (-on, -ton e -oxon) 98 4.3.1.2 Sobre o dígrafo “ss” 99 4.3.1.3 Os formantes methyl e ethyl 101 4.3.1.4 O acento agudo 104 4.4 O GLOSSÁRIO 104 4.5 TIPOS DE VARIANTES E SUAS MOTIVAÇÕES 133 5 CONSIDERAÇÕES FINAIS 143 REFERÊNCIAS 146 APÊNDICE A – QUANTIDADE DE ITENS POR DOCUMENTO EM ORCHEUS-PTBR 154 APÊNDICE B – QUANTIDADE DE DOCUMENTOS POR PUBLICAÇÃO EM ORCHEUS-PTBR 155 APÊNDICE C – QUANTIDADE DE ITENS POR DOCUMENTO EM ORPHEU-EN 156 APÊNDICE D – QUANTIDADE DE DOCUMENTOS POR PUBLICAÇÃO EM ORPHEUS-EN 158 APÊNDICE E – REFERÊNCIAS BIBLIOGRÁFICAS DAS OBRAS QUE COMPÕEM ORPHEUS-EN 161 APÊNDICE F – REFERÊNCIAS BIBLIOGRÁFICAS DAS OBRAS QUE COMPÕEM ORCHEUS-PTBR 178 APÊNDICE G – EXEMPLO DE FICHA PREENCHIDA 185 APÊNDICE H – MAPA CONCEPTUAL (FRAGMENTADO A FIM DE CABER NAS PÁGINAS) 186 13 1 INTRODUÇÃO Os Objetivos de Desenvolvimento Sustentável (ODS) tratam-se de estratégias para um futuro sustentável que abordam “os desafios globais que nós enfrentamos, incluindo aqueles relacionados à pobreza, desigualdade, mudanças climáticas, degradação ambiental, paz e justiça"1 (ONU, 2022, tradução nossa). Como consequência, pesquisadores de todos os países têm direcionado seus estudos para encontrar soluções para as questões relacionadas à Agenda 2030 da ONU. Ao voltarmos nossa atenção às pautas relacionadas ao meio ambiente e saúde, é indispensável considerar o Brasil dentro delas, principalmente quando o assunto é preservação de florestas e agricultura, pois, alinhados aos ODS, acreditamos que o direito à alimentação saudável e segura bem como a preservação ambiental devem ser preocupações da atividade agrícola. Nesse sentido, nasceu o projeto EVOLVE2 3, parceria da Unesp com a Universidade de St. Gallen4 por meio da Leading House for the Latin American Region5, que visa a lidar com questões de tradução e terminológicas na Química de Pesticidas no Brasil por meio de soluções linguísticas e de Processamento de Linguagem Natural (PLN), tendo em vista como a linguagem pode influenciar a saúde e a segurança das comunidades e cidades brasileiras. É com intuito de integrar o projeto supracitado que introduzimos o presente estudo, focado em estudar a terminologia em inglês e em português brasileiro da Química de Pesticidas, que é de interesse nosso, pois o fato de o Brasil ser uma das maiores potências agrícolas do mundo (EMBRAPA, 2022) faz com que o país também seja um dos maiores consumidores de agrotóxicos. No Brasil, alguns dos agrotóxicos em uso corrente pertencem à família dos organofosforados. Suas aplicações vão desde a agropecuária até o controle de vetores de doenças, como o Aedes aegypti. Contudo, o país enfrenta problemas como a venda ilegal de pesticidas proibidos e, quando não, a liberação nacional de 1 the global challenges we face, including poverty, inequality, climate change, environmental degradation, peace and justice. 2 Language as a tool for EnVirOnmentaLly sustainable actions in deVEloping countries: for the right to healthy food (https://www.ibilce.unesp.br/#!/departamentos/letras-modernas/projetos/evolve/) 3 Parte do projeto da Profa. Dra. Paula Tavares Pinto, intitulado The United Nations Sustainable Development Goals (SDGs) in the Brazilian research: a corpus-based approach to support research- paper writing and translation (Processo: 307287/2021-1 / Chamada CNPq Nº 4/2021 - PQ2). 4 https://www.unisg.ch/ 5 https://cls.unisg.ch/de/forschung/leading-house https://www.ibilce.unesp.br/#!/departamentos/letras-modernas/projetos/evolve/ https://www.unisg.ch/ https://cls.unisg.ch/de/forschung/leading-house 14 substâncias já banidas em muitos países — como é o caso dos pesticidas organofosforados, interesse especial de nossa pesquisa. Além disso, de acordo com o Instituto Nacional do Câncer (INCA), o contato, inalação ou ingestão de agrotóxicos em geral pode afetar a saúde da população, o que deixa evidente que o uso dessas substâncias também são uma questão de saúde pública. Trazendo o foco para a linguagem, muitas pesquisas sobre os efeitos dos agrotóxicos são divulgadas por meio de artigos científicos publicados em revistas com avaliação por pares, teses, dissertações, relatórios, monografias e livros. Voltando nossa atenção aos estudos da linguagem científica em língua portuguesa no Brasil, em especial da Química, destaca-se o projeto TEXTQUIM6, do grupo Termisul da UFRGS, o qual foca-se no estudo da linguagem técnica de manuais de Química Geral e publicações em periódicos e revistas de popularização da ciência. No entanto, no caso específico dos organofosforados, um trabalho que organize as designações com seus equivalentes em português ainda é inédito, com exceção de um glossário preliminar produzido pelo nosso grupo de pesquisa, disponível no portal eduCAPES7. Além disso, estudos anteriores (PINTO; LIMA, 2018; SOUZA, 2019; ROCHA; LIMA; SERPA, 2020; SOUZA; PINTO; LIMA, 2022) mostram que as normas originalmente publicadas em inglês por instituições normalizadoras são interpretadas e traduzidas para o português de mais de uma maneira, o que resulta em notável variação denominativa — ou seja, mais de um nome para um mesmo conceito. No Quadro 1, para fins de ilustração, trazemos um exemplo em que uma designação de agrotóxico em inglês (malathion) tem três equivalentes em português brasileiro (“malation”, “malationa” e “malatiom”) e um equivalente em português europeu (“malatião”). Quadro 1 — Malathion e seus equivalentes em português Inglês Português brasileiro malathion malation malationa malatiom Português europeu malatião Fonte: adaptado de Souza, Pinto e Lima (2022) 6 http://www.ufrgs.br/textecc/textquim/ 7 http://educapes.capes.gov.br/handle/capes/601774 http://www.ufrgs.br/textecc/textquim/ http://educapes.capes.gov.br/handle/capes/601774 15 Apesar de inevitável, a variação muitas vezes leva à incompreensão ou má interpretação dos termos da área não só por estudantes de Química e pesquisadores, mas também pela sociedade em geral, que tem de alguma forma lidar com essas substâncias, como é o caso dos trabalhadores do campo. A variação denominativa torna-se um problema de saúde pública quando a imprecisão terminológica se transfere para os rótulos dos produtos, podendo levar a acidentes, e para as leis do país, levando à liberação indiscriminada de substâncias diferentes, mas associadas a uma mesma designação ou a venda de substâncias ilegais sob outras denominações. Desse modo, uma pesquisa que vise harmonizar a terminologia da área vem ao encontro da necessidade de fomentar pesquisadores e tradutores com recursos que aumentem a aceitabilidade e a naturalidade de suas escolhas tradutórias de acordo com padrões internacionais de nomenclatura. Numa pesquisa descritiva, como veremos na seção 2 FUNDAMENTAÇÃO TEÓRICA, entende-se que o ponto de partida é a real utilização dos termos em textos autênticos, ou seja, textos que circulam e cumprem funções dentro de práticas sociais — como a pesquisa acadêmica, no caso. A partir desses contextos autênticos, o terminólogo pode chegar a generalizações quanto ao(s) conceito(s) atrelado(s) a um termo bem como, a partir do uso, entender a variação denominativa. Atualmente, a pesquisa terminológica conta com o auxílio de ferramentas de Processamento de Linguagem Natural (PLN), isto é, programas de computador que analisam grandes quantidades de dados textuais e apontam para padrões linguísticos salientes. Por exemplo, é possível, por meio de cálculos estatísticos, apontar quais são as palavras-chave de um texto. Nesse contexto, palavras-chave são aqueles itens lexicais que definem o assunto de um documento e que podem ser usados para indexação. Para o trabalho terminológico, encontrar as palavras-chave de um texto, ou coleção de textos, é um dos caminhos para encontrarem-se os termos da área a qual pretende-se descrever — a ser visto na seção 3.4 Seleção dos termos. Como será discutido na seção 3 MATERIAIS E MÉTODOS, recorremos ao arcabouço teórico-metodológico da Linguística de Corpus (LC), que lança mão dos utilitários de PLN para conduzir análises linguísticas de grandes coleções de textos, que são chamadas de corpora (plural de corpus). Por meio de um corpus, o pesquisador pode chegar a generalizações de como a linguagem se organiza dentro do recorte linguístico escolhido. Em nosso caso, o recorte são textos acadêmicos que tratam de organofosforados. Parte da motivação 16 para que focássemos somente no registro acadêmico está no fato de os alunos de Química do nosso instituto relatarem dificuldade ao traduzir os nomes em suas teses e dissertações. Dessa maneira, veremos como a LC não é considerada somente como metodologia, mas como uma postura de pesquisa empírica que considera o material linguístico em seu habitat natural: o texto. No que tange à padronização da nomenclatura de substâncias químicas, Finatto (1996) afirma: [...] há o reconhecimento, por parte de autores e de associações profissionais, da necessidade da normatização de sua terminologia, sem que haja, contudo, perda da flexibilidade e da capacidade de representação sistemática. Fenômeno impulsionado principalmente pelas ambiguidades provocadas por denominações comerciais de novos ou antigos produtos. Uma normatização ou nomenclatura recomendada tornaria, no Brasil, menores as diferenças de designação, quer no âmbito do comércio, indústria, ou administração pública e privada de produtos químicos. (FINATTO, 1996, p. 66-67). Assim, haja vista a necessidade de padronização terminológica e as possibilidades abertas pelas ferramentas de PLN por meio da LC, o presente estudo visa descrever a variação denominativa na designação de agrotóxicos organofosforados em inglês e em português, tendo como objetivo específico a elaboração de um glossário especializado da área, levando em conta suas particularidades, as variantes encontradas bem como suas possíveis causas, considerando como usuários finais tradutores especializados e estudantes de Química. O presente texto está organizado da seguinte maneira. Primeiro, conduzimos um estudo que recorre aos conhecimentos da área de Química, como a história dos pesticidas organofosforados, sua classificação e nomenclatura. Em seguida, propusemos uma reflexão sobre a natureza do dado linguístico referente à área estudada e apontamos como a Linguística de Corpus pode ser usada como uma abordagem de descrição da língua de especialidade. Por fim, mostramos como essa abordagem pode ser usada a favor de estudos de Terminologia e Tradução. Em seguida, descrevemos nossa metodologia, partindo da criação e processamento dos corpora de estudo. Então, apresentamos as ferramentas utilizadas na pesquisa para a coleta e descrição dos termos. Além disso, mostramos 17 como esses termos foram registrados em fichas terminológicas que auxiliaram no estudo da variação denominativa da área e na criação de nosso glossário. Na seção que se segue, discorremos em detalhes sobre as bases teóricas de nossa pesquisa. Mostramos como essas frentes podem ser aliadas para compreensão de como os termos realizam-se em contextos de uso, auxiliando, assim, na descrição da terminologia de um domínio e na criação de produtos terminográficos que vão ao encontro da realidade terminológica da área. 18 2 FUNDAMENTAÇÃO TEÓRICA “Are these not just excuses to not connect? Our differences are irrelevant. To insist on absolute justice at all times, It blocks connection” Björk (2022) As pesquisas em Linguística Aplicada são frequentemente interdisciplinares. A Terminologia, dessa maneira, “pode ser definida como um prolongamento temático da linguística aplicada que se ocupa do fenômeno da designação nas línguas de especialidade” (FINATTO, 1996, p. 65). O conjunto dessas designações numa dada área, por sua vez, é chamado de terminologia, com letra minúscula. Como ressalta Krieger (2010), a terminologia é um objeto transdisciplinar, pois não há linguagem especializada e fazer científico sem ela. Além disso, os estudos terminológicos, historicamente, têm sido um ponto de conversão entre linguística computacional, ciência da informação, informática e linguística (SAGER, 1990; FINATTO, 1996). Por isso, dada a natureza da disciplina e de seu objeto, é comum a condução de pesquisas terminológicas com um time de especialistas multidisciplinar. Finatto e Kerschner (1999), por exemplo, destacam os benefícios do trabalho conjunto entre tradutor, terminólogo e especialista em Química: O especialista, na situação que experienciamos, contribui com a revisão terminológica do texto de chegada e, também, com a adequação do registro desse conhecimento, apontando a necessidade de atualização de termos em desuso. E, no caso da terminologia Química, o especialista, além de resgatar a adequação frente às determinações das entidades de padronização nacionais e internacionais, pode refletir sobre as condições dos textos que produz e utiliza. O terminólogo, por sua vez, exercendo o papel de dinamizador da descrição da terminologia envolvida, identifica pontos de reflexão teórico-metodológica necessários à prática tradutória e ao aprimoramento da sua própria pesquisa terminológica. Enquanto isso, o tradutor, na cooperação com os dois primeiros, tem acesso a um conhecimento que amplia suas condições de reconhecer a terminologia mais adequada para que o texto traduzido esteja em harmonia com padrões de linguagem e de conhecimento dos especialistas falantes da língua de chegada. (FINATTO; KERSCHNER, 1999, p. 281) Pelas razões apresentadas acima, em nossa pesquisa, recorremos aos conhecimentos da Química8, da Linguística de Corpus, da Linguística Computacional, 8 Contamos com a consultoria e coorientação da professora doutora Marcela Marques de Freitas Lima, da Unesp de São José do Rio Preto. 19 da Terminologia e da Tradução, tendo em nosso time profissionais de todas essas disciplinas. 2.1 Agrotóxicos e sua nomenclatura Nesta seção, apresentaremos alguns conceitos de Química necessários para a compreensão do nosso objeto de pesquisa. Para isso, primeiro apresentamos alguns pressupostos sobre a história dos organofosforados e, em seguida, discorremos sobre as lógicas de nomenclatura de substâncias de acordo com as instituições normalizadoras da língua inglesa. 2.1.1 Uma breve história dos organofosforados De acordo com Chambers e Levi (1992), a química dos organofosforados data desde o começo do século XIX, mas a alta toxicidade de alguns desses compostos foi percebida somente no começo do século XX. Essa descoberta levou Gerhard Schrader, químico alemão, a sintetizar, em 1937, duas armas químicas usadas durante a Segunda Guerra Mundial, tabun e sarin. Essas armas são chamadas de agentes neurotóxicos por agirem diretamente no sistema nervoso de animais, sendo especialmente tóxicas a mamíferos (humanos inclusos). Mais tarde, em 1944, Schrader sintetizaria o paration com o intuito de criar um organofosforado com ação inseticida. Em 1950, a American Cyanamid Company apresentaria o malation, inseticida com baixa toxicidade a mamíferos. Desde então, vários outros organofosforados foram sintetizados. Até hoje, essa família de substâncias tem sido amplamente usada no controle de pestes na atividade agropecuária bem como no desenvolvimento de novos medicamentos devido à sua interação com o sistema nervoso, em especial com a enzima acetilcolinesterase (AChE). Atualmente, a maioria dos agrotóxicos organofosforados em uso tem pelo menos um átomo de fósforo (P) em sua fórmula, ao qual se ligam diretamente quatro outros átomos (geralmente, três deles por ligação simples e um por ligação dupla). Em nossa pesquisa, encontramos pesticidas em que esses átomos podem ser de oxigênio (O), enxofre (S), nitrogênio (N) ou carbono (C). Como veremos na seção 4.2 Mapa conceptual a partir dos significantes, a identificação dos ligantes em volta do fósforo é essencial para a categorização dessas substâncias. 20 No Brasil, alguns dos agrotóxicos em uso corrente pertencem à família dos organofosforados. Suas aplicações vão desde a agricultura e pecuária até o controle de vetores de doenças, como o mosquito da dengue, ou Aedes aegypti. No entanto, segundo Carneiro et al. (2015), o país enfrenta problemas como a venda ilegal de pesticidas proibidos e, quando não, a liberação nacional de substâncias já banidas em muitos países — como é o caso dos pesticidas organofosforados, interesse especial de nossa pesquisa. De acordo com o Instituto Nacional de Câncer (INCA), o contato, inalação ou ingestão de agrotóxicos em geral pode afetar a saúde da população, em especial pessoas de grupos de risco (como gestantes, crianças e adolescentes) e trabalhadores rurais e da indústria química. Os efeitos dessa intoxicação podem ser agudos, ou seja, de aparecimento rápido, como irritação e náuseas, ou crônicos, isto é, que surgem após repetidas exposições a agrotóxicos, como problemas respiratórios, depressão e câncer (INSTITUTO NACIONAL DE CÂNCER, 2019). Considerando esses malefícios, fica evidente que o mau uso de agrotóxicos é um problema de saúde pública. Dessa maneira, surgem, em âmbito nacional, pesquisas acadêmicas sobre os efeitos dessas substâncias em pessoas (LEME et al., 2014; TEIXEIRA; AUGUSTO; MORATA, 2003) e animais (GRECCO et al., 2009; LOPES, et al., 2014), sobre seus impactos ambientais (SILVA et al., 2020; TORRES et al., 2017), e sobre sua destoxificação (LIMA et al., 2019), processo pelo qual os agrotóxicos tornam-se menos nocivos à saúde. É essa produção científica a que recorremos em nossa pesquisa a fim de descrever os agrotóxicos organofosforados sobre os quais a comunidade da área tem tratado nos últimos anos. Nesse meio de comunicação entre especialistas, um acontecimento comum é a criação de neologismos, em especial substantivos, sempre que conceitos novos são percebidos e delimitados. Na Química, em particular, um conceito novo muitas vezes significa uma substância nova. A essas palavras que designam conceitos específicos de uma área de especialidade, damos o nome de termos. Após essa avaliação da importância dos agrotóxicos organofosforados para a saúde e economia mundial, veremos agora um pouco sobre as instituições que regulam a criação de termos na Química. 21 2.1.2 Nomenclatura e catalogação de substâncias: IUPAC, ISO e CAS Historicamente, a criação dos nomes de substâncias segue normativas de instituições como a União Internacional de Química Pura e Aplicada (IUPAC)9 e a Organização Internacional de Normalização (ISO)10. Outras instituições, como o Chemical Abstracts Service (CAS)11, cuidam de catalogar as substâncias que surgem diariamente. A IUPAC define-se como uma união que “foi formada em 1919 por químicos da indústria e da academia, que reconheceram a necessidade de uma padronização internacional na química”12 (IUPAC, 2022a, tradução nossa). Parte das políticas de padronização foi a escolha da língua inglesa como a língua universal da Química. De acordo com a visão da união, “a padronização de pesos, medidas, nomes e símbolos é essencial para o bem-estar e contínuo sucesso do empreendimento científico e para o bom desenvolvimento e crescimento do comércio internacional”13 (IUPAC, 2022a, tradução nossa). Dessa maneira, todos os países signatários desse acordo (Brasil incluso) comprometem-se a seguir as recomendações de nomenclatura sistematizada da IUPAC. É de conhecimento comum na comunidade científica da Química a série de livros publicada pela IUPAC chamada de “IUPAC Color Books”, que é apresentada como “a fonte oficial mundial para nomenclaturas, terminologia e símbolos químicos”14 (IUPAC, 2022b, tradução nossa). A série consiste em livros organizados pelas cores de suas capas. Como pode ser visto, no Quadro 2, cada cor é atrelada a um determinado domínio. Com exceção do Green Book, todos os outros volumes tratam de nomenclaturas. O primeiro livro da lista, no entanto, é o mais traduzido para outros idiomas (como russo, húngaro, japonês, alemão, romeno, espanhol, catalão e português brasileiro). 9 https://iupac.org/ 10 https://www.iso.org/ 11 https://www.cas.org/ 12 [...] was formed in 1919 by chemists from industry and academia, who recognized the need for international standardization in chemistry. 13 the standardization of weights, measures, names and symbols is essential to the well-being and continued success of the scientific enterprise and to the smooth development and growth of international trade and commerce. 14 the world’s authoritative resource for chemical nomenclature, terminology, and symbols. https://iupac.org/ https://www.iso.org/ https://www.cas.org/ 22 Quadro 2 — IUPAC Color Books Green Book Quantities, Units and Symbols in Physical Chemistry Red Book Nomenclature of Inorganic Chemistry Blue Book Nomenclature of Organic Chemistry Purple Book Compendium of Polymer Terminology and Nomenclature Orange Book Analytical Nomenclature Silver Book Compendium of Terminology and Nomenclature of Properties in Clinical Laboratory Sciences White Book Biochemical Nomenclature Gold Book Chemical Terminology Fonte: IUPAC, 2022b Um dos feitos mais conhecidos e causa fundadora da IUPAC é a criação de uma nomenclatura sistemática. Nos capítulos iniciais do Red Book, que trata da nomenclatura de substâncias inorgânicas, reconhece-se a importância de um sistema único de nomenclatura, sob a justificativa de que “a proliferação excessiva de alternativas pode dificultar a comunicação e até impedir o comércio e processos legislativos”15 (IUPAC, 2005, tradução nossa). Em consonância com essa afirmação, ao início do Blue Book, volume focado na nomenclatura de substâncias orgânicas, ou seja, à base de carbono (C), apresenta-se o conceito de “Preferred IUPAC Name” (PIN)16, que se refere aos nomes criados dentro do sistema de nomenclaturas proposto pela união. Esses nomes são chamados de “preferenciais”, pois o guia não exclui a possibilidade de nomes alternativos, os quais são denominados general IUPAC names (IUPAC, 2014). O Blue Book é de importância especial para nossa pesquisa, pois as substâncias organofosforadas (como o nome pode apontar) são substâncias orgânicas que contêm fósforo (P). Para o momento, interessa-nos saber que o sistema de nomenclatura criado pela IUPAC funciona de maneira que qualquer substância já (ou que venha a ser) identificada ou sintetizada pela comunidade científica receba um único nome com pretensão de univocidade. Para fins de ilustração, tomemos um exemplo de substância popular e vejamos o seu nome IUPAC. 15 the excessive proliferation of alternatives can hamper communication and even impede trade and legislation procedures. 16 Em nosso estudo, usaremos a designação “nome IUPAC” a fim de simplificação. 23 O “gás carbônico” (CO2), substância que se popularizou devido às discussões sobre aquecimento global e efeito estufa, é um nome popular para o nome IUPAC “carbon dioxide”, como propõe o Red Book (IUPAC, 2005), cuja fórmula estrutural consta na Figura 1 e cuja tradução em português é comumente aceita como “dióxido de carbono”. A importância de observarmos a fórmula estrutural da substância está no fato de que o nome IUPAC é motivado pela composição de sua estrutura molecular. De tal maneira que “de carbono” é motivado pela presença do átomo homônimo (C) ligado a dois átomos de oxigênio (O2), motivando, portanto, “dióxido”. No entanto, o gás carbônico é uma substância inorgânica, cuja nomenclatura é relativamente menos extensa quando comparada a substâncias orgânicas. À guisa de comparação, vejamos um agrotóxico organofosforado como o malation, cuja fórmula estrutural pode ser vista na Figura 2. O seu nome IUPAC é o que se segue: rac-diethyl (2R)-2-[(dimethoxyphosphorothioyl)sulfanyl]butanedioate. Não nos atreveremos a tentar explicar quais partes da molécula motivam cada parte do nome, mas podemos inferir que a morfologia dos nomes IUPAC é recursiva e permite que nomes potencialmente não ambíguos sejam organizados sistematicamente de modo que programas de computador já podem designar o nome IUPAC apenas a partir da estrutura molecular. Figura 1 — Fórmula estrutural do CO2 Fonte: o autor Figura 2 — Fórmula estrutural do malation Fonte: o autor Além disso, a numeração utilizada nos nomes remonta a iconicidade como motivação, uma vez que os números são utilizados para marcar em que posição da 24 cadeia carbônica principal o radical em questão está ligado. Linguisticamente, portanto, o sistema da IUPAC estaria preparado para nomear qualquer substância que existe ou venha a existir. Vale ressaltar que a tradução dos IUPAC Color Books para o português brasileiro fica por conta de algumas iniciativas. Como a versão em português do Green Book, publicada pela Sociedade Brasileira de Química (SBQ)17. No entanto, conteúdo oficial ainda é escasso em português brasileiro. No caso dos compostos organofosforados, o caso de escassez é ainda maior, pois, por serem substâncias sintéticas relativamente novas, não constam recomendações no Blue Book para todos os grupos orgânicos que envolvem fósforo presentes na literatura da área até agora. A aparente complexidade e pouca praticidade de comunicação do nome IUPAC faz necessária a criação de “nomes comuns”, termo utilizado para referir-se a um “nome livre para uso geral na identificação de uma substância química sem que seja necessário recorrer ao seu nome científico” (ABAKERLI et al., 2003, p. 30), sendo esse nome “curto, único e não-ambíguo, de fácil pronúncia e grafia, visando facilitar a comunicação e sua utilização conveniente nas esferas científica, comercial e governamental.” (ABAKERLI et al., 2003, p. 30). Dessa maneira, em vez de usar o nome IUPAC que vimos acima para designar o agrotóxico em questão, o nome comum malation é preferencialmente usado pelos motivos supracitados. Uma semelhança entre o nome IUPAC e o nome comum é a motivação de seus formantes encontrada na estrutura da molécula. No entanto, enquanto o nome IUPAC é totalmente motivado pela estrutura, o nome comum é parcialmente motivado, deixando certo espaço para a criatividade dos proponentes do nome. As diretrizes para a atribuição de nomes comuns a agrotóxicos são reguladas pela International Standards Organization (ISO) por meio das normas 257 (ISO, 2018) e 1750 (ISO, 1981). As instituições que pretendem oficializar um nome comum de agrotóxico devem mandar uma proposta em forma de processo que deve ser avaliada pelo comitê responsável. Sendo assim, esses nomes não podem ser patenteados e, portanto, não poderiam tornar-se marcas registradas. No entanto, como observam Abakerli et al. (2003), no Brasil é comum que o nome da marca de um produto e nome de seu ingrediente coincidam, o que, de acordo com as autoras, deve ser evitado. 17 http://www.sbq.org.br/noticia/livro-verde-da-iupac-est%C3%A1-dispon%C3%ADvel-em- portugu%C3%AAs http://www.sbq.org.br/noticia/livro-verde-da-iupac-est%C3%A1-dispon%C3%ADvel-em-portugu%C3%AAs http://www.sbq.org.br/noticia/livro-verde-da-iupac-est%C3%A1-dispon%C3%ADvel-em-portugu%C3%AAs 25 Assim como no caso dos livros da série da IUPAC, as normas da ISO são publicadas em inglês (com adição do francês), e a tradução para o português brasileiro fica por conta da iniciativa dos próprios cientistas, como as pesquisadoras supracitadas. Por fim, o CAS, divisão da Sociedade Americana de Química, responsabiliza- se por fazer a curadoria e catalogação de todas as substâncias que são diariamente identificadas e designadas. Dessa maneira, cada substância recebe um número que permite que ela seja identificada independente da variedade de nomes disponíveis. O malation, nosso exemplo, tem os seguintes dígitos como número CAS: 121-75-5. Portanto, de maneira simplificada em uma alegoria, poderíamos dizer que se uma substância química tivesse um documento de identificação como uma pessoa, o nome IUPAC seria seu nome de registro, o número CAS seria seu CPF e, enfim, o nome comum seria algo como um nome artístico ou social. Todas as três informações são regulamentadas para cumprir com os fins de padronização internacional. Uma vez apresentadas as bases teóricas da Química, na seção a seguir, mostramos os fundamentos para a análise linguística dos termos da área, enfatizando o papel da Linguística de Corpus no processamento e interpretação de dados. 2.2 Linguística de Corpus e Processamento de Linguagem Natural (PLN) Nesta seção, justificamos a escolha da Linguística de Corpus como a abordagem teórico-metodológica principal de nosso estudo. Além disso, mostramos como a Linguística Computacional pode ser uma aliada no desenvolvimento de ferramentas que ajudam linguistas a produzir análises cada vez mais refinadas, podendo extrair significado linguístico de resultados estatísticos. 2.2.1 Linguística de Corpus: empirismo linguístico por meio do computador Conforme Berber Sardinha (2004), a palavra “corpus” significa “corpo” e é usada para referir-se a coleções de documentos. Como o autor aponta, embora dentro da Linguística de Corpus (LC) o termo seja usado para descrever coleções eletrônicas, a noção de coleção de textos antecede o surgimento do computador, como o Corpus Helenístico na Grécia Antiga e os corpora de trechos da Bíblia compilados na Antiguidade e na Idade Média. 26 Berber Sardinha (2004) destaca o Brown Corpus (Brown University Standard Corpus of Present-day American English), lançado em 1964, como pioneiro, sendo uma referência para a concepção atual de corpus eletrônico. Dentre outros marcos da história da LC, o autor também salienta o trabalho desenvolvido por Douglas Biber (1988), que traz a atenção para a variação linguística em diferentes gêneros da língua inglesa por meio da investigação de padrões linguístico-textuais organizados em forma de corpora. A publicação da Longman Grammar of Spoken and Written English (BIBER et al., 1999) consolidaria, então, as abordagens baseadas em corpus na construção de trabalhos gramaticais descritivos. De maneira resumida, por corpus tomamos a seguinte definição: Um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise. (SANCHEZ, 1995, p. 8-9 apud BERBER SARDINHA, 2000, p. 338). Nos parágrafos que se seguem, destrinchamos alguns pontos principais da criação e caracterização de um corpus. A formação de um corpus, como explana Berber Sardinha (2004), deve contemplar quatro pré-requisitos: (i) a origem dos textos deve ser autêntica, ou seja, eles devem ser produzidos em linguagem natural e sem o propósito de serem objeto de pesquisa linguística; (ii) a autenticidade dos texto está no fato de serem produzidos por falantes da língua, sendo necessário um apontamento quando os textos forem produzidos por aprendizes; (iii) os documentos devem ser cuidadosamente escolhidos, pois, enquanto os textos devem ser naturais e autênticos, o recorte feito por quem compila o corpus é artificial e deve ser feito de maneira a atender às necessidades da pesquisa; e (iv) o corpus deve ser representativo da variedade linguística em foco. Sobre esse último item, Berber Sardinha (2004) apresenta a dificuldade em definir-se a representatividade de um corpus, apontando que um corpus de linguagem geral tenta representar uma população (a língua como um todo) cuja extensão não se conhece. Dessa maneira, as generalizações feitas a partir dessa amostra da população devem ser feitas de maneira cautelosa, reconhecendo-se os limites do corpus. 27 Ademais, Berber Sardinha (2004) apresenta uma tipologia de corpus agrupada em sete tipos: modo, tempo, seleção, conteúdo, autoria, disposição interna e finalidade. O modo diz respeito à distinção entre corpus falado (geralmente composto por transcrições de falas) e corpus escrito (cujos textos podem ser impressos ou não). O segundo tipo, tempo, é subdividido em quatro categorias: sincrônico (um recorte temporal), diacrônico (vários recortes temporais), contemporâneo (representativo do tempo corrente) e histórico (representativo de um período passado). O terceiro grupo, seleção, divide-se em cinco características: de amostragem (feito para ser uma amostra finita da linguagem), monitor (cuja composição é periodicamente atualizada a fim de representar o estado atual da língua), dinâmico ou orgânico (em que é permitida a adição e remoção de textos, como no corpus monitor), estático (em que não é permitida a alteração da composição, como no corpus de amostragem) e equilibrado (em que o número de tipos textuais é igualmente distribuído). No que diz respeito ao conteúdo, o próximo grupo, o corpus pode ser classificado como especializado (com gêneros e registros específicos), regional ou dialetal (quando os textos cobrem um tipo ou mais de variedade sociolinguística) e multilíngue (que inclui vários idiomas). O quinto grupo de classificações é o da autoria, por meio do qual se sinaliza se os autores dos textos são falantes nativos ou aprendizes. O penúltimo tipo trata da disposição interna do corpus, ou seja, se ele é paralelo (textos comparáveis como original e tradução) e alinhado (em que as linhas do original estão seguidas das linhas traduzidas). Por fim, indica-se a finalidade do corpus, que pode ser de estudo (que se almeja descrever), de referência (para fins de contraste) e de treinamento ou teste (para o desenvolvimento de métodos e ferramentas). Trazendo essa tipologia para o contexto de nossa pesquisa, poderíamos afirmar que nossos corpora, cujo processo de criação será visto na seção de metodologia, são de língua escrita, sincrônicos, de amostragem (estático), com conteúdo especializado cuja autoria é de falantes nativos no caso do corpus em português e no caso do corpus em inglês assume-se proficiência na língua (nativa ou não) por consistir em publicações científicas. Esses corpora, apesar de comparáveis, não seriam chamados de paralelos em estudos de Tradução baseado em corpora (TOGNINI-BONELLI, 2001). Nesses estudos, é comum tratar como paralelo os corpus em que o texto original está alinhado à tradução e comparável quando os assuntos de dois ou mais corpora são semelhantes (como no nosso caso). 28 O tamanho do corpus está diretamente ligado à sua representatividade. No entanto, como falamos anteriormente, é desafiador estabelecer o tamanho mínimo da amostra sem que se saiba o tamanho máximo da população. Berber Sardinha (2004) apresenta uma classificação histórica do tamanho de um corpus, como podemos ver no Quadro 3. Quadro 3 — Classificação do tamanho do corpus Tamanho em palavras Classificação Menos de 80 mil Pequeno 80 a 250 mil Pequeno-médio 250 mil a 1 milhão Médio 1 milhão a 10 milhões Médio-grande 10 milhões ou mais Grande Fonte: Berber Sardinha (2004, p. 26) Baseados nessa classificação poderíamos dizer que nossos corpora são um de médio porte (em português) e o outro porte médio-grande (em inglês). Contudo, considerando os padrões atuais, em que existem corpora com bilhões de palavras, qualquer quantidade abaixo de 1 milhão parece-nos pequena. Por outro lado, como nossas amostras não pretendem representar a linguagem de maneira geral, mas apenas um recorte de uma área de especialidade, é esperado que as proporções das nossas coleções não cheguem à proporção de corpora de língua geral. Sobre as ferramentas de análise de corpus, Berber Sardinha (2004) enfatiza que em 1995 foi lançado o WordSmith Tools18, primeiro programa desse gênero feito para o sistema operacional Windows, ajudando a popularizar a LC entre usuários de computadores pessoais. Hoje em dia, temos à disposição ferramentas como o AntConc19, a #LancsBox20 e o Sketch Engine21, esse último usado nesta pesquisa. Na área dos estudos linguísticos, por muito tempo, debateu-se a origem do dado linguístico. Segundo Berber Sardinha (2000), Noam Chomsky, com sua teoria gerativista, propunha que o linguista deveria olhar para dentro de si, ou seja, consultar 18 https://lexically.net/wordsmith/ 19 https://www.laurenceanthony.net/software/antconc/ 20 http://corpora.lancs.ac.uk/lancsbox/index.php 21 https://www.sketchengine.eu/ https://lexically.net/wordsmith/ https://www.laurenceanthony.net/software/antconc/ http://corpora.lancs.ac.uk/lancsbox/index.php https://www.sketchengine.eu/ 29 sua própria competência linguística para conseguir dados de análise. Dessa maneira, não haveria motivos para a criação de coleções extensivas de dados produzidos por terceiros. A Linguística de Corpus (LC), por outro lado, concebe a língua como um sistema probabilístico que pode ser estudado por meio de uma abordagem empirista. Empirismo na linguística, como afirma Berber Sardinha (2000, p. 350), “significa dar primazia aos dados provenientes da observação da linguagem, em geral reunidos sob a forma de um corpus”. As ferramentas da LC, assim, permitem que o pesquisador interprete dados linguísticos com base, principalmente, na frequência de palavras e/ou frases numa coleção de textos. Existem vários tipos de dados que podem ser extraídos de um corpus, como listas de palavras, colocações, construções fixas e semifixas, e palavras-chave — sendo esse último tipo o que nos interessa para os fins almejados. Em resumo, enquanto o racionalismo de foca-se na análise da competência linguística e na busca por universais linguísticos, o empirismo da LC foca-se na análise do desempenho linguístico e na descrição dos padrões que emergem do uso (LEECH, 1992; BERBER SARDINHA, 2000). Se à época da publicação de Syntatic Structures nos anos 1950, a pesquisa com corpus era menosprezada, hoje, no entanto, com o surgimento de modelos de linguagem22 capazes de produzir discurso coerente a partir de treinamento com quantidades gigantescas de dados (cujo poder pode ser visto em aplicativos como o ChatGPT23), parece-nos, afinal, que muitas das respostas para a eficácia na produção linguística podem estar “do lado de fora”, ou seja, na língua em uso. Os estudos de corpora desenvolvem-se de maneira independente dos estudos de PLN, mas convergem na escolha metodológica da primazia do dado linguístico. Conforme afirma Freitas (2022, p. 30, grifos da autora), “aquilo que para os linguistas é um corpus anotado, para os profissionais de PLN, é um conjunto de dados linguístico – um dataset". Atualmente, o uso de grandes quantidades de textos para o treinamento de modelos de linguagem tornou-se prática comum nos estudos de 22 Tomamos o sentido de “modelo” dado por Freitas (2022, p. 33), que afirma que “um modelo de linguagem é um esquema teórico que permite prever [...] qual a próxima palavra em um texto, dada a palavra anterior”. 23 https://openai.com/blog/chatgpt https://openai.com/blog/chatgpt 30 aprendizado de máquina. Na seção a seguir, descrevemos como os estudos de PLN com aprendizado de máquina fazem uso de corpora. 2.2.2 Linguística Computacional ou Processamento de Linguagem Natural (PLN) De acordo com Freitas (2022, p. 12), a Linguística Computacional pode ser definida como “um ramo da IA [inteligência artificial] que lida com o processamento automático de uma língua”. A autora enfatiza que a área é interdisciplinar por envolver saberes linguísticos e computacionais apesar de, historicamente, essas áreas de formação poucas vezes dialogarem. Outro nome dado à disciplina é o de Processamento de Linguagem natural (PLN), usado como sinônimo, mas que realça o seu caráter aplicado, ou seja, a realização de tarefas como tradução automática, correção ortográfica e reconhecimento de voz, para citar alguns. Como pode ser visto na Figura 3, nem toda tarefa de IA é uma tarefa de PLN. Essa última, por sua vez, contempla abordagens baseadas em conhecimento (PLN baseado em regras) e abordagens guiadas por dados, que é onde entra o aprendizado de máquina, subárea da IA onde nos últimos anos desenvolveu-se o aprendizado profundo, um tipo de aprendizado de máquina baseado em redes neurais. Nos parágrafos que se seguem, desenvolveremos esses conceitos com base em Freitas (2022). O PLN baseado em regras, como o nome sugere, envolve a criação de sistemas que implementam regras criadas por especialistas para realizar tarefas linguísticas automaticamente, como análise gramatical, por exemplo. Trazendo esse conceito para a realidade de nossa pesquisa, podemos destacar as funções automáticas de lematização e etiquetação de classe gramatical presentes na plataforma Sketch Engine, cujos detalhes daremos na seção de metodologia. Para o momento, interessa-nos saber que os textos inseridos pelo usuário e processados pela plataforma passam por sistemas de regras desenvolvidos por especialistas e são específicos para cada língua, por meio dos quais são identificados o lema de cada item e sua respectiva classe gramatical. Esse tipo de PLN, ressalta Freitas (idem), envolve um trabalho complexo e demorado, que exige maior participação de especialistas em linguagem. 31 Figura 3 — PLN como subárea da IA e suas relações com AM e AP Fonte: Freitas (2022, p. 17) Por outro lado, o surgimento e recente sucesso de métodos de PLN a partir do aprendizado de máquina, em especial o aprendizado profundo, marcam a diminuição da importância do papel do linguista no desenvolvimento desses sistemas. Diferente do PLN por regras, o PLN com aprendizado de máquina lida com “algoritmos que podem aprender a realizar tarefas automaticamente com base em uma grande quantidade de exemplos, sem a necessidade de regras artesanais e explícitas” (FREITAS, 2022, p. 29). A pesquisadora aponta que a especificidade do aprendizado profundo está no uso de redes neurais, que permitem aprendizado não supervisionado, isto é, sem a necessidade de dados anotados para o treinamento. Na Computação, uma rede neural é: um conjunto de neurônios artificiais conectados entre si, que formam algo parecido com uma teia, ou rede [...]. A primeira camada da rede processa a entrada e passa as informações para as camadas intermediárias até a camada de saída, que é a final. (FREITAS, 2022, p. 32). A autora usa a Figura 4 para ilustrar uma rede neural com várias camadas intermediárias, ressaltando que “o adjetivo ‘profundo’ se refere às várias camadas das redes neurais atuais, como as da figura” (FREITAS, 2022, p. 32). 32 Figura 4 — Esquematização de uma rede neural com várias camadas intermediárias Fonte: Freitas (2022) Para que as redes neurais operem, no entanto, é necessário transformar o dado linguístico em dado numérico. Para isso, recorre-se aos vetores de palavras (word embeddings). Isso significa que, num determinado conjunto de textos, “cada palavra é representada como um conjunto de números atribuídos em função das palavras que coocorrem com ela e das dimensões” (FREITAS, 2022, p. 133). Dessa maneira, cada número do vetor está numa dimensão. Como esclarece a pesquisadora, o que cada dimensão denota é parte do mistério de como as redes neurais resolvem o problema. O que se sabe é que as dimensões são baseadas na análise dos padrões de coocorrência das palavras e o número de dimensões criadas pode variar de 50 a 300, demandando maior trabalho de processamento quanto maior o número de dimensões. Sobre isso, a autora afirma: O que cada dimensão contém será aprendido automaticamente, em função do número de dimensões estabelecido, mas quem estabelece o número de dimensões? Até o momento, não há pesquisas que demonstrem uma regra clara para a escolha da quantidade de dimensões; a decisão tem sido baseada na experiência, a partir do teste com diferentes números de dimensões. (FREITAS, 2022, p.136). Sobre os números gerados para cada dimensão, a pesquisadora afirma que eles são frutos de cálculos matemáticos, cuja construção pode variar conforme o tamanho do contexto de análise, ou seja, o tamanho da janela de palavras à direita e à esquerda da palavra-alvo. 33 De acordo com Menezes (2023), existem abordagens de vetorização estáticas e contextualizadas. Nas abordagens estáticas, presume-se que há apenas um vetor, ou conjunto de número, que pode representar uma palavra. Já nas abordagens contextualizadas, assume-se que a representação de uma palavra é dependente do seu contexto, chegando ao conceito de vetor contextual, que assume a incorporação dos diferentes contextos de ocorrências na vetorização de uma palavra. De acordo com a autora, a criação de vetores parte da ideias de que “as palavras que participam de contextos linguísticos similares tendem a ser similares” (FREITAS, 2022, p. 132), ideia também conhecida como hipótese distribucional (LENCI, 2018). No caso dos vetores, a semelhança entre os números em dadas dimensões determina o quão próxima uma palavra está da outra semanticamente. A ideia de que o sentido está no uso, no entanto, como aponta a autora, não é uma discussão nova na linguística, retomando pontos feitos por Wittgenstein (1984 [1953]), Harris, (1954) e Firth (1957), que afirmam que o sentido de uma palavra é depreendido a partir do seu contexto de uso. Ao nosso ver, o sentido de uma palavra podendo ser descrito a partir das palavras que a acompanham vai ao encontro da linguística saussuriana, que postula que o valor de um signo linguístico só se dá em relação aos outros signos dentro do mesmo sistema. Esse tipo de criação de modelos a partir do aprendizado pela observação de padrões em uso só é possível hoje graças à disponibilidade de corpora maiores e computadores mais rápidos. No entanto, os princípios de que léxico e sintaxe não são independentes, obtidos por meio da análise de padrões de combinação frequentes, já estavam dados por estudos de Halliday e Sinclair (BERBER SARDINHA, 2004). Em nossa pesquisa, utilizamos um modelo de linguagem baseado em transformers, um tipo específico de arquitetura de redes neurais: composta por camadas de entrada, que transformam os dados de entrada em uma representação vetorial; e camadas de saída, capazes de transformar essas representações em saídas legíveis. Entre essas camadas, existem camadas de atenção, que calculam a importância de cada elemento em relação aos outros elementos do conjunto de dados por meio do acesso aos estados ocultos da rede. Assim, a rede é capaz de capturar dependências entre as palavras. (MENEZES, 2023, p. 37). Os dados de entrada e saída são relacionados por meio da criação de vetores contextuais. Por exemplo, a tradução de uma sentença é a transformação de um input textual em uma língua em um output também textual em outra língua. Esse processo 34 de transformação é intermediado pelos vetores gerados pelo modelo. Por “atenção”, entendem-se as partes do contexto que devem receber mais peso no processamento (LOPES, 2023). O modelo de linguagem baseado em transformers escolhido pelo nosso grupo foi o XML-roBERTa (CONNEAU et al., 2019), uma versão do modelo BERT (Bidirectional Encoder Representations from Transformers), o qual aprende as dependências entre as palavras de maneira bidirecional, ou seja, ao mascarar um item de uma sentença, o modelo aprende a prevê-lo considerando as dependências com itens antes e depois do item-alvo (DEVLIN et al., 2019; MENEZES, 2023). O XML- roBERTa é pré-treinado em 100 línguas diferentes, e usa os dados de seu pré- treinamento para gerar vetores contextuais que representam as sentenças e as palavras dos dados de entrada. Esse pré-treinamento não depende da anotação de corpora e é feito a partir de dados disponíveis na web. Em suma, vimos que o sucesso recente do PLN baseado em aprendizado profundo fez com que a necessidade de regras explícitas diminuísse, diminuindo também a necessidade de especialistas em linguagem para formular essas regras. Na seção de metodologia, veremos como utilizamos aprendizado profundo para a obtenção de nomes de pesticidas organofosforados em português a partir de nomes em inglês. Na seção que se segue, veremos como a Linguística de Corpus é utilizada para fins terminológicos e de tradução. 2.3 Interface entre Terminologia e Tradução Nesta seção, apresentaremos alguns aspectos históricos da Terminologia e de sua afirmação como disciplina científica no final do século XX. Discorremos sobre a busca por univocidade terminológica por meio da prescrição em contraste com a descrição da linguagem de especialidade como ela de fato se realiza. Mostramos como a Química enquanto disciplina preza pela normalização de sua terminologia ao mesmo tempo que assume a existência de variantes. Além disso, abordamos alguns conceitos de Tradução caros à nossa pesquisa (neologismo, empréstimo e decalque). Por fim, vemos como a Linguística de Corpus é usada em pesquisas terminológicas e de tradução. 35 2.3.1 A importância do rigor terminológico na Química De acordo com Barros (2004), as origens da Terminologia remontam a própria origem da linguagem, pois a humanidade desde seus primórdios sente a necessidade de nomear as coisas ao seu redor. No entanto, a Terminologia enquanto disciplina científica só se afirma no século XX, principalmente por meio da Teoria Geral da Terminologia (TGT), cujos princípios foram traçados pelo engenheiro Eugen Wüster. Em suma, a teoria de Wüster assume que a linguagem de especialidade ocorre à parte da linguagem geral e os critérios para a criação de termos devem ser definidos a modo de evitar polissemia e ambiguidade. Dessa maneira, a Terminologia à época de Wüster tem caráter normatizador e o termo é visto como unidade artificial descolada da linguagem como um todo. Ao nosso ver, as instituições normatizadoras da Química, com destaque para a IUPAC, partem de pressupostos parecidos com as da TGT, pois visam à unificação da linguagem química por meio de uma língua, a inglesa, e por meio de um conjunto de regras que permite a criação de nomes para qualquer substância existente ou que venha a existir. No entanto, a IUPAC reconhece a variação como parte inescapável da linguagem, até mesmo a altamente especializada. Dessa maneira, em seus manuais, há quase sempre uma distinção entre variantes aceitáveis e os nomes preferenciais. Na maioria dos casos, uma variante é aceita quando ela não se confunde com outro termo de conceptualização diferente. No caso de nomes de substâncias perigosas como os agrotóxicos, a variação denominativa, apesar de inevitável de um ponto de vista linguístico, é indesejada, pois a padronização das nomenclaturas é importante “em situações legais, com manifestações em patentes, regulamentos de exportação-importação, informações de saúde e segurança e comunicações em ciências ambientais e suas implicações legais.”24 (IUPAC, 2014, tradução nossa). Além disso, assim como os nomes IUPAC, o estabelecimento de critérios de tradução de nomes comuns em português brasileiro é necessário para que esses nomes cumpram sua função e “para evitar a desqualificação da língua portuguesa” (ABAKERLI et al., 2003, p. 30). 24 important in legal situations, with manifestations in patents, export-import regulations, health and safety information, and communications in environmental sciences and their legal implications. 36 No que diz respeito à harmonização terminológica, Barros (2004) a compara aos conceitos de recomendação e normalização. No processo de harmonização, o terminólogo, junto a um comitê institucional, adequa, modifica ou consagra o uso de termos. Dessa maneira, a prática de harmonização estaria entre a normalização, em que se usam dispositivos coercitivos para aplicação de uma norma, e a recomendação, em que se apontam caminhos de utilização sem retirar a liberdade do utilizador. Nossa pesquisa pode assim ser concebida como tendo uma postura de recomendação, por não desconsiderarmos a variação. Ao mesmo tempo, pelo fato de essas recomendações serem embasadas na revisão da terminologia da área à luz das regras propostas pela própria comunidade da Química, pode-se também considerar nosso trabalho como o de harmonização. Nossas recomendações de uso, por sua vez, são divulgadas por um de uma obra terminográfica. Um exemplo de obra terminográfica é o glossário. Segundo Barros (2004, p. 144), a principal característica de um glossário é a apresentação de “uma lista de unidades lexicais ou terminológicas acompanhadas de seus com equivalentes em outras línguas”. A principal diferença do glossário para um dicionário é a ausência de definições. Em nosso caso, consideramos o produto fruto de nossa pesquisa um glossário, por apresentar termos e equivalentes. No entanto, incluímos no verbete elementos como definição e informações enciclopédicas como a estrutura molecular das substâncias e sua identificação numérica de acordo com o CAS. Dessa maneira, tratamos nossa obra terminográfica como um glossário que traça caminhos para a elaboração de um dicionário. 2.3.2 Variação na Terminologia No que tange aos estudos de variação terminológica, a Teoria Comunicativa da Terminologia (TCT), conforme Cabré (1999), e diferente da Teoria Geral da Terminologia (TGT) de Wüster (1998), considera indissociável a relação entre significado e significante. Wüster propõe um trato onomasiológico do termo, ou seja, a partir do conceito. Para ele, seria possível organizar os conceitos de um domínio para assim se determinarem seus significantes. Em outras palavras, o significado independeria do contexto de ocorrência do termo, bem como de sua expressão, contrariando, como afirma Barros (2004), a Linguística Saussuriana, em que o signo linguístico é composto por duas partes indissociáveis. A TCT vai ao encontro da 37 linguística geral ao partir do fato de que não há significado (conceito) sem significante (designação). Dessa forma, a existência do termo não antecede seu uso, ou seja, de seu contexto de comunicação. Assim, a variação e a mudança, resultantes das diferentes interações sociais capazes de gerar mais de um termo para um único conceito, não podem ser deixadas de fora. Quanto às razões para a variação acontecer, Freixa (2006) classifica cinco motivos: dialetal, funcional, discursivo, interlinguístico e cognitivo. O dialetal foca-se principalmente nas variantes causadas por diferenças geográficas, cronológicas e sociais. Por exemplo, temos “malation” e “malatião” como variantes, respectivamente, brasileira e europeia. As diferenças entre Brasil e Portugal na linguagem da Química são um dado já apresentado por estudos anteriores. Finatto e Kerschner (1999) apontam que: o sistema lusitano de nomenclatura, além de apresentar particularidades ortográficas, tal como ião (Portugal) e íon (Brasil), adota uma “escola de nomenclatura” diferente da brasileira, tal como observamos na alternância entre sulfureto de hidrogênio (Portugal) e ácido sulfídrico (Brasil). (FINATTO; KERSCHNER, 1999, p. 278, grifos das autoras) A diferença das escolas de nomenclatura é notada até mesmo na designação de elementos da tabela periódica: enquanto no Brasil usa-se “nitrogênio” (N), em Portugal prefere-se a forma “azoto” (FINATTO, 1996; FINATTO; KERSCHNER, 1999). A segunda motivação é a funcional, que contempla as adaptações lexicais feitas de acordo com o nível de especialização da interação. Isto é, para ilustrar, enquanto uma química especialista poderia usar o termo “agrotóxico”, uma pessoa que trabalha no campo pode se referir ao grupo de substâncias simplesmente como “veneno”. As causas discursivas dizem respeito aos recursos estilísticos utilizados por autores, seja para evitar repetição, exercer criatividade ou economizar linguisticamente. No texto desta dissertação, por exemplo, utilizamos vários sinônimos de “agrotóxico” para evitar repetições (como, “pesticida”, “produto”, “substância”, “composto” etc.). A categoria seguinte, a interlinguística, é de especial interesse ao nosso estudo, pois trata justamente da coexistência entre formas vernaculares e empréstimos, além de prever a diversidade de opções tradutórias. As causas interlinguísticas, portanto, 38 explicam a quantidade de variantes em português brasileiro, a exemplo de “malation”, “malationa” e “malatiom”. Por fim, a última categoria (cognitiva) atribui a variação à imprecisão conceptual, posicionamento ideológico ou conceptualização divergente. Por exemplo, em nosso texto preferimos usar os sinônimos de agrotóxicos citados anteriormente a usar outros, como “defensivos agrícolas” ou “fitossanitários”, por acreditarmos que a associação ideológica a esses itens não vai ao encontro de nossos objetivos. É válido ressaltar que o termo “agrotóxico” foi criado pelo pesquisador brasileiro Adilson Dias Paschoal (SANTOS, 2021), designação que deixa evidente a natureza tóxica desses produtos usados em atividades agrícolas. Ao criar o termo, Paschoal advoga pela não intercambialidade entre “pesticida”, “praguicida” e “defensivo”, argumentando que seus sentidos são diferentes. Em nosso corpus de estudo em português, cujos detalhes daremos na seção de metodologia, numa análise preliminar, constatamos a ocorrência de “agrotóxico”, “pesticida”, “praguicida”, “defensivo” e “fitossanitário” (Figura 5). Figura 5 — Frequência de “agrotóxico” e outros itens Fonte: captura de tela feita pelo autor Como se pode notar, o item “agrotóxico” é o que tem maior frequência absoluta (FA). No entanto, baseado no índice de frequência por documento (DOCF) percebe- se que o item “pesticida” ocorre em mais documentos. Um estudo futuro sobre o uso efetivo dos termos elencados na figura poderia revelar se o que motiva os autores a alternar entre as formas é a diferente percepção conceptual e ideológica ou a necessidade estilística. Além disso, Santos (2021) aponta para o fato de o item “pesticida” acenar para um internacionalismo, pois a forma se assemelha com as de outras línguas (como “pesticida”, em espanhol, e “pesticide”, em inglês), não tendo uma conotação 39 necessariamente negativa como a do item “agrotóxico”. É justamente essa conotação negativa que motivou, segundo a autora, a proposta, por parte de um segmento da sociedade, de alteração da designação dessas substâncias na legislação brasileira para termos como “defensivos agrícolas” e “fitossanitários”, que, como afirma a autora, não evidenciam a toxicidade desses produtos. No que tange à forma dos termos, mais especificamente tipos de variação denominativa, partimos do constructo de Faulstich (2001), sumarizado na imagem abaixo: Figura 6 — Constructo teórico para a variação na Terminologia Fonte: adaptado de Faulstich (2001, p. 38) As três grandes categorias de variantes propostas pela autora são as concorrentes, co-ocorrentes e competitivas. As variantes concorrentes dizem respeito às formas vernaculares que concorrem entre si (como “mandioca” e “aipim”), ou seja, não aparecem no mesmo contexto discursivo. A autora faz, então, uma separação entre variantes linguísticas e de registro. Nessa separação, como a autora sugere, algumas categorias podem se combinar. Contudo, conforme vimos a partir de Freixa (2006), os motivos para variação atravessam vários aspectos externos à língua, o que significa que o registro é na verdade um dos vários fatores que podem influenciar na variação. Essa variação, por sua vez, manifesta-se em várias formas de acordo com as regras linguísticas do variação variável(is) variantes co-ocorrentes sinônimos competitivas concorrentes empréstimo estrangeirismo empréstimo pp. dito forma estrangeira vernacular híbrida formais de registro linguísticas fonológica morfológica gráfica lexical sintática geográfica de discurso temporal 40 vernáculo. Dessa maneira, variantes de registro tomariam forma como um tipo de variante linguística. Não obstante, no constructo é possível observar que não há uma categoria formal para variantes que se manifestam por meio de um lexema completamente diferente. Por exemplo, linguisticamente, onde se encaixaria a oposição entre “macaxeira” e “aipim”? Poderia se esperar o encaixe na categoria lexical; contudo, Faulstich (2001) descreve a categoria como a que contempla unidades terminológicas complexas em que algum item é apagado sem prejuízo para sua compreensão, como “melhoramento genético de plantas” em contraposição a “melhoramento de plantas”. A segunda categoria, de variantes coocorrentes, diz respeito aos sinônimos vernaculares que não concorrem entre si, ou seja, ocorrem nos mesmos contextos discursivos sem mudanças no plano do conteúdo. A autora traz como exemplos “infeccionar” e “infectar”. No entanto, podemos argumentar que pode haver razões para a variação não observáveis sob as categorias do constructo de Faulstich (2001). Isto é, as diferenças entre “infeccionar” e “infectar” poderiam ser explicadas por meio de métodos de Linguística de Corpus que, aliados a uma análise que não perde o texto de vista (considerando aspectos como gênero textual, autoria, local de produção etc.), poderiam revelar “lugares” do discurso em que “infectar” e “infeccionar” são concorrentes morfológicas e não sinônimos co-ocorrentes. Ao nosso ver, uma vez que são formas diferentes, também seriam consideradas variantes linguísticas. Dessa maneira, fica evidente que a classificação linguística não é exclusividade das variantes concorrentes. A terceira categoria, das variantes competitivas, diz respeito à competição entre formas vernaculares e estrangeiras, tendo a forma híbrida como uma opção intermediária. Um dos exemplos trazidos pela autora é o empréstimo delivery (forma estrangeira), que compete com “serviço de delivery” (forma híbrida) e “serviço de entrega em domicílio” (forma vernacular). Contudo, ao voltarmos para as razões para a variação acontecer, vemos que o processo de tradução é apenas um dos motivos para tal. Além disso, o aparecimento de várias formas vernaculares faz delas formas concorrentes, o que também as torna parte da primeira categoria de variantes proposta pela autora. Dessa maneira, sugerimos que o empréstimo é de alguma forma acomodado ao vernáculo; afinal, voltando aos exemplos, por mais que a escrita da variante seja “delivery”, sua pronúncia é adaptada aos sons do português brasileiro. Portanto, ao 41 nosso ver, todas as variantes (estrangeiras ou não) estariam acomodadas como concorrentes ou coocorrentes no vernáculo, a depender do recorte discursivo analisado, e critérios como diferenças de registro ou origem estrangeira não podem ser utilizados para dividir os tipos de variantes, mas sim para descrevê-las em mais detalhe. Isso significa que as variantes “delivery”, “serviço de delivery”, “serviço de entrega em domicílio” devem ser observadas como concorrentes, sendo variantes linguísticas lexicais e sintáticas com motivações interlinguísticas para a variação. Ademais, a concorrência e a coocorrência entre variantes parecem-nos uma maneira de descrever o status do termo em determinados contextos discursivos, e não uma característica inerente a ele. Em outras palavras, enquanto, em alguns contextos, determinadas variantes podem coocorrer, em outros, pode-se haver a preferência de uma pela outra. Portanto, dados os motivos acima, argumentamos a favor da seguinte classificação: primeiro, categoriza-se a variante quanto à forma, depois quanto aos motivos para a sua realização (aqui, incluem-se as diferenças de registro), identificando-se a coocorrência ou concorrência a depender do recorte discursivo em análise. Na seção a seguir, veremos como o fenômeno de inserção de um vocábulo estrangeiro à língua é visto pela ótica dos estudos da tradução por meio dos conceitos de neologismo, empréstimo e decalque. 2.3.3 Neologismo, empréstimo e decalque Como vimos, a criação ou descoberta de substâncias incorre na criação de palavras novas, ou neologismos. Conforme Alves (1996, 2001), o conceito de neologia está atrelado aos processos linguísticos subjacentes à criação de novas palavras numa língua ou o seu empréstimo de outra língua, mas não está restrito a isso. Devido ao desenvolvimento técnico-científico, a criação neológica torna-se preocupação de instituições que visam definir critérios para tal atividade, como o caso da IUPAC na Química. Dessa maneira, vê-se na linguagem de especialidade um lugar propício para neologismos terminológicos. Esses neologismos, por sua vez, no caso de nosso estudo, originam-se na língua inglesa e são inseridos no português brasileiro por meio de duas modalidades tradutórias: o empréstimo e o decalque (ALVES, 1984; AUBERT, 2003a, 2006, 42 2003b). Aubert (2006) define empréstimo como a reprodução do segmento textual do texto de origem no texto traduzido. Esse segmento pode vir ou não com indicações de que se trata de um empréstimo, como pelo uso de itálico. Já decalque é definido por Aubert (2006, p. 64) como “uma palavra ou expressão emprestada da Língua Fonte mas que foi submetida a certas adaptações gráficas e/ou morfológicas [...]”. Essas adaptações têm o intuito de domesticar o vocábulo na língua de chegada. No caso dos nomes comuns de pesticidas, o decalque é a modalidade de tradução preferida por via de regra. Dada a falta de uma instituição normalizadora que proponha uma organização desses termos dentro de um sistema de nomenclatura adaptado ao nosso idioma, os cientistas da área recorrem ao seu próprio conhecimento da área e intuição linguística para sugerir traduções. No entanto, essas traduções, como constataram Pinto e Lima (2018), não têm uma linearidade, gerando uma sequência de adaptações dos termos em inglês, indo contra às recomendações da própria IUPAC, que desaconselha a proliferação de variantes em excesso. Quando não, os termos em inglês figuram como empréstimos sem adaptação à língua de chegada. 2.3.4 Tradução e Terminologia (a partir de corpora) A Tradução e a Terminologia, apesar de áreas diferentes nos estudos da linguagem, tem algumas confluências entre si, como apontam Krieger e Finatto (2004). Por exemplo, a construção de obras terminográficas bilíngues envolve, ao mesmo tempo, a mobilização de conhecimentos das duas áreas. Um ponto de contato entre as duas disciplinas está na busca por equivalentes. Segundo Dubuc (1985), o equivalente terminológico diferencia-se do equivalente tradutório. Para que um termo de uma língua seja considerado equivalente terminológico de outra língua, segundo o autor, é preciso que haja uma coincidência no campo semântico e no pragmático. Ou seja, tanto o significado quanto o uso devem coincidir. No caso de nosso estudo, os nomes comuns dos pesticidas recobrem tanto a questão do significado, por retomarem a estrutura química da molécula, quanto do uso, devido ao recorte do corpus ser de textos acadêmicos. Quando não há uma sobreposição completa entre termos de diferentes línguas, o autor chama-os de correspondentes. Por exemplo, como veremos na seção de resultados, os termos 43 “organophosphate”, em inglês, e “organofosforado”, em português, não coincidem totalmente quanto ao significado, sendo, portanto, formas correspondentes e não equivalentes. A equivalência entre dois termos por meio da análise de seus contextos é feita por meio da análise dos ganchos terminológicos. Segundo Dubuc (1985), chama-se de contexto definitório aquele que caracteriza precisamente o termo, explicativo aquele que dá um deslumbre do significado do termo por meio do uso, e associativo aquele em não é explicitada nenhuma informação semântica do termo, como, por exemplo, em listas. Com os avanços na informática, popularizaram-se os trabalhos de terminologia e tradução a partir de corpora. Dentre as facilidades proporcionadas pelas ferramentas de corpus está a criação de corpora paralelos, que permitem o alinhamento sentença por sentença de um texto e sua tradução. Quando a criação de corpora paralelos não é possível, como no nosso caso, recorre-se à criação de corpora comparáveis (TOGNINI-BONELLI, 2001). Nesse caso, devido ao fato de os corpora não serem um a tradução do outro, torna-se mais difícil a coleta de equivalentes. Portanto, é preciso recorrer a métodos de extração automática ou semiautomática de termos. Um desses métodos é a geração de listas de palavras-chave nas línguas de partida e chegada. A LC, dessa maneira, colabora com o trabalho terminológico, pois, por meio de suas ferramentas, mostra os termos mais prováveis e frequentes de determinada área de especialidade, permitindo um trabalho semasiológico, isto é, partindo do significante, o que gera maior fluência e naturalidade para os textos produzidos ou traduzidos com o seu auxílio (KRIEGER, 2000; TAGNIN, 2002; FINATTO, 2004; PAIVA, 2006, 2009). 2.4 Da palavra-chave ao termo Antes de entendermos como as listas de palavras-chave são geradas, é necessário primeiro entender como diferentes áreas compreendem o conceito de “palavra-chave”. Na Linguística Computacional, de acordo com Firoozeh et al. (2020), “palavras-chave” são itens lexicais que servem de descritores importantes para o conteúdo de um texto, podendo ser unidades mono ou multilexicais. Essas unidades, por sua vez, passam a ser chamadas de “termos” quando assumem o status de 44 indexadores/descritores do conteúdo de um documento ou quando ajudam a construir a conceptualização de domínios de especialidade. Dessa maneira, os métodos de extração de palavras-chave podem ser gerais (isto é, independente do domínio de especialidade) ou específicos (feitos especificamente para uma área do conhecimento); além disso, a análise pode levar em consideração o corpus todo e gerar uma lista de palavras-chave para a coleção em si ou tomar texto a texto da coleção e gerar palavras-chave individualmente. Na Terminologia, Finatto (2007, p. 222) define “termo” como uma unidade poliédrica e afirma: Esse termo cada vez mais é entendido como uma condição especial da palavra, um signo linguístico dotado de significado e significante, e atrelado a uma determinada unidade e corpo de conhecimentos historicamente estabelecidos. Desse modo, terminologias deixam de ser unidades ‘estranhas’ ou ‘artificiais’, índices de uma língua à parte da língua-sistema, e passam a ser vistas como palavras que têm ou adquirem um estatuto peculiar em uma dada situação de comunicação. Dentro dessa definição, a função dos itens como indexadores de documento é deixada de lado, uma vez que o trabalho terminológico geralmente envolve o processamento de grandes coleções de texto com o intuito de remontar conceitos de um campo especializado, sem o objetivo de usá-los para identificar e recuperar documentos numa coleção diversa. O termo pode ser composto de mais de uma palavra, sendo classificados, conforme Barros (2004, 2007) como simples (constituídos de apenas um lexema), como "pesticidas", complexos (constituídos por uma sequência lexemática), como "pesticidas organofosforados" e compostos (constituído por sequência lexemática conectada por hifens), como “paration-metílico”. A Linguística de Corpus, portanto, parte do conceito de “palavras-chave” da Linguística Computacional para encontrar itens que sirvam tanto para compreender o assunto do corpus quanto para construir a terminologia de uma área, seja para fins de tradução, ensino ou produção terminográfica. Em nossa pesquisa, essas listas de palavras-chave são geradas na plataforma Sketch Engine (SE) ao atribuir-se uma pontuação de chavicidade de cada item (aqui sinônimo de "palavra") do corpus por meio de um cálculo chamado de simple maths (KILGARRIFF, 2009), feito independente do domínio e para a coleção toda. Esse método compara a frequência relativa dos itens do corpus de estudo (compilado pelo pesquisador e de domínio específico) com a frequência relativa dos itens de um corpus 45 de referência (que serve como amostra de língua geral)25. Nesse cálculo, um parâmetro pode ser alterado a fim de gerar listas com palavras mais ou menos raras (ver seção 3.3 Palavras-chave). Em meio às palavras-chave, é possível identificar itens que poderiam ser considerados termos quando olhados pelo prisma da Terminologia. 25 No SE, o corpus de referência já vem pré-carregado. 46 3 MATERIAIS E MÉTODOS Nesta seção, discorremos sobre os passos metodológicos. São eles, a criação dos corpora, a geração de palavras-chave para a busca de termos e a tradução automática por meio de aprendizado profundo. Em seguida, descrevemos o processo de seleção de candidatos a termo bem como o seu registro em fichas terminológicas. Por fim, apresentamos a estrutura do glossário construído a partir do estudo dessas fichas. 3.1 Criação dos corpora Como visto na seção 2 FUNDAMENTAÇÃO TEÓRICA, partimos de uma perspectiva que vai ao encontro da terminologia da maneira que ela se realiza na realidade. Além disso, considerando que o texto é um lugar privilegiado de análise linguística, seja pelo fato de o dado escrito poder ser mais facilmente analisado ou pelo fato de o gênero discursivo ser o lugar onde o termo exerce uma função comunicativa, elegemos um recorte de textos acadêmicos (artigos, teses, dissertações, relatórios e livros) e montamos dois corpora comparáveis. A plataforma escolhida para hospedar os corpora foi o Sketch Engine (SE), por, além de ser um repositório de corpora, ser uma ferramenta de PLN com recursos que, como veremos ao longo da metodologia, são valorosos para análises automatizadas. A seguir, descrevemos os passos para a criação, primeiro, do corpus em português, depois, do corpus em inglês. 3.1.1 ORCHEUS-ptbr (Organophosphorus Chemistry Corpus of Academic Brazilian Portuguese) Mesmo após o acordo ortográfico de 1990, com o intuito de unificar a escrita dos países lusófonos, o sistema de nomenclatura química do português europeu é historicamente diferente do usado em português brasileiro. Isso fica evidente, por exemplo, em obras de referência da IUPAC traduzidas para o português europeu, como as versões lusófonas do Red Book (QUÍMICA, 2018) e do Blue Book (FERNANDES et al., 2010), produzidas na Europa e cujos editores salientam que são traduzidas nas variantes europeia e brasileira da língua. A diferença entre as variantes da língua portuguesa também se evidencia em obras produzidas no Brasil, como a versão simplificada e comentada do Red Book (TOMA et al., 2014), em cuja capa é 47 deixado claro que o livro foi adaptado e traduzido para a língua portuguesa do Brasil. Dessa maneira, focamo-nos apenas em textos escritos em português brasileiro. Por fim, como a questão da variação foi primeiramente percebida em artigos científicos, demos preferência ao registro acadêmico – o que não descarta um trabalho futuro com outros tipos de registros menos especializados. O nosso corpus em português recebeu o nome de ORCHEUS-ptbr (Organophosphorus Chemistry Corpus in Brazilian Portuguese). Os textos foram coletados manualmente entre 2016 e 2022 de bases de pesquisa como o Athena26, da Unesp, por meio da qual tem-se acesso ao Portal de Periódicos da Capes, e indexadores como o Google Acadêmico27 e o Scielo28. Além disso, consultamos a Biblioteca Digital Brasileira de Teses e Dissertações29 (BDTD). As palavras-chave usadas em nossas buscas foram “agrotóxicos”, “pesticidas”, “organofosforados” e “organofosfato”. Assim, o corpus é composto por 84 textos acadêmicos, publicados em revistas científicas ou bancos de teses/dissertações entre 1996 e 2020. Seu número de tokens (ou itens, isto é, todas as ocorrências das palavras) é de 830.144, enquanto o número de words ou types (palavras ou tipos, ou seja, ocorrências repetidas contadas apenas uma vez) é de 621.213. No Apêndice A, a fim de propiciar um panorama da distribuição dos itens, estão listados todos os arquivos registrados, bem como o número de itens de cada um deles. Além disso, apresenta-se no Gráfico 1 a distribuição desses documentos de acordo com o ano de publicação. Nota-se um aumento da produção de artigos a partir do início do século XXI, com um pico peculiar em 2020, ano cujo número de documentos é o maior entre todos os anos (17 documentos). Não foram encontrados artigos que datassem de antes de 1996. Podemos ver os nomes das fontes das quais os textos foram retirados no Apêndice B. Uma breve análise dos títulos permite notar que a área dos pesticidas organofosforados é de interesse para diversas áreas do conhecimento além da química, como a saúde, a agricultura, a veterinária, e até mesmo a engenharia de alimentos. 26 https://unesp.primo.exlibrisgroup.com/discovery/search?vid=55UNESP_INST:UNESP 27 https://scholar.google.com/ 28 https://www.scielo.br/ 29 https://bdtd.ibict.br/vufind/ https://unesp.primo.exlibrisgroup.com/discovery/search?vid=55UNESP_INST:UNESP https://scholar.google.com/ https://www.scielo.br/ https://bdtd.ibict.br/vufind/ 48 Gráfico 1 — Quantidade de documentos por ano em ORCHEUS-ptbr Fonte: o autor Por ser um corpus relativamente pequeno, procuramos otimizar os dados, limpando de cada texto trechos que estejam em inglês (como o abstract e as referências bibliográficas, que contam com muitas obras em língua inglesa). Os textos, ou documentos, foram então nomeados de acordo com seu gênero, língua e ordem. Por exemplo, o primeiro artigo em português recebeu o nome . A contagem começa do 0 devido ao fato de o SE, por ser programado em Python, operar com listas cuja primeira posição corresponde à posição 0, não 1. Apesar de a numeração não necessariamente interferir nas análises, acreditamos que essa escolha facilita a organização e visualização dos documentos dentro da plataforma. Tabela 1 — Tipos textuais em ORCHEUS-ptbr Tipo textual Nome dos documentos Total Artigo científico artpt00-64 65 Dissertação (mestrado) disspt00-09 10 Tese (doutorado) tesept00-05 6 TCC tccpt00-01 2 Livro livropt00 1 84 Fonte: o autor 0 2 4 6 8 10 12 14 16 18 1 9 9 6 1 9 9 7 1 9 9 9 2 0 0 0 2 0 0 1 2 0 0 2 2 0 0 3 2 0 0 4 2 0 0 5 2 0 0 6 2 0 0 7 2 0 0 8 2 0 0 9 2 0 1 0 2 0 1 1 2 0 1 2 2 0 1 3 2 0 1 4 2 0 1 5 2 0 1 6 2 0 1 7 2 0 1 8 2 0 1 9 2 0 2 0 49 Para um panorama geral dos tipos textuais do corpus, apresentamos na Tabela 1 uma classificação. Como pode ser visto, a maioria dos textos são artigos científicos, seguidos de dissertações de mestrado e teses de doutorado. Por fim, há uma porção menos representativa que é a de trabalhos de conclusão de curso (TCC), com dois exemplares, e um livro. Descrito o nosso corpus em português brasileiro, partimos para a descrição da coleta e processamento dos dados para o corpus em inglês, cuja metodologia muito se assemelha à do seu corpus irmão. 3.1.2 ORPHEUS-en (Organophosphorus and Phosphorus Chemistry Corpus of Academic English) Diferente do que acontece em português, em que diferenças regionais influenciam na tradução dos nomes químicos, em inglês, a variação, apesar de existir, é mais controlada, uma vez que a IUPAC publica suas recomendações em língua inglesa, a qual, portanto, ocupa um valor de prestígio entre toda a comunidade internacional. Assim sendo, nesta pesquisa não fazemos diferença entre as variedades do inglês, tratando-o, neste caso, como língua franca. Contudo, veremos algumas influências regionais principalmente vinda da América do Norte. Dito isso, apresentamos nosso segundo corpus, em inglês, que foi batizado de ORPHEUS-en (Organophosphorus and Phosphorus Chemistry Corpus of Academic English). A coleta dos textos foi feita entre 2016 e 2022, utilizando dois métodos principais. O primeiro, assim como no corpus em português, consistiu em procurar artigos científicos manualmente em bases de pesquisa, como o Athena e o Google Acadêmico, já mencionados. As palavras-chave usadas na busca foram “phosphorus”, “organophosphorus”, “organophosphate” e “pesticide”. O segundo método foi o de web scrapping, ou seja, a extração automática de textos publicamente disponíveis na web. O SE oferece essa opção de criação de corpus a partir desse método ao integrar o BootCaT, conhecido programa de web scrapping para a criação de corpora, em sua plataforma. Como pode ser visto na Figura 7, após a inserção das palavras-chave de busca (também chamadas de seeds), no filtro de URL, restringimos os domínios de busca para somente “.edu” (próprio de sites de instituições educacionais nos EUA). Nesse caso, preferimos excluir a palavra-chave “phosphorus”, uma vez que já havíamos obtido muitas obras que tratavam deste tópico e tivemos de priorizar obras 50 que travam de organofosforados. Todos esses critérios foram selecionados a fim de aumentar as chances de conseguirmos textos acadêmicos do escopo desejado. Após a extração automática, foi feita uma análise qualitativa para decidir quais textos ficariam ou não. Figura 7 — Compilação de corpus a partir de textos da web no SE Fonte: captura de tela feita pelo autor Ao todo, o corpus consiste em 210 textos, publicados entre 1943 e 2022, com o total de 3.472.000 tokens e 2.221.494 words. A nomeação dos documentos seguiu lógica semelhante ao corpus em português brasileiro, de maneira que o primeiro artigo do corpus recebeu o nome de . No Apêndice C, veem-se listados os textos registrados e o número de itens de cada um deles. Na Tabela 2, podemos ver a totalidade dos documentos dividida em tipos textuais. Assim como o ORCHEUS-ptbr, essa coleção trata de organofosforados. Contudo, decidimos incluir também textos que tratem do fósforo e seus derivados inorgânicos (sem carbono e hidrogênio) a fim de contemplar outros nomes de substâncias e