Luana Viana dos Santos Atividades de leitura em língua inglesa direcionadas por dados: o uso de um corpus com a temática dos ODS São José do Rio Preto 2024 Câmpus de São José do Rio Preto Luana Viana dos Santos Atividades de leitura em língua inglesa direcionadas por dados: o uso de um corpus com a temática dos ODS Dissertação apresentada como parte dos requisitos para obtenção do título de Mestre em Estudos Linguísticos, junto ao Programa de Pós-Graduação em Estudos Linguísticos, do Instituto de Biociências, Letras e Ciências Exatas da Universidade Estadual Paulista “Júlio de Mesquita Filho”, Câmpus de São José do Rio Preto. Financiadora: CAPES - 88887.671444/2022-00 Orientador: Profª. Drª. Paula Tavares Pinto São José do Rio Preto 2024 S237a Santos, Luana Viana dos Atividades de leitura em língua inglesa direcionadas por dados : o uso de um corpus com a temática dos ODS / Luana Viana dos Santos. -- São José do Rio Preto, 2024 153 p. Dissertação (mestrado) - Universidade Estadual Paulista (UNESP), Instituto de Biociências Letras e Ciências Exatas, São José do Rio Preto Orientadora: Paula Tavares Pinto 1. Linguística de corpus. 2. Data driven learning. 3. Termos multipalavras. 4. Estratégias de leitura. 5. ODS. I. Título. Sistema de geração automática de fichas catalográficas da Unesp. Dados fornecidos pelo autor(a). Luana Viana dos Santos Atividades de leitura em língua inglesa direcionadas por dados: o uso de um corpus com a temática dos ODS Dissertação apresentada como parte dos requisitos para obtenção do título de Mestre em Estudos Linguísticos, junto ao Programa de Pós-Graduação em Estudos Linguísticos, do Instituto de Biociências, Letras e Ciências Exatas da Universidade Estadual Paulista “Júlio de Mesquita Filho”, Câmpus de São José do Rio Preto. Financiadora: CAPES - 88887.671444/2022-00 Comissão Examinadora Titulares Prof.ª Dr.ª Paula Tavares Pinto UNESP – Câmpus de São José do Rio Preto Orientador Prof.ª Dr.ª Ana Eliza Pereira Bocorny UFRGS – Universidade Federal do Rio Grande do Sul Prof.ª Dr.ª Sandra Mari Kaneko Marques UNESP – Câmpus de Araraquara São José do Rio Preto 30 de agosto de 2024 Dedico este trabalho à vó Marlene, ao vô Isaías (in memorian), à vó Deral (in memorian) e ao vô Chiquinho (in memorian). AGRADECIMENTOS Agradeço a Deus e a N. Sra. Aparecida pela minha vida e por todas as oportunidades que a mim foram dadas. Aos meus pais, por terem me incentivado a trilhar o caminho dos estudos, por todo o apoio e por terem feito de tudo para que eu chegasse à universidade. À minha orientadora, Paula Tavares Pinto, por ter me convidado para fazer iniciação científica na graduação e por ter me conduzido até o Mestrado, pela paciência e pelos conselhos nos momentos de insegurança e pela orientação humana e atenciosa durante os anos de pesquisa. Ao Daniel pela parceria, pelo apoio carinhoso e pela paciência nos momentos em que a vida acadêmica fez com que eu me ausentasse. Aos meus familiares, em especial a Laura, que sempre acreditaram em mim e que torciam para que eu concluísse a jornada do Mestrado. Ao Davi e à Márcia, pelo incentivo e pelas palavras sempre doces e encorajadoras. Aos amigos da graduação que continuaram me apoiando na pós, Yngrid, Raquel, Pedro, Johnathan, Rafael e Ana Cristina. À Melanie e à Naiara, pela amizade que me deu fôlego nos momentos em que os estudos pesavam. Aos colegas do grupo de pesquisa En-Corpora pela acolhida e pelas reuniões em que compartilhávamos experiências e conhecimento, em especial à Carol, ao Luciano e ao José Victor pelo tempo dedicado a tirar minhas dúvidas por meio de encontros via Google Meet e por meio de mensagens, e à Silmara e à Jeane, pela parceria nos eventos acadêmicos. Aos alunos da disciplina Estratégias de Leitura em Língua Inglesa – Nível Básico de 2023, pela experiência e por toda a troca de conhecimentos, assim como às professoras-tutoras de 2024 pela contribuição dada por meio da participação de suas turmas na pesquisa. Aos meus alunos e aos colegas de jornada da escola pública, pela força para continuar atuando na área da educação como professora-pesquisadora. Aos professores do Programa de Pós-Graduação em Estudos Linguísticos (PPGEL), Edson Rosa, Marize Hattnher, Fabiana Komesu e demais professores da disciplina de Letramentos Acadêmicos-Científicos, Lília Santos Abreu-Tradelli, Solange Aranha, Talita Serpa, Adriane Orenha, Maurizio Babini e Celso Rocha pelas aulas e por todos os valiosos ensinamentos. À professora Sandra Mari Kaneko Marques pelas contribuições na apresentação de painel no Selin, em 2022, e ao professor Tony Berber Sardinha pelos apontamentos e orientações dadas no debate do Selin, em 2023. Ao Ibilce, por ter me proporcionado o ensino de excelência da universidade pública na graduação e na pós-graduação, por ter me levado a lugares que não imaginava alcançar e por ter me apresentado pessoas queridas e inesquecíveis. O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001, a qual sou grata. “Nos olhos da ciência que desvenda a alegoria Soam os tambores em anúncio à boa nova Impávido diante do que não se conhecia Avança no sendeiro o homem forte a cada prova E quando sofre a alma nessa casa de argila Há num mergulho de olho aberto a mão amiga que conduz Do cosmonauta que avisou: Cada um carrega a sua cruz” (Black Alien; Forfun, 2011) RESUMO Diante do atual cenário de internacionalização das universidades (Pinto et al, 2021), que tem evidenciado a importância da compreensão escrita em Língua Inglesa (LI) (Heemann, 2009; Tomitch, 2009), este estudo teve como objetivo desenvolver atividades de leitura dirigidas por dados, com base nos trabalhos da Linguística de Corpus (LC) e da abordagem Aprendizagem Direcionada por Dados, Data Driven Learning (DDL), para alunos de níveis A1 e A2 em contexto de ensino de Inglês Para Fins Acadêmicos (IFA) (Pinto et al, 2023; 2021; Mark; O’Keeffe, 2022; O’Boyle; Viana, 2022; Anthony, 2018; Boulton; Cobb, 2017; Tagnin; Viana, 2011; Berber Sardinha, 2011; 2005; 2004; Biber, 2009; Sinclair, 2005; 1991; Johns, 1988). Os participantes da pesquisa são 68 alunos dos Programas de Pós-Graduação da Universidade Estadual Paulista (Unesp), que se matricularam na disciplina on-line “Estratégias de Leitura em Língua Inglesa – Nível Básico”. A elaboração do material didático se deu a partir do levantamento das palavras-chave de um corpus de artigos científicos produzidos por autores que abordam os Objetivos de Desenvolvimento Sustentável (ODS) da Organização das Nações Unidas (ONU), estabelecidos e firmados na Agenda 2030. Por estarem em trabalhos de pesquisadores internacionais de diversas áreas, as palavras-chave dos ODS podem ser entendidas como termos multipalavras recorrentes no vocabulário acadêmico, o que as torna relevantes para aprendizes de inglês com fins específicos. O corpus de estudo, o SDG-Plos (Pinto et al, no prelo), contém 400 artigos publicados na revista PLOS-ONE entre os anos de 2011 e 2021 nas áreas de ciência e medicina. As palavras-chave foram extraídas da lista de termos multipalavras gerada pela ferramenta Keywords do software Sketch Engine (Kilgarriff et al, 2014), que guiou a extração dos textos a serem usados no desenvolvimento de atividades hands on e hands off com auxílio das ferramentas CorpusMate (Baisa; Crosthwaite, 2023), Skell (Baisa; Suchomel, 2014) e VersaText (Thomas, 2020). As atividades foram aplicadas para as turmas do segundo semestre de 2023 e do primeiro semestre de 2024, e avaliadas, com relação ao uso das ferramentas e da temática dos textos lidos, na percepção dos alunos, por meio de um questionário. Os resultados apontam como a DDL pode ser utilizada para beneficiar aprendizes de nível básico, desde que sejam feitas as adaptações necessárias, como os ODS podem atuar como recurso didático multidisciplinar em contexto de IFA e como materiais baseados em corpora podem ser replicados por professores de línguas não especialistas em LC. Palavras–chave: Linguística de corpus. Data driven learning. Termos multipalavras. Estratégias de leitura. Objetivos de desenvolvimento sustentável. ABSTRACT Given the current scenario of university internationalization (Pinto et al, 2021), which has highlighted the importance of reading comprehension in English (Heemann, 2009; Tomitch, 2009), this study aimed to develop corpus-driven reading activities for A1 and A2 level students in the context of English for Academic Purposes (EAP) based on the works of Corpus Linguistics (CL) and the Data Driven Learning (DDL) approach (Pinto et al, 2023; 2021; Mark; O’Keeffe, 2022; O’Boyle; Viana, 2022; Anthony, 2018; Boulton; Cobb, 2017; Tagnin; Viana, 2011; Berber Sardinha, 2011; 2005; 2004; Biber, 2009; Sinclair, 2005; 1991; Johns, 1988). The research participants are 68 students from the Graduate Programs of São Paulo State University (Unesp), who enrolled in the online elective course "Reading Strategies in English – Basic Level”. The activities were developed based on the keywords extracted from a corpus of scientific articles authored by researchers addressing the United Nations' Sustainable Development Goals (SDGs), as established in the 2030 Agenda. Since these keywords appear in the works of international researchers from various fields, they can be understood as recurrent multi-word terms in academic vocabulary, making them relevant for learners of English for Specific Purposes. The study corpus, SDG-Plos (Pinto et al, in press), contains 400 articles published in the PLOS ONE journal between 2011 and 2021 in the fields of science and medicine. The keywords were extracted from the list of multi-word terms generated by the Keywords tool of the Sketch Engine software (Kilgarriff et al, 2014), which guided the extraction of texts to be used in developing hands-on and hands-off activities with the help of the tools CorpusMate (Baisa; Crosthwaite, 2023), Skell (Baisa; Suchomel, 2014), and VersaText (Thomas, 2020). The activities were implemented in the classes of the second semester of 2023 and the first semester of 2024 and evaluated, regarding the use of the tools and the themes of the texts read, from the students' perspectives through a questionnaire. The results indicate how DDL can be beneficial for basic-level learners provided the necessary adaptations, how the SDGs can act as a multidisciplinary teaching resource in the EAP context, and how corpora-based materials can be replicated by language teachers who are not specialists in LC. Keywords: Corpus linguistics. Data driven learning. Multiword terms. Reading strategies. Sustainable development goals. LISTA DE ILUSTRAÇÕES Figura 1 – Resultados do Programa de Língua Inglesa da Unesp (PLIU) promovido pela parceria Unesp-Santander...............................................................................................25 Figura 2 – Número de Exames TOEFL aplicados na Unesp entre 2017 e 2019............26 Figura 3 – Os 17 objetivos da Agenda 2030..................................................................29 Figura 4 – Procedimento de palavras-chave...................................................................37 Figura 5 – Estágios metodológicos para aulas de CE.....................................................46 Figura 6 – Quadro de autoavaliação do Quadro Comum Europeu de Referência para Línguas – Habilidade de Compreensão..........................................................................48 Figura 7 – Modelo de aquisição, complexidade e formulaicidade para design de DDL................................................................................................................................50 Figura 8 – O AntCorGen.................................................................................................55 Figura 9 – O Sketch Engine.............................................................................................56 Figura 10 – Ferramenta Keywords..................................................................................60 Figura 11 – Palavras-chave da lista Multi-Word Terms...................................................61 Figura 12 – Cronograma do curso...................................................................................65 Figura 13 – Como usar o VersaText para leitura..............................................................68 Figura 14 – O CorpusMate.............................................................................................69 Figura 15 – O Skell..........................................................................................................70 Figura 16 – O VersaText.................................................................................................71 Figura 17 – Estágios de elaboração das atividades..........................................................72 Figura 18 – Exercício 1 da seção pre-reading da atividade 2..........................................74 Figura 19 – Exercícios 2 e 3 da seção pre-reading da atividade 2...................................75 Figura 20 – Exercício 4 da seção pre-reading da atividade 2........................................75 Figura 21 – Recurso Distribution by topic da ferramenta CorpusMate..........................76 Figura 22 – Exercício 5 da seção pre-reading da atividade 2.........................................77 Figura 23 – Momento Reading da atividade 2................................................................77 Figura 24 – Exercício 1 da seção post-reading da atividade 2.......................................78 Figura 25 – Exercício 2 da seção post-reading da atividade 2........................................79 Figura 26 – Exercícios 3 e 4 da seção pre-reading da atividade 2.................................79 Figura 27 – Exercício 3 da seção pre-reading da atividade 3.........................................80 Figura 28 – Exercício 5 da seção post-reading da atividade 4........................................81 Figura 29 – Final Survey.................................................................................................82 Figura 30 – Final Survey - 2024......................................................................................84 Figura 31 – Linhas de concordância com ecosystem service geradas pelo Concordance no Sketch Engine............................................................................................................98 Figura 32- Exercício 1 da atividade elaborada com o termo multipalavra ecosystem service............................................................................................................................99 Gráfico 1 – Respostas dadas na questão 1 do Final Survey (Turma 3)...........................102 Gráfico 2 – Respostas dadas na questão 2 do Final Survey (Turma 3)...........................102 Gráfico 3 – Respostas dadas na questão 3 do Final Survey (Turma 3)..........................103 Gráfico 4 – Respostas dadas na questão 4 do Final Survey (Turma 3)...........................103 Gráfico 5 – Respostas dadas na questão 1 do Final Survey (Turma 4)...........................106 Gráfico 6 – Respostas dadas na questão 2 do Final Survey (Turma 4)...........................106 Gráfico 7 – Respostas dadas na questão 3 do Final Survey (Turma 4)...........................107 Gráfico 8 – Respostas dadas na questão 4 do Final Survey (Turma 4)...........................107 Gráfico 9 – Respostas à pergunta 1 do Final Survey – 2024........................................112 Gráfico 10 – Respostas à pergunta 2 do Final Survey – 2024........................................112 Gráfico 11 – Respostas à pergunta 4 do Final Survey – 2024......................................114 Gráfico 12 – Respostas à pergunta 5 do Final Survey – 2024......................................115 Gráfico 13 – Respostas à pergunta 6 do Final Survey – 2024.......................................116 Gráfico 14 – Respostas à pergunta 7 do Final Survey – 2024.......................................117 Gráfico 15 – Respostas à pergunta 9 do Final Survey – 2024........................................118 Gráfico 16 – Respostas à pergunta 10 do Final Survey – 2024....................................119 Quadro 1 – Níveis de Proficiência do Quadro Comum Europeu de Referência para Línguas...........................................................................................................................27 Quadro 2 – Critério obrigatórios para atividades com base em corpora.........................52 Quadro 3 – Características do corpus utilizado na pesquisa...........................................58 Quadro 4 – Palavras-chave selecionadas........................................................................62 Quadro 5 – Relação das palavras-chave e dos conteúdos referentes a cada atividade.....73 Quadro 6 – Dados da pergunta 2 do Needs Analysis – Turmas 3 e 4 de 2023................87 Quadro 7 – Dados acadêmico-profissionais dos alunos da Turma 3..............................88 Quadro 8 – Dados acadêmico-profissionais dos alunos da Turma 4..............................90 Quadro 9 – Dados da pergunta 4 do Needs Analysis – Turmas 3 e 4 de 2023..................92 Quadro 10 – Dados da pergunta 7 do Needs Analysis – Turmas 3 e 4 de 2023................93 Quadro 11 – Dados da pergunta 8 do Needs Analysis – Turmas 3 e 4 de 2023..............94 Quadro 12 – Frequências relativas dos termos multipalavras selecionados...................96 Quadro 13 – Relação entre as ferramentas de corpora voltadas ao ensino e seu emprego nas atividades...............................................................................................................120 LISTA DE TABELAS Tabela 1 – Infomações do corpus de referência enTenTen21.....................................57 Tabela 2 – Itens e Formas do corpus SDG-Plos..........................................................58 LISTA DE ABREVIATURAS E SIGLAS ASL Aquisição de Segunda Língua BraVE Brazilian Virtual Exchange CsF Ciências sem Fronteiras CLDP Centro de Línguas e Desenvolvimento de Professores DDL Data Driven Learning EAP English for Academic Purposes EGAP English for General Academic Purposes ELF English as a Lingua Franca ESAP English for Specific Academic Purposes ESP English for Specific Purposes EST English for Science and Technology IELTS International English Language Testing System IES Instituição de Ensino Superior IFA Inglês para Fins Acadêmicos IFAG Inglês para Fins Acadêmicos Gerais IFE Inglês para Fins Específicos IFAE Inglês para Fins Acadêmicos Específicos IFG Inglês para Fins Gerais ILF Inglês como Língua Franca ILI Inglês como Língua Internacional IsF Idioma sem Fronteiras LA Linguística Aplicada LE Língua Estrangeira LI Língua Inglesa LinFE Línguas para Fins Específicos LC Linguística de Corpus MEC Ministério da Educação e Cultura ODS Objetivos de Desenvolvimento Sustentável ONU Organização das Nações Unidas PLEU Programa de Línguas Estrangeiras da Unesp PLIU Programa de Língua Inglesa da Unesp PPG Programa de Pós-Graduação PROPG Pró-Reitoria de Pós-Graduação QCER Quadro Comum Europeu de Referência para Línguas SLA Second Language Aquisition TOEFL Test of English as a Foreign Language UB Usage-Based Unesp Universidade Estadual Paulista SUMÁRIO 1 INTRODUÇÃO ................................................................................................................... 17 2 FUNDAMENTAÇÃO TEÓRICA ...................................................................................... 21 2.1 Globalização e Internacionalização: impactos no ensino de Língua Inglesa .............. 21 2.2 O ensino de Língua Inglesa e os Objetivos de Desenvolvimento Sustentável ............. 26 2.3 O Inglês para Fins Específicos e o Inglês para Fins Acadêmicos ................................. 31 2.4 A Linguística de Corpus e suas contribuições para o ensino de Língua Estrangeira . 34 2.4.1 Data Driven Learning ................................................................................................. 40 2.5 O processo de leitura e a habilidade de compreensão escrita ...................................... 43 2.5.1 Materiais didáticos baseados em corpora: foco na compreensão escrita no nível básico .................................................................................................................................... 49 3 MATERIAIS E MÉTODO ................................................................................................. 54 3.1 Extração dos dados ........................................................................................................... 54 3.1.1 O AntCorGen ............................................................................................................... 54 3.1.2 O Sketch Engine........................................................................................................... 55 3.1.3 O corpus SDG-Plos ..................................................................................................... 57 3.1.4 O levantamento das palavras-chave do corpus............................................................ 59 3.2 Aplicação pedagógica ....................................................................................................... 63 3.2.1 O contexto de aplicação das atividades ....................................................................... 63 3.2.2 As ferramentas de corpora voltadas ao ensino: CorpusMate, Skell e VersaText ........ 68 3.2.3 A elaboração das atividades de leitura direcionadas por dados................................... 71 3.2.4 Os questionários aplicados ao final do curso .............................................................. 82 4 ANÁLISE DOS DADOS ..................................................................................................... 86 4.1 Dados do questionário Needs Analysis aplicado em 2023 ............................................. 86 4.2 As palavras-chave do corpus SDG-Plos entendidas como termos multipalavras dos ODS .......................................................................................................................................... 95 4.3 Os princípios e os critérios que embasam a elaboração das atividades ..................... 100 4.4 A percepção dos alunos acerca das atividades ............................................................. 101 4.4.1 Dados do Final Survey: Turma 3 ............................................................................... 102 4.4.2 Dados do Final Survey: Turma 4 ............................................................................... 105 4.4.3 Dados do Final Survey – 2024 .................................................................................. 111 4.5 A aplicabilidade das atividades ..................................................................................... 121 5 CONSIDERAÇÕES FINAIS E ENCAMINHAMENTOS ............................................ 123 REFERÊNCIAS ................................................................................................................... 127 APÊNDICES ......................................................................................................................... 133 APÊNDICE A – Atividade elaborada a partir do termo multipalavra protected area .. 134 APÊNDICE B – Atividade elaborada a partir do termo multipalavra waterbird habitat ................................................................................................................................................ 138 APÊNDICE C – Atividade elaborada a partir do termo multipalavra ocean health .... 142 APÊNDICE D – Atividade elaborada a partir do termo multipalavra human well-being ................................................................................................................................................ 147 APÊNDICE E – Atividade elaborada a partir do termo multipalavra ecosystem service ................................................................................................................................................ 151 17 1 INTRODUÇÃO A Língua Inglesa (doravante LI) passou a ser considerada indispensável para o sucesso acadêmico de graduandos, pós-graduandos e demais pesquisadores (Hyland, 2018). O status de língua global que o inglês possui influencia diversos setores da sociedade, já que se impõe como a língua de intercâmbio econômico, político e cultural entre os países, fator que motiva o oferecimento de cursos de curta duração com propósitos específicos e acadêmicos nas universidades brasileiras. Compreendido sob a perspectiva dos pressupostos teóricos e metodológicos das abordagens de Línguas Para Fins Específicos (LinFE), o ensino de línguas caracteriza-se por colocar as necessidades específicas dos alunos no centro da aprendizagem. A abordagem English for Specific Purposes (ESP), ou Inglês Para Fins Específicos (IFE), baseia-se no ensino de habilidades, gêneros e aspectos da língua dos quais os alunos mais necessitam, com o intuito de desenvolver capacidades linguísticas específicas para a comunicação em diversas atividades, sejam elas acadêmicas ou profissionais (Heemann, 2009). No contexto acadêmico, com base no aporte teórico do English for Academic Purposes (EAP), ou Inglês Para Fins Acadêmicos (IFA), uma ramificação do ESP (O’Boyle; Viana, 2022), dá-se ênfase para as habilidades comunicativas próprias das atividades realizadas no âmbito universitário, nos cursos de graduação e pós-graduação. Na Unesp, foram oferecidos cursos de LinFE no âmbito do programa Ciências sem Fronteiras (CsF), que acabaram tendo continuidade por meio do Programa Idiomas sem Fronteiras (IsF) e, posteriormente, com a extinção de ambos os programas, por meio do Programa de Língua Inglesa da Unesp (PLIU), parceria público-privada que se deu com o Convênio UNESP-Santander (Pinto et al, 2021; Baffi-Bonvino; Kaneko-Marques, 2020). Diante do cenário de crescente incentivo à internacionalização das instituições de ensino superior, em 2018 a Unesp “[...] elaborou seu Plano Estratégico de Internacionalização para todos os setores da universidade com objetivo de desenvolver talentos globais, de pesquisa e de parcerias com instituições internacionais” (Pinto et al, 2021, p. 5621). A internacionalização das universidades depende do nível de proficiência linguística de sua comunidade, uma vez que as instituições que oferecem oportunidades de intercâmbio e mobilidade têm como língua franca o inglês (Baffi-Bonvino; Kaneko-Marques, 2020). Dada a necessidade de desenvolver a proficiência de graduandos, pós-graduandos e do quadro de funcionários, a Unesp passou a investir no mapeamento da proficiência em LI e a 18 oferecer diversos cursos para a aprendizagem do idioma com fins acadêmicos. Conforme Pinto et al (2021, p. 5624): a universidade passou a investir em ações que pudessem aumentar o nível de proficiência em língua inglesa em todos os seus setores, seja de alunos de graduação e pós, docentes e pesquisadores quanto de técnicos- administrativos. Para tanto, contou com a especialidade de docentes- pesquisadores dos três cursos de graduação e pós-graduação em Letras e Linguística para observarem mais atentamente as necessidades de cada setor. O curso Estratégias de Leitura em Língua Inglesa – Nível Básico, contexto em que se insere os participantes da presente pesquisa, ocorreu no âmbito do PLIU e, em 2020, teve como público-alvo 200 graduandos dos diversos campi da Unesp (Santos; Pinto, 2022). Em 2023 e 2024, o curso aconteceu no formato de disciplina optativa on-line (com aulas síncronas e assíncronas) para os alunos da pós-graduação de todos os campi, compondo o Portfólio de Integração de Disciplinas da Pós-Graduação da Unesp (PROPG), conjunto de disciplinas instrumentais, transversais e específicas voltadas para o corpo discente da instituição, no formato de ensino híbrido, com o objetivo de gerar a integração entre os Programas de Pós- Graduação1 (PPGs) (Unesp, 2023). A leitura de textos em inglês é considerada imprescindível para alunos dos cursos de nível superior, ainda que as outras habilidades linguísticas como compreensão oral, escrita e fala também sejam importantes. Por essa razão, esta pesquisa visa desenvolver atividades didáticas movidas por corpus, com base na abordagem Data Driven Learning (DDL), voltadas para a compreensão escrita em LI de alunos do curso Estratégias de Leitura em Língua Inglesa - Nível Básico, da Unesp. Conforme Nesi (2016), a união entre a Linguística de Corpus (LC) e o IFA tornou-se comum uma vez que os corpora podem fornecer informações quantitativas sobre o discurso acadêmico, embasando informações qualitativas, além de possibilitarem oportunidades de aprendizagem baseadas em dados provindos do uso real da língua. A associação entre a DDL e o IFA é reconhecida em razão do fato de o caráter exploratório de atividades baseadas em corpora render bons frutos com aprendizes de níveis intermediários e avançados (Boulton; Cobb, 2017), mas o desempenho de alunos de níveis básicos por meio da DDL ainda é algo a se investigar (Mark; O’Keffe, 2022). 1 Disponível em: https://www2.unesp.br/portal#!/propg/disciplinas-portfolio. https://www2.unesp.br/portal#!/propg/disciplinas-portfolio 19 Da relação entre a LC e o ensino de línguas, surgem possibilidades de pesquisas como esta, que se configura como um dos desdobramentos do projeto “The United Nations Sustainable Development Goals (SDG) in the Brazilian research: a corpus-based approach to support research-paper writing and translation” coordenado por Pinto (2021; 2024), que tem como objetivo desenvolver materiais direcionados e baseados em corpora para o alunado de contexto acadêmico por meio da exploração de corpora especializados com foco nos objetivos da Agenda 2030. O projeto visa apoiar o processo de internacionalização das universidades por meio do desenvolvimento da proficiência linguística de graduandos e pós-graduandos com o apoio do ensino baseado e dirigido por corpora (Pinto, 2024). O corpus de estudo utilizado neste trabalho é constituído por artigos científicos de pesquisadores internacionais que abordaram os Objetivos de Desenvolvimento Sustentável (ODS) da Organização das Nações Unidas (ONU) em suas pesquisas. Tendo servido como guia internacional para ações da sociedade civil, a Agenda 2030, documento em que estão inscritos os 17 objetivos, vem sendo seguida também por muitos pesquisadores, que têm abordado em seus trabalhos assuntos que remetem aos ODS, o que faz com que utilizem expressões recorrentes dentro de determinadas áreas de especialidade. O Plano Estratégico de internacionalização da Unesp está alinhado às demandas do mundo globalizado, que toma estudantes e pesquisadores como “cidadãos globais”, conceito que está “baseado no princípio de que todos os cidadãos do planeta têm os mesmos direitos e responsabilidades, um dos pilares para a construção dos Objetivos de Desenvolvimento Sustentável (ODS) da Agenda 2030 da ONU” (Unesp, 2023). A associação do ensino aos objetivos da ONU pode ser entendida como uma das ações para internacionalização tomadas pela universidade, o que aproxima as pesquisas desenvolvidas nos PPGs aos temas abordados pela Agenda 2030. Isso posto, é possível afirmar que os ODS são conhecidos pelos graduandos e pós- graduandos da instituição e que fazem parte do trabalho por eles realizado. Esses objetivos seriam, então, uma possível porta de entrada para o ensino-aprendizagem da LI para alunos/pesquisadores de diferentes áreas, que necessitam do inglês com propósitos específicos. Esta pesquisa tem como objetivo geral elaborar atividades de leitura movidas por corpus com a temática dos ODS para estudantes de nível superior que apresentem nível básico de proficiência em LI, como mencionado, assim como avaliar sua aplicabilidade em contexto de um curso de IFA de uma universidade multicampi, a Unesp. São objetivos específicos: 20 i. levantar as palavras-chave do corpus; ii. desenvolver atividades de leitura em LI por meio das ferramentas CorpusMate (Baisa; Crosthwaite, 2023), Skell (Baisa; Suchomel, 2014) e VersaText (Thomas, 2020), e; iii. investigar a aplicabilidade das atividades desenvolvidas, com relação ao uso das ferramentas educacionais de corpus empregadas e aos temas dos ODS, por meio da análise de um questionário a ser respondido pelos alunos. Diante do contexto de pesquisa apresentado e de nossos objetivos, foram feitas as seguintes perguntas para nortear este estudo: 1. Quais itens lexicais podem servir para o desenvolvimento de atividades didáticas voltadas para a compreensão escrita? 2. De que modo os ODS podem ser associados ao ensino de inglês em contexto acadêmico? 3. Em que medida atividades didáticas direcionadas por dados podem influenciar a aprendizagem de leitura em LI de estudantes de nível básico? Esta pesquisa se caracteriza como quali-quantitativa, uma vez que os procedimentos de coleta e análise de dados se deram a partir da investigação de base empirista dos itens lexicais de um corpus e da avaliação de atividades didáticas por meio da interpretação de questionários voltados a estudantes. Nas seções a seguir, serão apresentadas as bases teóricas das quais a pesquisa se vale, as ferramentas de corpus utilizadas para o trabalho, o contexto de aplicação em que os participantes estavam inseridos e em que as atividades foram aplicadas e os resultados encontrados. 21 2 FUNDAMENTAÇÃO TEÓRICA A seguir, são apresentados os pressupostos teóricos que embasam a presente pesquisa. São discutidos o fenômeno da globalização e da internacionalização das universidades, a associação entre o ensino de LI e os ODS, a importância da abordagem Inglês Para Fins Específicos (IFE) e Inglês Para Fins Acadêmicos (IFA), as contribuições teórico-metodológicas da Linguística de Corpus (LC) para ensino de Língua Estrangeira (LE) e da abordagem Aprendizagem Direcionada por Dados, Data Driven Learning (DDL), as definições de leitura conforme os modelos ascendente, descendente e interativo e a adotada no estudo, bem como a importância de um corpus sobre os ODS. 2.1 Globalização e Internacionalização: impactos no ensino de Língua Inglesa Entendida como o processo que “implica o livre fluxo de bens e serviços, e aliada à tecnologia e ao rápido fluxo de informação entre fronteiras que vão gradativamente desaparecendo, pode resultar numa sociedade mundial integrada” (Finardi; Porcino, 2014, p. 241) a globalização estabelece uma língua de uso comum (Siqueira, 2011), o inglês, idioma historicamente relacionado ao imperialismo cultural, que antes se caracterizava pelo colonialismo britânico, mas que agora se apresenta sob a perspectiva da hegemonia norte- americana. Conforme Siqueira (2011), o inglês, quando passa a carregar o status de língua global, se sujeita às mudanças provindas das marcas de primeira língua dos falantes não-nativos, que se apropriam do idioma para integrar o mundo globalizado, para participar da vida acadêmico- científica, por exemplo. De acordo com Crystal (2003, p. 2, tradução nossa), “[...] se há uma consequência previsível de uma língua se tornar uma língua global, é que ninguém mais a possui. Ou melhor, todos que a aprendem passam a possuí-la”2. Crystal (2003, p. 3, tradução nossa) aborda o conceito de língua global e o define como uma língua que “desenvolve um papel especial que é reconhecido em todos os países”3, papel esse que é influenciado pelo poderio político, militar, econômico e cultural de determinado país cuja língua tenha alcançado o caráter mencionado (Crystal, 2003). Já Jenkins (2014, p. 2), ao analisar o ensino-aprendizagem de LI como uma das demandas da globalização e do contexto 2 No original: [...] if there is one predictable consequence of a language becoming a global language, it is that nobody owns it any more. Or rather, everyone who has learned it now owns it [...] (Crystal, 2003, p. 2) 3 No original: [...] it develops a special role that is recognized in every country. (Crystal, 2003, p. 3) 22 de internacionalização, aborda o Inglês como Língua Franca (ILF), ou English as a Lingua Franca (ELF), entendido como “o inglês quando usado como língua de contato entre pessoas que possuem idiomas diferentes como primeira língua (incluindo falantes nativos de inglês)”4. À medida que a globalização se intensifica e as relações econômicas, políticas e socias se estreitam, a corrida pela aprendizagem do inglês também ganha força. As Instituições de Ensino Superior (doravante IES) demonstram forte interesse em garantir que a LI seja amplamente difundida em suas unidades para que as parcerias com grandes centros de pesquisa ao redor do mundo sejam possíveis. Ao processo de inserção das IES ao contexto de compartilhamento e construção do saber científico a nível internacional dá-se o nome de internacionalização. Conforme Santos, et al (2021, p. 61), a internacionalização das IES é um passo na direção da busca pela construção de uma sociedade mais igualitária, em que os alunos possam ter melhores condições para compartilhamento de conhecimento científico com seus pares, independente da língua em que as trocas possam ser estabelecidas. A partir do momento em que a língua não se constitui em uma barreira de acesso ao conhecimento, todos podem interagir igualmente, defender suas pesquisas e conquistar novos espaços. É sabido que a língua já se manifesta como uma barreira ao acesso à informação, uma vez que a proficiência em LI representou e ainda representa um desafio para a internacionalização das IES brasileiras (Baffi-Bonvino; Kaneko-Marques, 2020; Santos et al, 2021; Pinto et al, 2021). Ao compreender o inglês como língua franca, Jenkins (2014) visa problematizar a forma como ele tem sido ensinado nas universidades, de modo a refletir sobre “o tipo de inglês que é requisitado e promovido no ES (Ensino Superior) global, e até que ponto reflete ou não reflete a composição da instituição, e, por sua vez os tipos de inglês usados quando o idioma atua como uma língua franca internacional [...]”5 (Jenkins, 2014, p. 2, tradução nossa). A autora revela uma preocupação com o que de fato as instituições de ensino superior internacionais têm tomado como língua franca: o inglês de falantes nativos ou de falantes não-nativos, visto que a aprendizagem de inglês como língua franca é reflexo de uma necessidade imposta aos falantes 4 No original: [...] English when it is used as a contact language between people from different first languages (including native English speakers). (Jenkins, 2014, p. 2) 5 No original: [...] the kind of English that is required and promoted in global HE, and the extent to which it does/does not reflect the diversity of the institution’s composition and, in turn, the kinds of English used when the language performs an international lingua franca [...] (Jenkins, 2014, p. 2) 23 do segundo grupo, fator que influencia sua integração a determinados espaços considerados privilegiados. Ao se pensar o ensino de ILF ou mesmo como língua internacional (ILI), segundo Siqueira (2011, p. 347), “o que importa [...] são as mútuas acomodações para promover inteligibilidade, condição que garante ao falante de ILF certa vantagem que, necessariamente, não é a mais internacionalmente inteligível”. Nessa perspectiva, o ensino de LI se dá a partir de políticas pedagógicas que valorizem o caráter cultural da língua de quem a fala, ou seja, de um currículo internacionalizado, que, para Baffi-Bonvino e Kaneko-Marques (2020, p. 514) “[...] prevê o atendimento de alunos locais e estrangeiros de forma a prepará-los para atuarem em contextos multiculturais e internacionais”. Como afirmam Santos et al (2021, p. 59), Ao trabalharmos com a internacionalização e o ensino de línguas, devemos estar atentos a esses processos transculturais, de modo que nosso(a) aluno(a) seja capaz não apenas de interagir na língua alvo, como também de se posicionar criticamente e de perceber o papel do outro e dos espaços conquistados. Fica clara a importância do ensino de forma crítica e atenta às relações de poder implícitas ao processo de aprendizagem de uma língua internacional. A internacionalização se dá por meio de políticas asseguradoras do desenvolvimento de atividades diversificadas a partir de determinadas estratégias tomadas em âmbito institucional voltadas para a mobilidade de estudantes e professores, para a parceria em pesquisas e para publicação de resultados, por exemplo (Santos et al, 2021). Para as autoras, o programa IsF “pode ser um importante auxiliar no processo de internacionalização desenhado por cada IES” (Santos et al, 2021, p. 62) pois, por meio dele, as universidades podem incluir em seus currículos temas que contribuam para o desenvolvimento das habilidades esperadas entre os membros da comunidade acadêmica que estão envoltos em programas de internacionalização, e esses temas podem estar disseminados nas ações propostas pelo programa. (Santos et al, 2021, p. 63) O IsF surgiu a partir do Programa Ciências sem Fronteiras (CsF), criado em 2011 como uma iniciativa do Ministério da Educação (MEC), do Ministério da Ciência, Tecnologia e Inovação (MCTI) e de instituições de fomento a pesquisa como o CNPq e a CAPES para “[...] acompanhar os avanços na produção de conhecimento com a globalização e 24 internacionalização, tendo em vista o investimento em áreas de ciências exatas, biológicas e tecnológicas (Hard Sciences)” (Garcia; Kaneko-Marques, 2019, p. 243). Segundo Garcia e Kaneko-Marques (2019, p. 244), em relação às IES globais, “muitas instituições e centros em países de língua inglesa não recebiam o número esperado de candidaturas de alunos brasileiros” e muitos estudantes não tinham acesso a testes de proficiência. O CsF representou a consolidação da internacionalização das IES brasileiras e tinha como um de seus objetivos ampliar as oportunidades de acesso a cursos de ensino de LE, pricipalmente o inglês, além de divulgar e oferecer, por meio dos centros de línguas das universidades, os testes niveladores de proficiência mundialmente reconhecidos (Gracia; Kaneko-Marques, 2019). O IsF surgiu em 2012 a partir da criação de centros de aplicação do teste TOFL-ITP (Test of English as a Foreign Language - Institutional Testing Program) e do oferecimento de cursos de outras LEs além do inglês, como espanhol, francês, italiano, alemão, japonês e português para estrangeiros, de forma presencial e on-line, por meio do My English Online (Garcia; Kaneko-Marques, 2019). Conforme as autoras, O IsF tornou-se uma importante iniciativa para auxiliar o processo de internacionalização e contribuir para o desenvolvimento de uma política linguística nas universidades brasileiras, uma vez que visa promover a residência docente para os profissionais do ensino de línguas estrangeiras, a capacitação da comunidade universitária em línguas estrangeiras, bem como o ensino de língua portuguesa para estrangeiros. (Garcia; Kaneko-Marques, 2019, p. 244-245). Tanto o CsF como o IsF foram interrompidos pelo Ministério da Educação e Cultura (MEC), o primeiro tendo perdurado entre o período de 2011 a 2016 e o segundo de 2012 a 2019. O IsF oportunizou a aprendizagem de um segundo idioma para muitos brasileiros e representa um marco das ações em prol da internacionalização das IES no Brasil. Conforme Pinto et al (2021, p. 5620), “Diante da grandiosidade do Programa, é importante destacar que esta rede contemplou parcerias nacionais e internacionais que vislumbraram uma visão eficiente e especializada acerca do processo de ensinar e aprender línguas estrangeiras”. Além desses programas, uma parceria público-privada surgiu em 2017 entre a Unesp e o banco Santander para promover cursos de inglês com fins específicos e acadêmicos, voltados para a melhoria da proficiência em inglês da comunidade acadêmica, o Programa de Língua Inglesa da Unesp: internacionalização, formação e transversalidade (PLIU) (Unesp, 2021). De 25 acordo com a Unesp (2021), “O programa partiu do Plano de Internacionalização da Unesp e do mapeamento da proficiência em língua inglesa da comunidade unespiana para a implementação de ações transversais apoiadas em sua Política Linguística de Internacionalização” e garantiu oito ações desenvolvidas na universidade: Figura 1 - Resultados do Programa de Língua Inglesa da Unesp (PLIU) promovido pela parceria Unesp-Santander Fonte: Captura de tela do site da Unesp (Unesp, 2021)6. O Estratégias de Leitura em Língua Inglesa – Nível Básico é resultado dessas ações implementadas na Unesp. No ano de 2020, o curso teve 200 alunos matriculados e 179 concluintes (Santos; Pinto, 2022). Atualmente, o PLIU se denomina Programa de Línguas Estrangeiras da Unesp (PLEU), pois contempla outras línguas além do inglês. No âmbito do PLEU, outras iniciativas voltadas para o aprimoramento da proficiência linguística com vistas à promoção da internacionalização acontecem na instituição, tais como o oferecimento de curso de escrita acadêmica, de Inglês para Fins Ocupacionais por meio do Centro de Línguas e Desenvolvimento de Professores (CLDP) e de intercâmbio virtual por meio do Teletandem e do Brazilian Virtual Exchange (BraVE) (Unesp, 2020), programas de aprendizagem on-line colaborativa entre pelo menos dois aprendizes cujas línguas maternas (LM) sejam as línguas-alvo um do outro. Esta pesquisa tem como contexto de realização o atual cenário de ensino-aprendizagem de LI como língua internacional. Assim, se vale das teorias de ensino de línguas baseadas no 6 Disponível em: https://www.ibilce.unesp.br/#!/centro-de-linguas-1/idiomas-sem-fronteiras. 26 IFE e no IFA, no uso de TICs (Tecnologias de Informação e Comunicação) e TDICs (Tecnologias Digitais da Informação e Comunicação), e na Linguística de Corpus, área da linguística que contribui muito com o ensino de línguas, especialmente no campo acadêmico. 2.2 O ensino de Língua Inglesa e os Objetivos de Desenvolvimento Sustentável Programas de mobilidade e de parcerias internacionais requerem o conhecimento intermediário ou avançado da LI, conforme Pinto et al (2021, p. 5623), que afirmam que “[...] os níveis C1 e C2 são mais apropriados” para as avaliações de proficiência em Língua Estrangeira (LE), tais como as provas do International English Language Testing System (IELTS) e do Test of English as a Foreign Language (TOEFL). No entanto, os resultados de uma pesquisa feita pelo IsF revelou que entre os anos de 2017 e 2019 cerca de 40% dos graduandos dos campi da Unesp demonstraram os níveis de proficiência A1 e A2, referentes ao nível básico conforme o Quadro Comum Europeu de Referência para Línguas (QCER)7 (Pinto; et al, 2021), como é possível observar na imagem a seguir: Figura 2 - Número de exames TOEFL aplicados na Unesp entre 2017 e 2019 Fonte: Dados da plataforma IsF Gestão do Ministério apud Pinto et al, 2021, p. 5623. 7 Quadro Comum Europeu de Referência para Línguas (Common European Framework of References for Languages – CEFR): https://www.britishcouncil.org.br/quadro-comum-europeu-de-referencia-para-linguas-cefr. O QCER será apresentado e retomado no decorrer do trabalho. https://www.britishcouncil.org.br/quadro-comum-europeu-de-referencia-para-linguas-cefr 27 Conforme Pinto et al (2021), o gráfico apresentado na imagem indica a quantidade de exames do Toefl que foram aplicados na comunidade da Unesp entre 2017 e 2019 e revela o seu nível de proficiência em inglês: nos três anos em que houve aplicação da prova de TOEFL na UNESP, os resultados mostraram que a porcentagem de alunos com níveis básicos de proficiência em língua inglesa variou entre, aproximadamente, 35% a 41%, já a porcentagem de alunos nos níveis intermediários variou entre 22% e 55% e para o nível avançado, a porcentagem variou entre, aproximadamente, 3% e 9,20%. (Pinto et al, 2021, p. 5624) Ainda que os resultados da pesquisa indiquem os níveis de proficiência em LI de forma geral, ou seja, não foquem na proficiência das quatro habilidades (listening, speaking, writing, reading) isoladamente, direcionar a atenção para alunos iniciantes se mostra imprescindível dado que esse perfil de alunado pode não contar com um repertório de vocabulário amplo, fator que influencia em sua compreensão leitora (Baldo, 2009). A respeito das denominações para níveis básico, intermediário e avançado usadas pelo QCER, cabe informar o que indicam e qual sua importância no que se refere aos conhecimentos ligados às habilidades linguísticas. O QCER é definido como “[...] um padrão internacionalmente reconhecido para descrever a proficiência em um idioma” (British Council, 2023). Ele apresenta três níveis de proficiência, cada um com duas subdivisões: Quadro 1 - Níveis de Proficiência do Quadro Comum Europeu de Referência para Línguas Níveis de Proficiência conforme QCER Subdivisões Básico A1 A2 Intermediário B1 B2 Avançado C1 C2 Fonte: Elaborado com base em British Council (2023). Essa organização dos níveis de proficiência de línguas recebe o nome de escala global (British Council, 2023) e indica o que é esperado do falante/aprendiz que se encontra em cada uma das subdivisões. A escala global não avalia cada uma das habilidades linguísticas separadamente, mas traz algumas tarefas que são capazes de ser desempenhadas com maior ou 28 menor ênfase pelo estudante de cada nível. Como se sabe, os níveis intermediário e avançado são os requeridos pelos testes de proficiência aplicados nas universidades, pois indicam maiores capacidades e habilidades referentes ao uso das línguas em diferentes contextos de comunicação. As habilidades de fala e de escrita são muito importantes para aqueles que almejam participar de um programa de mobilidade, pois atividades como escrita de artigos científicos e de relatórios e apresentações orais em congressos internacionais são atividades comuns para os pesquisadores. Contudo, dado o nível de proficiência apresentado pela pesquisa do IsF, faz-se necessário voltar o olhar para os graduandos e pós-graduandos de nível básico que já vivenciam o contexto acadêmico e têm que lidar com as demandas necessárias à pesquisa no mundo atual. O curso Estratégias de Leitura em Língua Inglesa é o resultado dessa necessidade real do alunado da Unesp e o presente estudo visa contribuir com a aprendizagem desses estudantes. A pesquisa assume as abordagens IFA e DDL como abordagens de ensino ao direcionar o foco de análise para uma necessidade de uso real de uma habilidade específica, a leitura em LI, para um público específico determinado, estudantes de nível básico. Com relação ao uso de um corpus que tematize os ODS, pode-se afirmar que o fato de os objetivos da ONU abrangerem áreas diversas pode conferir aos textos em que são abordados vocabulário relevante para os estudantes do curso em que as atividades serão aplicadas, que também são de cursos de áreas diferentes entre si. Guia para a comunidade internacional e diretriz de ações para uma sociedade mais sustentável, a Agenda 2030 foi criada em 2015, em Nova Iorque, por representantes de 193 Estados-Membros da ONU, que juntos firmaram o compromisso de atingir 17 objetivos, até o ano de 2030, que promovam o desenvolvimento, a parceria entre os países e um futuro melhor para o planeta (United Nations, 2023). Esses objetivos são os chamados Objetivos de Desenvolvimento Sustentável (ODS), ou em inglês, Sustainable Development Goals (SDG). Conforme consta no documento, os ODS englobam ações para acabar com a pobreza, proteger o meio ambiente e o clima e garantir condições dignas de vida para todos os povos (United Nations, 2023). Os objetivos estabelecidos entre a ONU, o Brasil e outros países do mundo para o enfrentamento de vários problemas sociais são: 1. Erradicação da pobreza; 2. Fome zero e agricultura sustentável; 3. Saúde e bem-estar; 4. Educação de qualidade; 5. Igualdade de gênero; 6. Água potável e saneamento; 7. Energia limpa e acessível; 8. Trabalho decente e crescimento econômico; 9. Indústria, inovação e infraestrutura; 10. Redução das desigualdades; 11. Cidades e comunidades sustentáveis; 12. Consumo e produção sustentáveis; 29 13. Ação contra a mudança global do clima; 14. Vida na água; 15. Vida terrestre; 16. Paz, justiça e instituições eficazes; e 17. Parcerias e meios de implementação. A imagem a seguir ilustra os objetivos citados: Figura 3 - Os 17 objetivos da Agenda 2030 Fonte: United Nations (2023). De acordo com Pinto (et al, 2023, p. 2), “os Objetivos de Desenvolvimento Sustentável tornaram-se um aspecto central discutido por investigadores de diferentes países para encontrar soluções para as principais questões sociais, a nível local e global”8. Conforme os autores, as publicações científicas do período pós-pandemia de Covid-19 têm abordado os objetivos da ONU nas áreas de Saúde, Sociologia, Economia, Química, Matemática, Linguística e algumas outras (Pinto et al, 2023). Tratar, nas aulas, dos problemas e questões que tocam as sociedades atuais mostra-se de extrema importância, já que o uso da língua deve refletir a realidade dos falantes. A associação entre os ODS e o inglês com propósitos específicos e acadêmicos pode ser observada em materiais de ensino internacionalmente, como é o caso do British Council (2017), que publicou um livro organizado por Alan Maley e Nik Peachey com planos de aulas voltados para as quatro habilidades linguísticas e para alunos do nível iniciante ao avançado e que 8 No original: [...] the UN Sustainable Development Goals have become a central aspect discussed by researchers of different countries to find solutions for major social issues, in local and global levels [...]. (Pinto et al, 2023, p. 2) 30 tematizam os objetivos da Agenda 20309. Conforme Bolster e Livrai (2017, p. 195, tradução nossa), [...] encontrar tópicos que são relevantes e atraentes para estudantes de uma variedade de disciplinas pode ser uma tarefa difícil para professores e desenvolvedores de cursos. Os ODS prestam-se ao estudo multidisciplinar e pode ser abordado através das lentes de diferentes campos de estudo acadêmico, o que os torna uma excelente área de conteúdo para um curso de EAP, envolvendo os alunos intelectualmente, academicamente e emocionalmente.10 Para os autores, os objetivos da ONU são particularmente relevantes para alunos em contexto acadêmico devido a sua capacidade de integrar propostas de aulas para alunos de cursos variados. Além disso, as ações do Plano Estratégico de Internacionalização da Unesp buscam um alinhamento das atividades acadêmicas com os ODS (Pinto et al, 2021). Conforme consta no site oficial da universidade (Unesp, 2018), Os ODS irão contribuir para a internacionalização da UNESP em dois sentidos: o primeiro é a adesão da Universidade às preocupações que pautam uma agenda mundial, posicionando-a em consonância com a pesquisa e o ensino atualmente desenvolvidos em muitas das principais universidades de classe mundial. O segundo aspecto positivo da inserção dos ODS à internacionalização da UNESP é a reorganização dos atuais programas de pós-graduação da Universidade, que somando esforços entre si, cada um em sua expertise, facilitam o alinhamento da instituição a iniciativas análogas de instituições internacionais parceiras, para compartilhar ciência e tecnologia, gerar conhecimento e buscar soluções para os principais problemas globais. (Unesp, 2018) Os estudantes de pós-graduação já estão vivenciando o cenário de implementação do plano supracitado, logo, já leem textos que tratam dos ODS referentes aos seus trabalhos e às suas pesquisas. Sendo assim, é proveitoso utilizar artigos científicos, um dos gêneros mais lidos em contexto acadêmico, que associam os objetivos da ONU às áreas de especialidade dos alunos para o ensino e aprendizagem de compreensão escrita. Desta forma, estariam em contato com o vocabulário recorrente em suas respectivas áreas, desenvolveriam as estratégias de 9 Disponivel em: www.teachingenglish.org.uk/publications/resource-books/integrating-global-issues-creative- english-language-classroom. 10 No original: [...] finding topics that are relevant and appealing to students from a variety of disciplines can be a difficult task for course designers and teachers. The SDGs lend themselves to multidisciplinary study and can be approached through the lens of different fields of academic study, which makes them an excellent content area for an EAP course, engaging students intellectually, academically and emotionally. (Bolster; Livrai, 2017, p. 195) http://www.teachingenglish.org.uk/publications/resource-books/integrating-global-issues-creative-english-language-classroom http://www.teachingenglish.org.uk/publications/resource-books/integrating-global-issues-creative-english-language-classroom 31 leitura necessárias para o IFE e mobilizariam reflexões pertinentes a respeito de temas que estão no palco dos debates sociais. Tendo em vista a relevância dos ODS e da Agenda 2030 enquanto meios de viabilização da internacionalização na universidade além do desenvolvimento da proficiência em LI, apresentamos, na seção seguinte, a abordagem Inglês para Fins Acadêmicos, que embasa o ensino e o desenvolvimento de material didático em inglês para aprendizes em contexto acadêmico, perfil dos estudantes que participam da presente pesquisa. 2.3 O Inglês para Fins Específicos e o Inglês para Fins Acadêmicos Após o fim da Segunda Guerra Mundial, em 1945, o mundo vivenciou uma expansão sem precedentes na ciência, tecnologia e economia, o que gerou uma demanda por uma língua internacional que, devido ao poderio econômico dos Estados Unidos no pós-guerra, entre outros fatores, veio a ser o inglês (Hutchinson; Waters, 1987). De acordo com Hutchinson e Waters (1987, p. 6, tradução nossa), “o inglês se tornou a língua internacional da tecnologia e do comércio aceita, e isso criou uma nova geração de aprendizes que sabiam especificamente por que estavam aprendendo uma língua”11. Uma mudança no modo de pensar a linguagem e, consequentemente, no modo de ensinar línguas, também motivou o surgimento de uma nova uma abordagem, segundo Hutchinson e Waters (1987). A tradicional preocupação em descrever regras gramaticais de uso do inglês passa a dar lugar para uma nova perspectiva de análise: a investigação do modo como a língua era de fato usada na comunicação (Hutchinson; Waters, 1987), pois como afirmam os autores, “se a língua varia de uma situação de uso para outra, seria possível determinar as características de situações específicas e então torná-las a base do curso dos aprendizes”12 (Hutchinson; Waters 1987, p. 7, tradução nossa) Na década de 1960, professores de LE “viram a necessidade de ensinar a língua alvo para áreas especializadas; ou seja, inglês para Negócios, inglês para Medicina, inglês para Hotelaria, etc.” (Heemann, 2009, p. 139). Assim, na iminência de se pensar o ensino de inglês focado nas necessidades específicas dos aprendizes, são dadas as condições para a consolidação 11 No original: [...] English became the accepted international language of technology and commerce, it created a new generation of of learners who knew specifically why they were learning a language [...] (Hutchinson; Waters, 1987, p. 6) 12 No original: [...] if language varies from one situation of use to another, it should be possible to determine the features of specific situations and make these features the basis of the learners’ course. (Hutchinson; Waters, 1987, p. 7) 32 e o avanço da abordagem English for Specific Purposes (ESP), ou Inglês para Fins Específicos (IFE). O IFE tem sido reconhecido pela predominância das pesquisas em gêneros textuais, mas também pelo expressivo aumento das pesquisas baseadas em corpus, especialmente para a análise do discurso acadêmico em sua modalidade escrita (Johns, 2013). A LC proporcionou amostras reais do uso corrente da língua aos linguistas, que tiveram acesso aos padrões linguísticos comuns dos gêneros e puderam embasar com dados estatísticos as pesquisas a respeito das suas características prototípicas (Nesi, 2016), logo, “os estudos sobre gêneros textuais e a Linguística de Corpus [...] contribuem, sobremaneira, a essa modalidade de ensino” (Nadin, 2022, p. 103). No século XXI, a LC tem se aproximado cada vez mais das questões relacionadas ao ensino e aprendizagem de línguas, seja por meio das teorias/abordagens de ensino seja por meio da produção de material didático (Tagnin; Finatto; From, 2021). De acordo com Bocorny e Welp (2021, p. 1594-1595), Os estudos a partir de grande volume de dados (big data) com a utilização de ferramentas potentes de análise de corpora, conduzidos pelos princípios e pelas metodologias propostos pela Linguística de Corpus, possibilitam a extração de dados linguísticos que podem contribuir com o desenvolvimento de aplicações pedagógicas usadas no ensino de diferentes gêneros textuais. Isso posto, entende-se o papel fundamental da associação entre a LC e a Linguística Aplicada (LA) no que diz respeito ao ensino de línguas, especialmente no contexto acadêmico. A partir das ferramentas de corpora é possível investigar o discurso acadêmico de modo a promover uma conscientização dos aprendizes a respeito do modo como a língua é empregada na academia e, em especial, a LI. Assim, as tarefas baseadas e direcionadas por dados ganham destaque por serem pautadas no empirismo e não na memorização de regras. Como se vê, o IFE é uma das abordagens mais bem estabelecidas no ensino de LI (Anthony, 2018), que coloca as necessidades dos alunos no centro da aprendizagem (Hutchinson; Waters, 1987). Conforme Anthony (2018, p. 10-11, tradução nossa), Inglês para Fins Específicos (IFE) é uma abordagem de ensino de línguas que visa às necessidades acadêmicas ou ocupacionais atuais e/ou futuras dos alunos, concentra-se no idioma, nos gêneros e nas habilidades necessários para atender a essas necessidades e auxilia os alunos a atenderem a essas demandas 33 através do uso de materiais e métodos de ensino gerais e/ou específicos de disciplinas.13 Trata-se de uma abordagem que se vale da análise prévia de necessidades de aprendizagem, na análise de gêneros textuais, nos métodos comunicativos de ensino e no construtivismo (Hyland, 2022), diferenciando-se do Inglês para Fins Gerais (IFG), que está pautado no ensino das quatro habilidades linguísticas e na formação de falantes proficientes sem propósitos acadêmicos ou profissionais previamente definidos. Por dar ênfase às necessidades de aprendizes de contextos acadêmicos e profissionais variados, o IFE desdobrou-se em várias outras abordagens consideradas ramificações. O EAP, Inglês para Fins Acadêmicos (IFA), em português, é talvez a ramificação mais influente do IFE (Anthony, 2018). Segundo Viana e O’Boyle (2022, p. 2, tradução nossa), o IFA [...] refere-se ao aprendizado, ensino e pesquisa de práticas de linguagem e discurso em inglês que as pessoas usam para estudar e/ou trabalhar no ensino superior. Ele se baseia em uma variedade de áreas temáticas, como Linguística Aplicada, Educação e Linguística.14 De acordo com Hyland (2006), o IFA pode ainda ser dividido em mais duas ramificações, o English for General Academic Purposes (EGAP), ou Inglês para Fins Acadêmicos Gerais (IFAG), e o English for Specific Academic Purposes (ESAP), Inglês para Fins Acadêmicos Específicos (IFAE). O primeiro compreende o ensino focado em habilidades, conteúdos linguísticos e atividades comuns a todas as disciplinas de forma geral, enquanto o segundo compreende o ensino da língua e das habilidades relacionadas às demandas particulares de uma disciplina (Hyland, 2006). No Brasil, o IFE foi introduzido por meio do Projeto “Ensino de Inglês Instrumental em Universidades Brasileiras” a partir de 1970 na Pontifícia Universidade Católica (PUC-SP) sob a orientação e supervisão da Prof.ª Dr.ª Maria Antonieta Alba Celani (Celani et al, 2005). A denominação “Inglês Instrumental” se justificava pelo caráter funcional da língua: o de usá-la como instrumento para a execução de tarefas dentro de uma determinada área de especialidade. 13 No original: English for Specifi c Purposes (ESP) is an approach to language teaching that targets the current and/or future academic or occupational needs of learners, focuses on the necessary language, genres, and skills to address these needs, and assists learners in meeting these needs through the use of general and/or discipline- specifi c teaching materials and methods. (Anthony, 2018, p. 10-11) 14 No original: [...] refers to the learning, teaching and research of language and discourse practices in English that people use to study and/or work in higher education. It draws on a range of subject areas such as Applied Linguistics, Education and Linguistics. (Viana; O’Boyle, 2022, p. 2) 34 Conforme Celani (1983, p. 4), o inglês já era uma necessidade naquele momento para os estudantes brasileiros e a habilidade mais requerida era a leitura: “a necessidade de inglês, particularmente para a finalidade de leitura, é indiscutível, quer em relação a um curso determinado, quer para complementação dos estudos [...]”. Por ter chegado ao Brasil como uma disciplina com foco para a CE, o IFE acabou sendo associado ao ensino de leitura instrumental, no entanto, já é de amplo conhecimento que a abordagem visa ao ensino de quaisquer habilidades, desde que sejam elencadas como prioritárias a determinado grupo de aprendizes. Este estudo se vale da abordagem IFE, pois objetiva a elaboração de material didático baseado em corpus para o estudo de compreensão escrita, assim como se apoia no IFA e, mais especificamente no IFAG, por ter como participantes da pesquisa pós-graduandos de cursos diversificados que precisam da leitura em inglês com finalidades acadêmicas, sejam elas ter acesso a bibliografia publicada em LI ou realizar exames de proficiência em formato de prova escrita, entre outras. A seguir, são apresentadas as aplicações pedagógicas dos dados provindos de corpora no ensino de IFA, que fundamentam e norteiam as atividades propostas na pesquisa. 2.4 A Linguística de Corpus e suas contribuições para o ensino de Língua Estrangeira Conforme Berber Sardinha (2004, p. 3), a Linguística de Corpus (LC) é uma área da Linguística que se volta para a “exploração da linguagem por meio de evidências empíricas, extraídas por computador”. Trata-se de uma corrente linguística empirista que se opõe às teorias racionalistas da linguagem por priorizar a investigação de extensas amostras da língua em uso a partir da qual inúmeros trabalhos renomados na Linguística e no ensino de línguas surgiram, como o dicionário Cobuild, de Sinclair (1987), primeiro a ser compilado com base em corpus computadorizado (Berber Sardinha, 2004), e a Gramática da Língua Inglesa baseada em corpus, de Biber et al (1999). De acordo com Berber Sardinha (2004, p. 3), corpora são “conjuntos de dados linguísticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade linguística”. Por não se pautar em especulações a respeito da linguagem, mas sim na análise dos padrões efetivamente frequentes nas línguas por meio de ferramentas computacionais, a LC associada ao ensino possibilita o uso de corpora em sala de aula, que permite ao aluno entrar em contato com a língua em uso e criar maior consciência léxico-gramatical e autonomia na aprendizagem (Zanettin, 2009). 35 Assim, a LC contribui com o desenvolvimento deste trabalho por meio do fornecimento de materiais autênticos e representativos, organizados sob a forma de um corpus. Ainda conforme Berber Sardinha (2000, p. 338), “[...] o corpus deve ser composto de textos autênticos, em linguagem natural. Dessa forma, os textos não podem ter sido produzidos com o propósito de serem alvo de pesquisa linguística. E não podem ter sido criados em linguagem artificial [...]”. Corpora são construídos para o estudo da linguagem, então, seu conteúdo deve ser selecionado de modo a contribuir para o alcance dos propósitos de uma pesquisa (Sinclair, 2005). Em outras palavras, os textos selecionados para a compilação de um corpus devem ser representativos de determinada amostra da língua que se pretende investigar. Com relação à noção de representatividade de um corpus, Berber Sardinha (2004, p. 22) afirma que “Na sua essência, um corpus, seja de que tipo for, é tido como representativo da linguagem, de um idioma, ou de uma variedade dele” (Berber Sardinha, 2004, p. 22) e que a função representativa que carrega está associada à sua extensão, pois para a LC a linguagem é um sistema probabilístico em que “certos traços são mais frequentes que outros” (Berber Sardinha, 2004, p. 23). Desse modo, quanto maior o corpus, maior a probabilidade de ocorrência de palavras com as quais se pretende trabalhar. Para alcançar a representatividade, olha-se para a amostragem: importa conhecer a probabilidade de ocorrência de traços lexicais, estruturais, pragmáticos e discursivos (Berber Sardinha, 2004). Para Berber Sardinha (2004), a representatividade pode ser tomada como um ato de fé, ou seja, é uma responsabilidade designada ao linguista, que deve estabelecer critérios coerentes com seus objetivos na hora de construir um corpus. A depender dos objetivos de determinado estudo, alguns tipos de corpora podem ser compilados. Na presente pesquisa, fazemos o uso de um corpus acadêmico. Corpora desse tipo “são usados para informar nossa compreensão do discurso acadêmico, a partir de perspectivas lexicais, gramaticais, fraseológicas e de gênero”15 (Nesi, 2016, p. 211, tradução nossa). O corpus Bank of English, criado na Universidade de Birmingham para fornecer informações para o Collins Cobuild English Language Dictionary possui extensão suficiente para conter milhares de exemplos de itens lexicais mais frequentes, apesar disso, corpora como o mencionado não foram compilados para a exploração de características específicas de textos acadêmicos, por isso, tornou-se comum o uso de corpora pequenos “para revelar padrões de 15 No original: [...] are used to inform our understanding of academic discourse, from lexical, grammatical, phraseological, and genre perspectives. (Nesi, 2016, p. 211) 36 uso da linguagem acadêmica em uma ampla gama de gêneros”16 (Nesi, 2016, p. 207, tradução nossa). O corpus SDG-Plos (Pinto et al, no prelo), utilizado para este trabalho, é representativo da amostra da língua inglesa que objetivamos investigar na medida em que atende aos nossos objetivos de pesquisa: é uma compilação de textos acadêmicos (artigos científicos), escritos por pesquisadores internacionais que abordam os ODS em suas publicações. Conforme Nesi (2016, p. 207, tradução nossa), o uso de corpora constituídos por materiais de periódicos acadêmicos como artigos é recorrente “porque são fáceis de coletar em formato eletrônico e podem ser selecionados para representar domínios de pesquisa altamente específicos, e podem produzir resultados de grande relevância para determinados contextos de EAP”17. Descreveremos o corpus de estudo com mais detalhes na seção Materiais e Método, em que apresentamos a metodologia empregada. Os linguistas de corpus utilizam ferramentas computacionais “essencialmente quantitativas, realizando cálculos com base na frequência de itens lexicogramaticais especificados”18 (Nesi, 2016, p. 211, tradução nossa). Logo, no que tange ao léxico, pode-se falar em palavras de maior e de menor frequência, assim como em sentidos mais frequentes e menos frequentes dos itens lexicais. A partir de análises quantitativas, de acordo com Nesi (2016, p. 211, tradução nossa), “A contagem de frequência pode ser usada para gerar vários tipos de listas de palavras acadêmicas, desde simples discriminações de cada forma de palavra até comparações mais complexas dentro e entre corpora e listas de termos restritos a domínios específicos.” As ferramentas computacionais de LC ajudam os pesquisadores a acessarem listas de palavras, para observar sua frequência, e listas de palavras-chaves, para observar sua chavicidade, por exemplo. No presente estudo, damos destaque para o levantamento de palavras-chave devido ao seu caráter representativo do conteúdo de um corpus. De acordo com Berber Sardinha (2005, p. 238), as palavras-chave são “[...] aquelas cujas frequências são estatisticamente diferentes no corpus de estudo e no corpus de referência”. Segundo o linguista, a lista de palavras-chave é 16 No original: [...] have been used to reveal patterns of academic language use in a wide range of genres [...] (Nesi, 2016, p. 207) 17 No original: [...] because they are easy to collect in electronic form, can be selected to represent highly specific research domains, and can yield findings of great relevance to certain EAP contexts. (Nesi, 2016, p. 207) 18 No original: [...] the software tools they use are essentially quantitative, performing calculations based on the frequency of specified lexicogrammatical items. (Nesi, 2016, p. 211) 37 gerada a partir de uma comparação entre a lista de palavras do corpus de estudo e a lista de palavras do corpus de referência (Berber Sardinha, 2005). As palavras-chave podem ser separadas em três grupos: 1. o das “empregadas em proporção semelhante em ambos os conjuntos de texto”, 2. o das “frequentemente associadas ao corpus de estudo” e 3. o das “mais particulares ao corpus de referência”, segundo Viana (2011, p. 61). Pode-se dizer que as palavras-chave do terceiro grupo (negativas) são as menos relevantes para o corpus de estudo, já as do segundo grupo (positivas) são aquelas consideradas importantes porque “servem para identificar linguisticamente o corpus que se deseja descrever” (Viana, 2011, p. 62). A imagem a seguir ilustra a forma como o grupo de palavras-chave do corpus de referência e o do de estudos se interseccionam: Figura 4 – Procedimento de palavras-chave Fonte: Viana (2011, p. 61) As palavras-chave positivas apresentam alta chavicidade, conceito entendido como, segundo Bondi e Scott (2010, p. 43, tradução nossa), “[...] uma qualidade possuída por palavras, grupos de palavras, frases etc.”19 Para os autores, a teoria da chavicidade indica haver itens lexicais proeminentes nos textos (Bondi; Scott, 2010). A ferramenta computacional utilizada para este trabalho, Sketch Engine (Kilgarriff et al, 2014), calcula a chavicidade conforme a seguinte fórmula: 19 No original: Keyness is a quality possessed by words, word-clusters, phrases etc. [...]. (Bondi; Scott, 2010, p. 43) 38 em que fpmfocus diz respeito à frequência das palavras do corpus de estudo, fpmref à frequência das palavras do corpus de referência, e n ao número padrão de aproximação de valores (n=1). Palavras-chave podem ser consideradas palavras que tornam determinada amostra da língua, de certa maneira, única. Elas podem ser analisadas conforme diferentes abordagens teóricas. A depender do olhar que recebem, são concebidas como expressões multipalavras e podem ser analisadas e entendidas enquanto termos, colocações, expressões idiomáticas, agrupamentos lexicais, clusters etc. As combinatórias de palavras-chave também podem ser entendidas como multiword terms, ou em português, termos multipalavras (Ramisch; Villavicencio, 2010; Sketch Engine, 2014). Nazzi-Laranja (2020) propôs em seu estudo um levantamento dos agrupamentos lexicais de quatro corpora cujas temáticas eram “saúde”, “tecnologia”, “política” e “mundo” para o desenvolvimento de atividades de leitura para o vestibular, por exemplo. Já Milizia (2010) analisou as combinações feitas com a palavra climate (clima) nos discursos de Tony Blair e George W. Bush e verificou a emergência do padrão climate change (mudança climática), o que demonstrou “como as palavras preferem significativamente a companhia umas das outras”20 (Milizia, 2010, p. 142, tradução nossa) e “convencionalmente se atraem umas às outras por fatores que vão além das normas gramaticais”21 (Milizia, 2010, p. 142, tradução nossa). Segundo Muller (et al, 2011), as abordagens de pesquisa da LC levam em consideração, principalmente, a frequência de dados, além da chavicidade para aferir a força de combinação entre palavras, o que permite que os estudos conduzidos por corpora abranjam uma ampla quantidade de expressões multipalavras de naturezas variadas. Conforme Biber (2009, p. 277) há dois tipos de expressões multipalavras: multiword lexical collocations (colocações lexicais multipalavras) e multiword formulaic sequences (sequências formulaicas multipalavras). Essas expressões diferenciam-se pelo fato de a primeira referir-se a termos técnicos formados por sequências de palavras lexicais e a segunda referir-se a sequências de alta frequência que incluem palavras funcionais e palavras de conteúdo (Biber, 2009). 20 No original: [...] how words significantly prefer each other’s company [...] (Milizia, 2010, p. 142) 21 No original: [...] and are conventionally found to attract each other for factors that go beyond grammatical norms. (Milizia, 2010, p. 142) 39 Nas pesquisas orientadas por evidências, com base na LC, adota-se o princípio da idiomaticidade, definido por Sinclair (1991, p. 110, tradução nossa), como o princípio em que “um usuário de uma língua tem à sua disposição um grande número de frases pré-construídas que constituem escolhas únicas, mesmo que possam parecer analisáveis em segmentos”22, o que implica em dizer que os falantes dispõem de blocos pré-fabricados recorrentes na língua ao invés de ter de fazer escolhas aleatórias diante das muitas combinações de palavras possíveis em seu idioma. Por essa razão, as expressões multipalavras são tão caras ao ensino de línguas. Esses padrões podem ser analisados sob a persectiva da Fraseologia, disciplina da Lexicologia que tem como objeto de estudo unidades fraseológicas (UFs) (Corpas Pastor; Mitkov, 2019), expressões formadas por mais de duas palavras caracterizadas por possuírem certa fixidez em seu modo de ocorrência nas línguas. Elas são tomadas como blocos pré- fabricados, que configuram os fraseologismos, termo que usualmente se refere a “Um conjunto de frases feitas, locuções figurativas, metáforas e comparações fixas, expressões idiomáticas e ditados populares, existentes em uma língua, seja em uso individual ou em grupo23” (Corpas Pastor, 1996, p. 20, tradução nossa). A presente pesquisa não visa aprofundar-se no campo da Fraseologia, nem fazer um levantamento de termos de determinada área de especialidade, como se faz nos trabalhos de Terminologia, vasta área que se volta para o “estudo científico dos termos usados nas línguas de especialidade, ou melhor, empregados em discursos e textos de áreas técnicas, científicas e especializadas” (Barros, 2007, p. 9). Aqui, nos apoiamos na Pedagogia do Léxico (Orenha- Ottaiano; Pinto, 2018) para fazer um levantamento dos itens lexicais propícios para o desenvolvimento de atividades de leitura, as expressões multipalavras, tendo como base teórico-metodológica a Linguística de Corpus. Para Villavicencio e Ramisch (2010, p. 33) as expressões multipalavras e os termos, unidades lexicais “que designa(m) um conceito de um domínio de especialidade” (Barros, 2007, p. 9), diferem em vários aspectos, dentre essas diferenças está o fato de as expressões multipalavras estarem presentes na linguagem especializada e na linguagem cotidiana, diferentemente dos termos, que se restringem à comunicação especializada. No entanto, os autores afirmam que há um ponto em comum: “O objeto que pertence à intersecção entre termo 22 No original: [...] a language user has available to him or her a large number of semi-preconstructed phrases that constitute single choices, even though they might appear to be analysable into segments. (Sinclair, 1991, p. 110) 23 No original: [...] Conjunto de frases hechas, locuciones figuradas, metáforas y comparaciones fijadas, modismos y refranes, existentes en una lengua, en el uso individual o en el de algún grupo. (Corpas Pastor, 1996, p. 20) 40 e EM é usualmente denominado Termo Multipalavra (TM)” (Villavicencio; Ramisch, 2010, p. 41), caracterizado como “uma locução ou expressão multipalavra que possui estatuto terminológico” (Villavicencio; Ramisch, 2010, p. 41). Os termos multipalavras, para os autores, deveriam ser considerados nos estudos das fraseologias de domínio (Villavicencio; Ramisch, 2010, p. 42). Neste estudo, analisamos as palavras-chave do corpus SDG-Plos e utilizamos a expressão “termos multipalavras” com base na concepção do Sketch Engine (Kilgarriff et al, 2014, tradução nossa), segundo a qual “Termos são expressões multipalavras que aparecem com mais frequência no corpus em foco do que no corpus de referência [...]”24. A plataforma nomeia de “palavras-chave” unidades formadas por palavras únicas e de “termos” unidades multipalavras: “1. Palavra-chave = item de palavra única - 2. Termo = expressão multipalavra (consiste em 2 ou mais palavras)”25 (Sketch Engine, 2024, tradução nossa). O reconhecimento dessas estruturas pré-fabricadas pode facilitar a compreensão de textos em LE, já que torna possível que os aprendizes lancem mão de estratégias de identificação de padrões presentes nas línguas ao invés de ter que lidar com a possibilidade de combinações aleatórias. Para apresentar esses itens lexicais de forma guiada aos estudantes, nos apoiamos na abordagem cuja máxima é a primazia da exploração dos dados linguísticos apresentados sob a forma de um corpus, Data Driven Learning (DDL), Aprendizagem Direcionada por Dados, descrita na seção seguinte. 2.4.1 Data Driven Learning Desde as décadas de 1980 e 1990, a LC tem sido usada no ensino de LE, especialmente nos contextos de ensino de línguas para fins específicos, primeiramente no ensino de inglês (Tagnin; Viana, 2011), por meio do classroom concordancing, ensino baseado no uso de concordâncias, e do Data Driven Learning (DDL), aprendizagem direcionada por dados, introduzida pelo linguista Tim Johns (Berber Sardinha, 2011). Conforme Scott (2011, p. 8), Na DDL, o aluno observa alguns ou muitos exemplos das formas linguísticas (dados) que precisa aprender, e chega às conclusões que consegue (aprendizado). São os dados que, junto com o esforço e o raciocínio do aluno, determinam a aprendizagem, não as regras dadas pelo professor. 24 No original: Terms are multi-word expressions which appear more frequently in the focus corpus than in the reference corpus [...] (Sketch Engine, 2014) 25 No original: 1. Keyword = single-word item - 2. term = multi-word expression (it consists of 2 or more words). (Sketch Engine, 2024) 41 A DDL fundamenta-se na exposição dos aprendizes à língua (por meio do uso de corpora) e na sua exploração de forma organizada e guiada, de modo a fazer com que tenham acesso a coletâneas de textos de seus interesses e a frequências e distribuição das ocorrências de itens léxico-gramaticais de forma contextualizada (Boulton, 2017). Para Boulton (2017), trata-se de uma abordagem construtivista e indutiva na qual os alunos chegam às suas próprias conclusões a respeito dos padrões da língua ao invés de esperarem por regras prontas e acabadas. Na visão de Berber Sardinha, no entanto, a DDL pode seguir uma orientação não somente indutiva, “[...] em que o aluno precisa encontrar evidências de uso e delas formar generalizações sobre formas e sentidos da língua” (Berber Sardinha, 2011, p. 314), mas também dedutiva, em que “[...] antes de iniciar a análise da concordância, o aluno formula hipóteses sobre a questão/ponto em foco na atividade. Em seguida, procura confirmar ou rejeitar essa hipótese com base nos dados” (Berber Sardinha, 2011, p. 314). O aluno, dentro do escopo da DDL, é visto como um pesquisador ou mesmo um detetive da língua (Berber Sardinha, 2011). Nas atividades baseadas em corpora, os estudantes exploram os dados fornecidos pelo corpus a fim de entrar em contato com o léxico e com a gramática de determinados gêneros textuais, amostras da linguagem que contêm as informações morfológicas, gramaticais, fraseológicas e discursivas tomadas como objeto de ensino pelos professores. De acordo com Berber Sardinha (2011), há três tipos de atividades de ensino com corpora: as centradas na concordância, as centradas no texto e as multimídias/multigêneros. O primeiro tipo foca na observação das linhas de concordância de um corpus para a identificação de padrões de uso e, consequentemente, na descoberta do significado de palavras e expressões e na análise das classes gramaticais (Berber Sardinha, 2011). Essa vertente pode ser considerada a mais comum dentro da DDL, pois prioriza a aprendizagem de lexicogramática, o pilar da abordagem (Berber Sardinha, 2011). O segundo tipo surge para suprir algumas desvantagens que o anterior pode apresentar, como falta de familiaridade dos estudantes com as linhas de concordância de um corpus e a “[...] falta de ligação entre as concordâncias e uma situação concreta de uso da língua, onde os padrões estejam representados” (Berber Sardinha, 2011, p. 316), ou seja, a falta de um contexto situacional de uso da língua que o texto proporciona. Essa vertente apresenta o texto para os 42 aprendizes e os conduz para a observação e análise dos padrões nele contidos, sem que se perca de vista a essência de uma atividade baseada em corpus (Berber Sardinha, 2011). As atividades do terceiro tipo, multimídias/multigêneros visam “[...] capacitar os alunos a lidar com (produzir e/ ou receber) a linguagem envolvida em determinada atividade social” (Berber Sardinha, 2011, p. 329), tendo em vista a diversificação do registro da língua veiculado nas diferentes mídias sociais, a saber, a profusão e a complexificação dos gêneros (Berber Sardinha, 2011). Ainda que as atividades baseadas em corpus se beneficiem de textos escritos (e não da compilação de sons e imagens), as atividades multidimídias/multigêneros se valem do “texto escrito para ser lido (ex. texto de jornal), o escrito para ser ouvido (ex. notícia de TV), o preparado para ser visto como se fosse espontâneo (ex. cinema), o escrito para ser lido como se tivesse sido ouvido (ex. muitos emails, tweets etc.), entre muitos outros” (Berber Sardinha, 2011, p. 324). As três vertentes de atividades explicitadas tanto podem seguir uma metodologia hands on, por meio da qual o aluno tem acesso ao computador, às ferramentas de corpora e ao próprio corpus, como hands off, por meio da qual eles realizam os exercícios impressos no papel (Boulton, 2012). Berber Sardinha (2000, p. 61) considera que a DDL gera impacto no aluno, no professor e no ensino como um todo: (1) Aluno: Assume um papel mais central e independente, tornando-se um pesquisador dotado de habilidades que lhe permitem obter respostas para suas dúvidas e verificação de suas hipóteses. (2) Professor: Deixa de ser a fonte única de informação na sala de aula. Por conseguinte diminui a pressão sobre ele para saber todas as respostas. O computador, enquanto informante, assume um papel de destaque como provedor de informação. (3) Ensino: Centra-se mais no aluno e permite que se fundamente pelo princípio de descoberta. Deixa, portanto, de estar baseado na transmissão de regras prontas. A DDL possui um caráter transformador, pois redimensiona os papeis tradicionalmente estabelecidos para professores e alunos. Essa característica também pode ser muito desafiadora, uma vez que diante das informações contidas em um corpus, os alunos podem se deparar com dados que podem ser inusitados tanto para eles quanto para os professores. A riqueza linguística contida em amostras reais de uso da língua não cabe nos livros didáticos ou nas gramáticas, por 43 isso, tanto o aluno quanto o professor descobrirão novas informações sobre a língua, segundo Johns (1988, p. 3, tradução nossa26): O que há de distintivo na abordagem DDL para o ensino indutivo de línguas é o princípio de que os dados são primários e o professor não consegue antecipar exatamente quais regras ou padrões os alunos descobrirão: na verdade, eles muitas vezes perceberão coisas que são desconhecidas não apenas pelo professor, mas também pelas obras padrão de referência sobre o idioma. É este elemento de desafio e de descoberta que dá a DDL o seu sabor especial e estimulante. A DDL tem sido difundida gradativamente no Brasil e a elaboração de materiais didáticos baseados em corpora tem crescido (Berber Sardinha, 2000; 2011; Delfino, 2016). Apesar dos desafios, a abordagem vem ganhando espaço aos poucos no ensino de línguas brasileiro, um exemplo são as publicações de materiais produzidos pelo grupo de pesquisa Ensino Baseado e Dirigido por Corpora (En-Corpora)27 da Unesp de São José do Rio Preto. A elaboração de materiais baseados em corpora será aprofundada no decorrer deste trabalho. Na pesquisa proposta, nos voltamos para a elaboração de atividades centradas no texto por priorizarmos a habilidade de leitura, e do tipo hands off e hands on, pois o primeiro tipo de atividade pode ser aplicado tanto em contexto de aula presencial quanto on-line, além de ser de acesso facilitado para os alunos de forma geral, e o segundo proporciona um contato direto dos alunos com ferramentas da LC, apesar dos desafios que traz consigo, como a necessidade de acesso à internet e ao computador. Conforme Nazzi-Laranja (2020, p. 49), “cabe ao professor pensar em formas de ensinar vocabulário aos seus alunos e fazer desse vocabulário parte importante para a compreensão textual”, seja por meio de atividades hands on ou hands off. Aprofundamos o conceito de compreensão leitora na seção a seguir. 2.5 O processo de leitura e a habilidade de compreensão escrita Para a elaboração de atividades didáticas voltadas para o aprimoramento de CE, cabe entender quais são os processos de leitura. Leffa (1996) considera a existência de duas acepções 26 No original: What is distinctive about the DDL approach to inductive language teaching is the principle that the data is primary, and the teacher does not know in advance exactly what rules or patterns the learners will discover: indeed, they will often notice things that are unknown not only to the teacher, but also to the standard works of reference on the language. It is this element of challenge and of discovery that gives DDL its special flavour and stimulus. (Johns, 1988, p. 3) 27 Disponível em: https://sites.google.com/unesp.br/en-corpora-ensino-baseado-e-di/in%C3%ADcio https://sites.google.com/unesp.br/en-corpora-ensino-baseado-e-di/in%C3%ADcio 44 do que seja a leitura, consideradas definições restritas e antagônicas, a de que “(a) ler é extrair significado do texto” (p. 11) e a de que “(b) ler é atribuir significado ao texto” (p. 11). Na primeira, a leitura é tomada como um processo ascendente, uma vez que o significado parte do texto para o leitor (Leffa, 1996), já na segunda, a leitura é tomada como um processo descendente, em que os significados relacionados às hipóteses do leitor são confirmados ou não pela leitura do texto (Leffa, 1996). Ambos os processos possuem suas limitações, já que “A complexidade do processo da leitura não permite que se fixe em apenas um de seus pólos” (Leffa, 1996, p.17) e que “Para compreender o ato da leitura temos que considerar então (a) o papel do leitor, (b) o papel do texto e (c) o processo de interação entre o leitor e o texto” (Leffa, 1996, p. 17). No contexto de IFE, o ensino de compreensão escrita volta-se para as estratégias de leitura, cuja função é “[...] desenvolver habilidades tais como deduzir o significado e uso de itens lexicais não familiares; entender a informação explícita e a implícita dentro da sentença; entender o valor comunicativo das sentenças; extrair seletivamente pontos relevantes do texto; distinguir ideias principais das secundárias, etc. [...] (Heemann, 2009, p. 144). Algumas das estratégias de leitura são o reconhecimento do layout característico a determinados gêneros textuais; a identificação de cognatos, marcadores do discurso, elementos de referência e seus efeitos de sentido; os tipos de coesão (lexical e gramatical); coerência e as noções implícitas a esse fenômeno (cronologia, importância, comparação); skimming, técnica de leitura rápida cujo objetivo é depreender a ideia principal de um texto por meio do uso do título, de imagens e de palavras-chave; e scanning, técnica na qual o leitor lê de forma rápida com a intenção de encontrar informações específicas no texto. Além dessas, a inferência também é uma estratégia que se presta como recurso facilitador na leitura em LE, pois por meio dela o leitor deduz “[...] o significado e uso de itens lexicais não familiares por meio de dicas contextuais [...]” (Heemann, 2009, p. 144). Conforme Baldo (2009), a leitura bem sucedida em LE está relacionada ao processo de aquisição de vocabulário, principalmente contextual, de modo que o conhecimento de estruturas sintáticas teria menor influência na proficiência leitora, pois essa é influenciada pelo repertório de informações garantido pelo acervo lexical dos aprendizes. Leitores mais proficientes na LE conseguem mobilizar as estratégias de leitura com que dispõem na LM, nesse sentido, os recursos facilitadores da compreensão são eficientes quando se é capaz de reconhecê-los, pois 45 não importa a quantidade de vezes que se lance mão deles sem que se consiga enxergar sua presença nos textos (Baldo, 2009). Assim, é possível afirmar que no processo de leitura “o leitor passa a ser visto como um sujeito ativo, um bom usuário de estratégias e um aprendiz cognitivo” (Heemann, 2009, p. 138), que é capaz de relacionar seu conhecimento de mundo, ou conhecimento prévio, com as informações do texto. A leitura concebida como processo de produção de sentidos, resultado de uma atividade interativa entre o texto, o autor, o leitor e o contexto, mobiliza tanto o processo ascendente, do inglês bottom up, quanto o descendente, top down (Leffa, 1996; Heemann, 2009). Conforme Brown (2001, p. 306-311, tradução nossa28) algumas estratégias relacionam- se com o processo ascendente e outras com processo descendente, tais como: 1. identificar o propósito da leitura (identificar claramente o propósito da leitura de modo que se saiba o que está procurando); 2. identificar padrões e regras grafêmicas na decodificação bottom up, especialmente para aprendizes iniciantes; 3. usar técnicas eficientes de leitura silenciosa para a compreensão rápida (de intermediário para níveis avançados); 4. olhar o texto em busca de ideias principais (correr os olhos rapidamente por todo o texto em busca de sua essência) para fazer previsões; 5. escanear o texto e busca de informações específicas (procurar rapidamente por informações no texto); 6. usar mapeamento ou clustering (agrupar ideias em grupos significativos ajuda os leitores a trazerem ordem ao caos); 7. adivinhar quando não se tem certeza (adivinhar o significado de uma palavra, adivinhar uma combinação gramatical, adivinhar uma relação discursiva, inferir significado subentendido, inferir referências culturais e conteúdos de mensagens; 8. analisar vocabulário (procurar por prefix