Logotipo do repositório
 

Publicação:
Fontes tradicionais e recursos computacionais na produção de um dicionário digital latim-português: os protótipos eLatim e eLatim-vallex

Carregando...
Imagem de Miniatura

Orientador

Ferreira, Anise de Abreu Gonçalves D’Orange

Coorientador

Pós-graduação

Linguística e Língua Portuguesa - FCLAR

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Tese de doutorado

Direito de acesso

Acesso abertoAcesso Aberto

Resumo

Resumo (português)

A pesquisa parte da percepção de que há uma carência de recursos digitais em Língua Portuguesa voltados para o estudo de latim, e assume como objetivo investigar formas de construir um dicionário digital latim-português. Para tanto, o estudo encontra fundamentação nos princípios da lexicografia teórica e prática, buscando definir os tipos de dados lexicais mais comuns, as necessidades de informação típicas dos usuários de dicionários e os requisitos fundamentais de um projeto de dicionário digital, quais sejam, a criação de uma base de dados lexicográfica e de uma interface de consulta. Um panorama histórico da lexicografia do latim, abrangendo desde os repertórios manuscritos até as bases lexicais, passando pela tradição de dicionários impressos, é realizado a fim de identificar fontes de informação passíveis de incorporação à base de dados. Em seguida, descreve-se a metodologia utilizada para a compilação de diversos tipos de fonte em uma única base de dados integrada, que inclui métodos de obtenção de dados de dicionários tradicionais digitalizados e outras bases lexicais, bem como extração de dados de corpus (envolvendo, nesse último caso, a construção de um corpus paralelo de textos literários, igualmente descrito). Por fim, apresenta-se a interface de consulta, desenvolvida com o auxílio do programa de escrita de dicionários lexicographR) a fim de garantir a consistência do processo de transformação de dados legíveis por máquina em verbetes para leitura humana. O principal resultado é um protótipo de dicionário digital latim-português intitulado “eLatim” [https://lucascdz.github.io/eLatim/], que fornece informações lexicais sobre os mil lemas latinos mais frequentes. Um segundo protótipo, intitulado “eLatim-vallex” [https://github.com/lucascdz/eLatim-vallex/], consiste em uma ferramenta de consulta experimental que permite ao usuário extrair frases de um corpus paralelo sintaticamente anotado de textos clássicos, utilizando como critério de seleção as propriedades sintático-semânticas dos termos dependentes.

Resumo (inglês)

The research is motivated by the lack of free, open-source lexical resources in Portuguese for studying Latin. Its goal is to address this gap by investigating the development of a bilingual Latin-Portuguese digital dictionary. To achieve this, the study first examines the theoretical and practical principles of electronic lexicography, focusing on types of lexical data, user reference needs, and project requirements, such as creating a lexicographical database and designing a user interface. In compiling the database, a comprehensive history of Latin lexicography is reviewed to identify potentially reusable data sources. These sources include monolingual manuscript repertories, Latin-Portuguese bilingual printed dictionaries, and the latest computational lexical resources. The methodology for creating the lexicographical database from various sources is outlined. This methodology includes methods for obtaining data from legacy dictionaries and lexical databases, as well as for corpus data extraction that involves building a parallel corpus. Finally, the design of the user interface is presented. It employs a dictionary writing system, known as lexicographR, to ensure consistency in data compilation. The primary outcome is a dictionary prototype called eLatim [https://lucascdz.github.io/eLatim/], which provides lexical information for the 1,000 most frequent Latin lemmas. Additionally, a second prototype named eLatim-vallex [https://github.com/lucascdz/eLatim-vallex/] offers a query tool that sorts sentences from a parallel corpus based on the grammatical features of dependent words.

Descrição

Palavras-chave

Lexicografia, Enciclopédias e dicionários História e crítica, Dicionários eletrônicos, Software livre, Língua latina, Latin, Lexical Resources, Computational Lexicography, Parallel corpus, Universal Dependencies

Idioma

Português

Como citar

DEZOTTI, Lucas Consolin. Fontes tradicionais e recursos computacionais na produção de um dicionário digital latim-português: os protótipos eLatim e eLatim-vallex. 2025. Tese (Doutorado em Linguística e Língua Portuguesa) – Faculdade de Ciências e Letras, Universidade Estadual Paulista (UNESP), Araraquara, 2025.

Itens relacionados

Unidades

Unidade
Faculdade de Ciências e Letras
FCLAR
Campus: Araraquara


Departamentos

Cursos de graduação

Programas de pós-graduação