Corpus-based Methodology for an Online Multilingual Collocations Dictionary: First Steps

Orenha-Ottaiano, Adriane [UNESP]; Garcia, Marcos; de Oliveira Silva, Maria Eugênia Olímpio; L'Homme, Marie-Claude; Ramos, Margarita Alonso; Valêncio, Carlos Roberto [UNESP]; Tenório, William [UNESP]

Corpus-based Methodology for an Online Multilingual Collocations Dictionary: First Steps

dc.contributor.author	Orenha-Ottaiano, Adriane [UNESP]
dc.contributor.author	Garcia, Marcos
dc.contributor.author	de Oliveira Silva, Maria Eugênia Olímpio
dc.contributor.author	L'Homme, Marie-Claude
dc.contributor.author	Ramos, Margarita Alonso
dc.contributor.author	Valêncio, Carlos Roberto [UNESP]
dc.contributor.author	Tenório, William [UNESP]
dc.contributor.institution	Universidade Estadual Paulista (UNESP)
dc.contributor.institution	Universidade de Santiago de Compostela
dc.contributor.institution	University of Alcalá
dc.contributor.institution	Université de Montréal
dc.contributor.institution	Universidade da Coruña
dc.date.accessioned	2023-03-02T12:09:18Z
dc.date.available	2023-03-02T12:09:18Z
dc.date.issued	2021-01-01
dc.description.abstract	This paper describes the first steps of a corpus-based methodology for the development of an online Platform for Multilingual Collocations Dictionaries (PLATCOL). The platform is aimed to be customized for different target audiences according to their needs. It covers various syntactic structures of collocations that fit into the following taxonomy: verbal, adjectival, nominal, and adverbial. Part of its design, layout and methodological procedures are based on the Bilingual Online Collocations Dictionary Platform (Orenha-Ottaiano, 2017). The methodology also relies on the combination of automatic methods to extract candidate collocations (Garcia et al., 2019a) with careful post-editing performed by lexicographers. The automatic approaches take advantage of NLP tools to annotate large corpora with lemmas, PoS-tags and dependency relations in five languages (English, French, Portuguese, Spanish and Chinese). Using these data, we apply statistical measures (Evert et al., 2017; Garcia et al., 2019b) and distributional semantics strategies to select the candidates (Garcia et al., 2019c) and retrieve corpus-based examples (Kilgarriff et al., 2008). We also rely on automatic definition extraction (Bond & Foster, 2013) so that collocations can be more effectively organized according to their specific senses.	en
dc.description.affiliation	São Paulo State University (UNESP)
dc.description.affiliation	Universidade de Santiago de Compostela
dc.description.affiliation	University of Alcalá
dc.description.affiliation	OLST Université de Montréal
dc.description.affiliation	Universidade da Coruña
dc.description.affiliationUnesp	São Paulo State University (UNESP)
dc.format.extent	1-28
dc.identifier.citation	Proceedings of Electronic Lexicography in the 21st Century Conference, v. 2021-July, p. 1-28.
dc.identifier.issn	2533-5626
dc.identifier.scopus	2-s2.0-85137087660
dc.identifier.uri	http://hdl.handle.net/11449/242228
dc.language.iso	eng
dc.relation.ispartof	Proceedings of Electronic Lexicography in the 21st Century Conference
dc.source	Scopus
dc.subject	automatic extraction
dc.subject	collocations
dc.subject	collocations dictionary
dc.subject	lexicography
dc.subject	online platform
dc.title	Corpus-based Methodology for an Online Multilingual Collocations Dictionary: First Steps	en
dc.type	Trabalho apresentado em evento
dspace.entity.type	Publication
unesp.campus	Universidade Estadual Paulista (UNESP), Instituto de Biociências Letras e Ciências Exatas, São José do Rio Preto	pt
unesp.department	Ciências da Computação e Estatística - IBILCE	pt

Coleções

São José do Rio Preto - IBILCE - Instituto de Biociências, Letras e Ciências Exatas

Corpus-based Methodology for an Online Multilingual Collocations Dictionary: First Steps

Arquivos

Coleções