ERASMO ROBERTO MARCELLINO CONSTRUÇÃO DE UM ONTOLÉXICO PARA O UNIVERSO LÉXICO-CONCEITUAL DA INDÚSTRIA DO BORDADO DE IBITINGA Araraquara – SP 2011 ERASMO ROBERTO MARCELLINO CONSTRUÇÃO DE UM ONTOLÉXICO PARA O UNIVERSO LÉXICO-CONCEITUAL DA INDÚSTRIA DO BORDADO DE IBITINGA Dissertação de Mestrado apresentada ao Programa de Pós-graduação em Linguística e Língua Portuguesa da Faculdade de Ciências e Letras, Universidade Estadual Paulista – Campus de Araraquara, como parte dos requisitos para a obtenção do título de Mestre em Letras (Área de Concentração: Linguística e Língua Portuguesa). Linhas de Pesquisa: Estudos do Léxico; Análise fonológica, morfossintática, semântica e pragmática. Orientador: Prof. Dr. Bento Carlos Dias da Silva Bolsa: FAPESP Araraquara – SP 2011 ii Marcellino, Erasmo Roberto Construção de um ontoléxico para o universo léxico-conceitual da Indústria do Bordado de Ibitinga / Erasmo Roberto Marcellino. – 2011 110 f. ; 30 cm Dissertação (Mestrado em Linguística e Língua Portuguesa) – Universidade Estadual Paulista, Faculdade de Ciências e Letras, Campus de Araraquara Orientador: Bento Carlos Dias-da-Silva l. Lexicologia. 2. Semântica. I. Título iii ERASMO ROBERTO MARCELLINO CONSTRUÇÃO DE UM ONTOLÉXICO PARA O UNIVERSO LÉXICO-CONCEITUAL DA INDÚSTRIA DO BORDADO DE IBITINGA Dissertação de Mestrado apresentada ao Programa de Pós- graduação em Linguística e Língua Portuguesa da Faculdade de Ciências e Letras, Universidade Estadual Paulista – Campus de Araraquara, como parte dos requisitos para a obtenção do título de Mestre em Letras (Área de Concentração: Linguística e Língua Portuguesa). Linhas de Pesquisa: Estudos do Léxico; Análise fonológica, morfossintática, semântica e pragmática. Orientador: Prof. Dr. Bento Carlos Dias da Silva Bolsa: FAPESP Data da defesa: 01/06/2011 MEMBROS COMPONENTES DA BANCA EXAMINADORA: Presidente e Orientador: Prof. Dr. Bento Carlos Dias da Silva Universidade Estadual Paulista/Araraquara. Membro Titular: Profª. Drª. Clotilde de Almeida Azevedo Murakawa Universidade Estadual Paulista/Araraquara. Membro Titular: Profª. Drª. Patrícia Tosqui Lucks Instituto de Controle do Espaço Aéreo da Aeronáutica/São José dos Campos. Local: Universidade Estadual Paulista Faculdade de Ciências e Letras UNESP – Campus de Araraquara iv A todos os ibitinguenses que já bordaram, bordam e/ou continuarão bordando... Em especial à Arlete: talentosa bordadeira (que pena que deixou a máquina de bordar!) e excepcional mãe (que bom que nunca vai deixar de nos amar!). v AGRADECIMENTOS Ao criador de tudo que tentamos compreender e, às vezes, até representar em ontologias. A todos os meus professores, desde os que me alfabetizaram até os que me acompanharam na pós-graduação, e muito especialmente ao Bento, que, em qualquer momento ou local, se doa pacientemente aos orientandos e à ética pessoal e profissional. Às professoras Clotilde, Gladis e Patrícia, que aceitaram ajudar, com muita boa vontade e propriedade, na concretização desta dissertação. Também à professora Cristina, pela sugestão bem acertada para a epígrafe. Aos meus pais, os apoiadores incondicionais Laércio e Arlete, à minha avó Isabel, que já se foi mas muito deixou, e aos demais familiares, mesmo os que vivem perguntando “Quando você vai começar a trabalhar?” Aos ibitinguenses que atuam nos diversos setores da indústria do bordado, particularmente às minhas informantes Aurora, Dona Ana, Dona Glória e Dona Nereide, pela consultoria tão solícita. Aos amigos - da convivência diária: Brá e Márcio - de longa data e de sempre: Bruno, Diogo, Izidoro, Janaia e Leonardo (e suas respectivas famílias) - do meio acadêmico formal e informal: Alessandra, Alexandre, Aline, Ana, Ariani, Débora, Emerson, Felipe, Filipe, Gisele, Hélio, Janaina, Larissa, Maira, Maria Paula, Patrícia, Priscila, Valdirene A UNESP e àqueles que a fazem existir enquanto uma instituição de ensino gratuito e de qualidade. À FAPESP pelo apoio financeiro que facilitou o desenvolvimento deste trabalho. vi FÁBULA Num fabulário ainda por encontrar será um dia lida esta fábula: A uma bordadora dum país longínquo foi encomendado pela sua rainha que bordasse, sobre seda ou cetim, entre folhas, uma rosa branca. A bordadora, como era muito jovem, foi procurar por toda a parte aquela rosa branca perfeitíssima, em cuja semelhança bordasse a sua. Mas sucedia que umas rosas eram menos belas do que lhe convinha, e que outras não eram brancas como deviam ser. Gastou dias sobre dias, chorosas horas, buscando a rosa que imitasse com seda, e, como nos países longínquos nunca deixa de haver pena de morte, ela sabia bem que, pelas leis dos contos como este, não podiam deixar de a matar se ela não bordasse a rosa branca. Por fim, não tendo melhor remédio, bordou de memória a rosa que lhe haviam exigido. Depois de a bordar foi compará-la com as rosas brancas que existem realmente nas roseiras. Sucedeu que todas as rosas brancas se pareciam exactamente com a rosa que ela bordara, que cada uma delas era exactamente aquela. Ela levou o trabalho ao palácio e é de supor que casasse com o príncipe. No fabulário, onde vem, esta fábula não traz moralidade. Mesmo porque, na idade de ouro, as fábulas não tinham moralidade nenhuma. Fernando Pessoa (1986, p.69) Primeira publicação em ‘O Jornal’ (nº1, Lisboa, 1915) vii RESUMO A cidade de Ibitinga destaca-se nacionalmente no ramo dos bordados, com sua economia voltada quase que exclusivamente à produção dessas peças. Tendo esse contexto como pano de fundo, esta dissertação discute todo o processo linguístico e linguístico-computacional de construção de ontoléxicos – constructos formais cuja natureza léxico-conceitual possibilita o desenvolvimento de investigações teóricas (estudos lexicogramaticais) e aplicadas (construção de recursos lexicográficos e para o processamento computacional de informação textual disponível na Web). Em particular, constrói um ontoléxico exploratório que entrelaça conceitos e itens lexicais do domínio léxico-conceitual da Indústria do Bordado de Ibitinga. O embasamento teórico-metodológico assenta-se nos estudos de semântica lexical (wordnets) e de frames (framenets), pura e computacional, de processamento automático de língua natural e de ontologias. Palavras-chave: semântica lexical; semântica de frames; léxico; ontoléxico; processamento automático de língua natural. viii ABSTRACT Ibitinga, which is a Brazilian town nationally known for its outstanding position in the embroidery business, has its economy almost totally based on the production of a broad selection of embroideries. With this embroidery industry in the backdrop, this master thesis describes the whole linguistic and computational-linguistic process of construction of ontolexicons – formal constructs whose lexical-conceptual nature allows for both theoretical (lexical-grammar construction) and applied (lexicographical and ontolexical resource construction) research. In particular, the study focuses on the design and implementation of a toy ontolexicon for the Ibitinga Embroydery Industry lexical-conceptual domain. Its theoretical foundations have drawn heavily on lexical semantics (wordnets), frame semantics (framenets), natural language processing, and ontologies. Keywords: lexical semantics; frame semantics; lexicon; ontolexicon; natural language processing. SUMÁRIO 1. INTRODUÇÃO.......................................................................................................................9� 1.1 Motivação e justificativa .....................................................................................................10� 1.2 Contextualização .................................................................................................................10� 1.3 Objetivos..............................................................................................................................11� 2 FUNDAMENTOS: CORPORA, LÉXICOS, ONTOLOGIAS E EDITOR............................13� 2.1 As fontes de informação do domínio léxico-conceitual IB(I) .............................................14� 2.1.1 Dicionários e enciclopédias ..............................................................................................15� 2.1.2 Teses, artigos, relatórios, livros e glossários ....................................................................17� 2.1.3 Entrevistas ........................................................................................................................18� 2.1.4 Outros corpora estruturados e a Web como corpus..........................................................19� 2.1.5 As redes wordnets e framenets .........................................................................................21� 2.1.5.1 A rede WordNet .............................................................................................................21� 2.1.5.2 A rede FrameNet ...........................................................................................................25� 2.2 A estratégia de coleta das informações léxico-conceituais .................................................26� 2.3 Os conceitos-chave: léxico, ontologia, e ontoléxico ...........................................................31� 2.3.1 Ontologias e léxicos .........................................................................................................35� 2.3.2 A interface entre léxico-ontologia ....................................................................................46� 2.3.3 A “mão-dupla” entre léxico e ontologia ...........................................................................49� 2.4 Um exercício de alinhamento entre léxicos e ontologias ....................................................52� 2.5 O editor de ontologias Protégé-OWL..................................................................................55� 3 CONSTRUÇÃO DO ONTOLÉXICO: SYNSETS, FRAMES E O PROTÉGÉ....................61� 3.1 Sistematização preliminar....................................................................................................61� 3.2 Ampliação da sistematização ..............................................................................................64� 3.3 Consolidação da sistematização ..........................................................................................70� 3.4 Implementação.....................................................................................................................75� 4 CONSIDERAÇÕES FINAIS .................................................................................................91� REFERÊNCIAS BIBLIOGRÁFICAS ......................................................................................93� APÊNDICE 1 ..........................................................................................................................100� APÊNDICE 2 ..........................................................................................................................104� APÊNDICE 3 ..........................................................................................................................110� 9 1. INTRODUÇÃO A riqueza lexical que se manifesta na realidade da indústria do bordado de Ibitinga incentiva o recorte que fizemos nesta pesquisa, em que tratamos do domínio léxico-conceitual que chamamos de INDÚSTRIA DO BORDADO DE IBITINGA, que pressupõe o domínio léxico-conceitual mais amplo, o domínio léxico-conceitual INDÚSTRIA DO BORDADO em geral. Daí as abreviaturas: IB e IBI ou IB(I), quando não se fizerem necessárias distinções entre ambos. Ao falarmos do aspecto lexical e do conceitual relativos a esse domínio, nos inserimos no constructo de interface denominado ontoléxico, que nos leva a estudar, para construí-lo, os dois elementos que o embasam: as ontologias e os léxicos. A análise das ontologias e dos recursos lexicais, nas suas variadas características pertinentes a uma pesquisa no âmbito da linguística-computacional, bem como a análise da interação complexa entre eles, nos colocam diante de diferentes teorias (como a da semântica lexical), metodologias (como as que permitem que ontologias e léxicos sejam estruturados, formalizados, conectados, etc.) e outros constructos (como as wordnets e a framenets). Esses e outros tópicos serão considerados ao longo da dissertação, que apresenta, nesta primeira seção, a motivação e a justificativa para o estudo (1.1), uma breve contextualização (1.2) e os objetivos (1.3). Na seção 2, Fundamentos: corpora, léxicos, ontologias e editor, apresentamos o aparato teórico-metodológico, que consiste na (2.1) especificação das fontes de informação do domínio léxico-conceitual IB(I) (dicionários e enciclopédias, teses, artigos, relatórios, livros, glossários, entrevistas, outros corpora estruturados, a “Web como corpus” e as redes wordnets e framenets, que são ao mesmo tempo corpus e estruturas que auxiliam na construção de léxicos estruturados), na (2.2) descrição da estratégia de coleta das informações léxico-conceituais adotada, na (2.3 e 2.4) avaliação das possibilidades de associação entre léxicos e ontologias e (2.5) na introdução do editor de ontologias Protégé para o leitor. Na seção 3, A construção do ontoléxico: synsets, frames e o Protégé, partimos para a sistematização (planejamento e descrição) e implementação (edição e apresentação gráfica) do ontoléxico, passando pelas principais etapas do processo. A seção 4 é uma breve seção de considerações finais, seguida das referências bibliográficas e de três apêndices (uma amostra do levantamento dos itens lexicais do domínio, os principais recursos usados para a estruturação do ontoléxico e um esboço preliminar da ontologia). 10 1.1 Motivação e justificativa Uma parte da motivação desta pesquisa advém de estudos e atividades teóricas e práticas de Iniciação Científica1, principalmente no que diz respeito à representação do léxico em redes wordnets, discutidas mais adiante na dissertação. A outra advém do fato de a atividade a partir da qual se recorta o domínio léxico-conceitual que escolhemos para trabalhar, aqui denominado INDÚSTRIA DO BORDADO DE IBITINGA (IBI), ter importância para o artesanato, indústria e cultura da região, e oferecer material lexical rico e, sobretudo, registro linguístico dessa importante atividade do município. A cidade de Ibitinga e a sua principal atividade, o bordado, já foram objetos de vários estudos, sendo que a maior parte deles aborda, por exemplo, as condições sócio-culturais relativas à indústria (CINTRÃO, 1990; LEITE, 2009) ou o seu sistema de produção, ou seja, analisando-a do ponto de vista econômico (BACIC; SOUZA, 2008; FLORIAN; LORENZO, 2008; MATUSHIMA, 2005); no entanto, não detectamos estudos do ponto de vista linguístico, como o que aqui propomos desenvolver, trazendo para esta pesquisa um caráter de originalidade. 1.2 Contextualização Contextualizar o domínio IBI faz-se, então, importante para explicitarmos tanto a motivação quanto a justificativa desta investigação. Lendo um pouco sobre a história de Ibitinga, cidade do interior paulista, com aproximadamente 53 mil habitantes, observamos que ela adquiriu importância graças à atividade do bordado, introduzida, em meados de 1950, pela imigrante portuguesa Dioguina Sampaio. Desde a década de 60, com a formação da “Escola de Bordados Singer”, essa atividade vem se desenvolvendo. A cidade, que desde 1974 abriga a tradicional “Feira do Bordado de Ibitinga”, fica reconhecida como a Capital do Bordado entre as décadas de 80 e 90, período de mudanças para a indústria, que se reestrutura, para acompanhar o cenário nacional e mundial, ampliando e diversificando sua produção. 1 Projeto PLN-BR, processo CNPq n° 550.388/2005-2 (02/2006 a 11/2007), e PIBIC-CNPq, processos n° 100018/2008-4 (01/2008 a 07/2008) e n° 104037/2008-3 (08/2008 a 02/2009). 11 De acordo com dados recolhidos por Turco (2007), o setor dos bordados, que engloba mais de 350 empresas formais e 1200 informais, vem representando aproximadamente 80% da economia do município, 12,6% do mercado de São Paulo e 5% do mercado nacional de produtos de cama, mesa e banho. Em Ibitinga, o bordado – desde aquele confeccionado artesanalmente até o mais tecnológico, com produção em grande escala e fruto de tecnologias desenvolvidas especificamente para o setor – alimenta uma indústria que agrega inúmeros profissionais e utiliza os mais diversos materiais e instrumentos. Por isso, produzi-lo exige conhecimentos técnicos e artísticos que, em termos linguísticos, traduz-se em um universo lexical rico e específico que possibilita a comunicação eficiente entre os profissionais do setor, proporcionando, não só entre esses profissionais, como também entre eles e o público geral, a discursivização de, por exemplo, agentes, técnicas, instrumentos, materiais, suportes, processos e produtos que constituem o universo discursivo dessa indústria. Esse universo lexical tem uma contrapartida conceitual que, conforme dissemos, pode ser sistematizada em uma ontologia de conceitos. Estudar essa forma de representação de conceitos e dos itens lexicais a eles ancorados, para esta pesquisa, é estudar a constituição e formalização de léxicos e ontologias de um domínio da atividade humana e da combinação de ambos em termos de ontoléxicos, objetos de estudo da subseção 2.3. 1.3 Objetivos O objetivo deste estudo é sistematizar, do ponto de vista do processamento automático de línguas naturais2 (DIAS-DA-SILVA, 1996, 2006), o domínio léxico-conceitual da IBI em termos de uma ontologia do domínio e nela “ancorar” as parcelas correspondentes dos léxicos do português e do inglês, construindo, assim, um “ontoléxico”. Podemos especificar dois grandes objetivos complementares desta pesquisa: (I) a construção de uma ontologia do domínio léxico-conceitual da IBI e (II) a ancoragem, nessa ontologia, dos fragmentos dos léxicos correspondentes do português e do inglês. As atividades em (I) consistem em: (Ia) especificação dos conceitos do domínio e (Ib) descrição desses conceitos em termos de 2 A literatura da linguística computacional em português, conforme sinaliza Dias-da-Silva (1996, 2006), traduz “natural language processing” (NLP) de maneiras diferentes, como “processamento computacional de línguas naturais” ou “processamento de linguagem natural”, entre outras. Neste trabalho, como propõe Dias-da-Silva, adotamos o termo “Processamento automático de Línguas Naturais” e a sigla PLN. 12 glosas3 e dos diferentes tipos de relações (paradigmáticas e sintagmáticas) que se estabelecem entre eles, para, então, propormos a ontologia, nos moldes indicados pela literatura. Já em (II), procedemos à (IIa’)4 seleção, em corpus, dos itens lexicais que comporão os fragmentos dos léxicos da IBI, e também, quando pertinente, da indústria do bordado em geral (IB), de cada uma das duas línguas e que serão estruturados em termos de sua ancoragem à ontologia, isto é, em termos da (IIc) especificação da relação de significação entre o item lexical e o conceito da ontologia por ele lexicalizado, e do (IId) alinhamento semântico entre os itens lexicais das duas línguas decorrente dessa ancoragem, que resulta, conforme adiantamos, na proposição dos objetivos, em um ontoléxico do domínio, um dos alvos aplicados da pesquisa e com o qual faremos o exercício exploratório de implementação no editor Protégé para demonstrar o seu potencial de gerar automaticamente uma obra de referência léxico-conceitual bilíngue. 3 Glosa é uma definição informal que explicita um conceito; no contexto da WordNet, por exemplo, o synset {embroidery, fancywork} tem como glosa “decorative needlework” (trabalho de agulha decorativo). 4 Como a atividade Ia’ (coleta de itens lexicais) é concomitante à atividade Ia (identificação de conceitos), usamos a’ para indicar essa simultaneidade. 13 2 FUNDAMENTOS: CORPORA, LÉXICOS, ONTOLOGIAS E EDITOR Nesta seção, apresentaremos, em 2.1, os variados recursos dos quais nos valemos para cumprir parte dos objetivos propostos, sendo que uma atividade para um desses objetivos, a coleta de informações, será especificamente tratada na subseção 2.2. Já em 2.3, estudaremos os léxicos e as ontologias, bem como a interface entre ambos, que nos levará à investigação de um terceiro conceito fundamental: o ontoléxico. Um exercício que exemplifica o alinhamento entre léxicos e ontologias poderá ser conferido na subseção 2.4, e em 2.5 será apresentado o editor de ontologias Protégé-OWL, importante ferramenta para se trabalhar na interface estudada. Em se tratando de um estudo do ponto de vista do processamento automático de línguas naturais, estruturamos os níveis de investigação conforme metodologia proposta por Dias-da-Silva (1996, 2006): o linguístico, o linguístico-computacional e o computacional, que correspondem, respectivamente, a: [...] a “extração do solo” (isto é, a explicitação dos conhecimentos e habilidades linguísticas), a “lapidação” (isto é, a representação formal desses conhecimentos e habilidades) e a “incrustação” (isto é, a construção do programa de computador que codifica essa representação). (DIAS-DA- SILVA, 2006, p.122) Em cada nível do estudo PLN se entrecruzam variadas disciplinas, como a Inteligência Artificial, as Ciências da Computação, a Filosofia da Linguagem, a Linguística, entre outras, cada uma oferecendo os recursos teóricos e metodológicos de sua especialidade. No que diz respeito à construção de ontologias, a interação com os recursos linguísticos se tornou um dos tópicos em evidência no PLN e vem acrescentando novas possibilidades aos produtos desenvolvidos, pois ontologias linguisticamente motivadas, ou ontoléxicos, são o futuro da Web Semântica (HUANG et al., 2010; HIRST, 2004). Especificamente, fundamentamos nosso estudo na teoria da semântica lexical, pura (CRUSE, 1986; FILLMORE, 1976; JACKENDOFF, 2002; SINGLETON, 2000) e computacional (FELLBAUM, 1998; HANDKE, 1995; IDE; GREENSTEIN; VOSSEN, 1998; VOSSEN, 1998), com auxílio de pesquisas em corpus (ALUÍSIO; ALMEIDA, 2006; TEUBERT; �ERMÁKOVÁ, 2007), assim como na metodologia de construção de ontologias 14 (DING; FOO, 2002; FRANÇA, 2009; GELLER; PERL; LEE, 2004; GRUBER, 1993; HUANG et al., 2010; PINTO; MARTINS, 2004). A pesquisa culmina com a proposição de um ontoléxico do domínio conceitual da IBI (FRANÇA, 2009; HIRST, 2004; HUANG et al., 2010; PRÉVOT; BORGO; OLTRAMARI, 2010), cuja implementação (HORRIDGE, 2004) tem o potencial de gerar produtos como dicionários bilíngues (KRIEGER; FINATTO, 2004). 2.1 As fontes de informação do domínio léxico-conceitual IB(I) O trabalho empírico de construção do ontoléxico, detalhado na seção 3, concentra-se na coleta de itens lexicais5 do português e do inglês que denotam conceitos do domínio léxico-conceitual da IBI, sem descuidarmos, quando relevante para a descrição do ontoléxico desse domínio, da coleta de itens lexicais que denotam os conceitos do domínio léxico- conceitual mais geral da indústria do bordado (IB). No domínio léxico-conceitual da IB temos inseridos, então, todos os conceitos relativos à indústria do bordado, que, por sua vez, não lhe são necessariamente exclusivos e podem ser compartilhados com outros domínios (por exemplo, o conceito TESOURA), conforme o esquema da Figura 1, que, com cores e intersecções diversas, mostra diferentes domínios e sobreposições de domínios conceituais. Figura 1. Esquematização do relacionamento de diferentes domínios conceituais. 5 Dada a problemática, há muito tempo discutida, sobre a noção de “palavra” (ALLAN, 2001; SINGLETON, 2000), empregamos a noção de “item lexical” que advém de Jackendoff (2002, p.152-153), para quem desde afixos até expressões idiomáticas ou frases inteiras convencionalizadas são considerados itens lexicais; isso porque tais estruturas da língua, armazenadas no “léxico mental” (LM), ou “memória lexical de longo-prazo”, podem ser articuladas (em correspondências com outros constituintes fonológicos, sintáticos e conceituais) por um falante numa construção online capaz de expressar partes de seu discurso que não estavam armazenados no LM. Reservamos, como o fazem os estudiosos da rede FrameNet, o termo “unidade lexical” para designar cada sentido de um item lexical. 15 Essa coleta de itens lexicais e da apreensão dos conceitos de domínio por eles lexicalizados é feita a partir do corpus exposto nesta seção. A identificação, análise e sistematização das informações dessas duas naturezas, lexical e conceitual, são essenciais para a proposição do ontoléxico domínio léxico-conceitual da IBI. Por essa razão, ao longo desta dissertação, descrevemos a base teórico-metodológica e as ferramentas que nos amparam no desenvolvimento dessas três atividades. O corpus da pesquisa, por sua vez, é constituído tanto por recursos não-estruturados (livros, teses, artigos, relatórios e entrevistas) quanto por recursos estruturados (dicionários, enciclopédias, glossários e duas redes estruturadas lexicogramaticalmente, as redes WordNet a FrameNet, que apresentamos na subseção 2.1.5) e embasa-se fundamentalmente no conceito de corpus adotado pela Linguística: Conjunto do material recolhido e bem delimitado no tempo e no espaço apto a servir para a descrição linguística. O corpus é uma amostra representativa da língua a descrever, pois de sua análise resultará a descrição, que dele não pode ou não deve fugir. Pode-se obter um corpus por diversas maneiras: selecionando informantes e anotando as informações; gravando conversações casuais ou preparadas de um número determinado de falantes; recolhendo obras escritas que representem um determinado registro de língua e baseando a descrição num determinado número delas. (BORBA, 1976, p.25) Parte do material que utilizamos não está em formato eletrônico6 e é, então, trabalhada manualmente, já outra parte coletada originalmente nesse formato ou transcrita para ele pode ser analisada com mais agilidade por meio de ferramentas e procedimentos que descrevemos ao longo desta seção. 2.1.1 Dicionários e enciclopédias Dicionários e enciclopédias são fontes para a coleta dos itens lexicais e para a consulta de informações de natureza lexical e enciclopédica relacionadas a esses itens. 6 Em seu artigo, Aluísio e Almeida (2006, p.156-158) destacam que um dos pontos nos quais a Linguística e a Linguística de Corpus se diferenciam é exatamente no conceito de corpus que cada uma adota: para a última há a necessidade de os dados estarem em formato eletrônico para que haja processamento por máquina. 16 Os léxicos das línguas naturais, parcialmente registrados em produtos como dicionários, relacionam-se com o conhecimento enciclopédico registrado também parcialmente em enciclopédias. Ao adotarmos a concepção de léxico e enciclopédia de Allan (2001), consideramos o léxico um acervo de informações sobre os itens lexicais e a enciclopédia um acervo com informações sobre o que os itens lexicais denotam. Nessa concepção, o léxico faz parte da enciclopédia: “A enciclopédia é uma base de conhecimentos gerais da qual o conhecimento lexical é uma parte própria – a informação lexical é um tipo particular de informação enciclopédica.” (ALLAN, 2001, p.101, tradução nossa7)8. Assim, ao mesmo tempo em que o léxico é parte da enciclopédia, o conhecimento enciclopédico pode também fazer parte dos dicionários, conforme atestam Prévot et al. (2010): [...] quando a língua é tomada como um artefato social no qual o contexto cultural é um elemento ativo de sua definição, muitas regularidades do conhecimento enciclopédico merecem ser integradas em dicionários. (p.20)9. As obras selecionadas para a extração desses tipos de conhecimentos são, pois, as enciclopédias Mirador (1976), Britannica (1974) e Larousse (1970) e os dicionários Aurélio (FERREIRA, 2004), Dicionário de usos do português (BORBA, 2002), Houaiss (HOUAISS, 2001) e Michaelis (WEISZFLOG, 1998), para o português brasileiro, e Macmillan (2007) e Random House (1996), para o inglês. Como quase todas elas são obras legíveis com máquina10, o acesso a informações, via itens lexicais, é dinâmico e ainda conta com a pesquisa reversa, que permite a busca de itens lexicais nas definições das entradas dos dicionários. 7 Dada a informação de que traduzimos todas as citações diretas de textos originalmente escritos em inglês, dispensamos a notação “tradução nossa” em cada citação. 8 “The encyclopedia is a general knowledge base of which lexical knowledge is a proper part – lexical information is just one kind of encyclopedic information.” 9 “[...] when language is taken as a social artifact in which cultural context is an active element of its definition, many regularities from encyclopedic knowledge deserve to be integrated in dictionaries.” 10 WILKS et al. (1993, p.341) esclarecem que esses tipos de dicionários, os legíveis com máquina, contêm conhecimento sobre língua e mundo essenciais para tarefas em PLN, mas, porque foram desenvolvidos por lexicógrafos para leitores humanos, não apresentam esse conhecimento em um formato que possa ser diretamente aproveitado no PLN. Eles enaltecem a necessidade de dicionários tratáveis por máquina, que são dicionários legíveis com máquina transformados, por algum método computacional, em um formato manipulável pelo PLN. 17 2.1.2 Teses, artigos, relatórios, livros e glossários Teses, artigos e relatórios que descrevem a realidade do domínio léxico-conceitual da IBI do ponto de vista econômico e/ou do sócio-cultural, conforme citamos na contextualização da subseção 1.2, compõem os recursos para o corpus elencados no Quadro 1, juntamente com folders, catálogos e outros materiais de divulgação dos produtos comercializados na cidade de Ibitinga. Teses, artigos, relatórios, livros e glossários, dentre outros, compõem recursos, como os destacados no Quadro 2, que abordam a arte e/ou a indústria do bordado em geral, ou seja, no domínio léxico-conceitual da IB. • Introdução da prática de medição de desempenho para produção sustentável no cluster industrial de Ibitinga (ARAUJO et al., 2008) • Um estudo sobre os mecanismos de coordenação na determinação de custos e formação de preços no aglomerado de pequenas empresas de Ibitinga (BACIC; SOUZA, 2008) • O trabalho das bordadeiras de Ibitinga: fragmentação e subordinação (CINTRÃO, 1990) • A experiência da FIESP junto ao APL de enxovais de cama, mesa e banho e enxovais para o bebê de Ibitinga (FIESP, 2006) • Território e ambiente institucional: o arranjo produtivo local (APL) “Bordados de Ibitinga-SP” (FLORIAN; LORENZO, 2008) • Aglomeração de pequenas e médias empresas como ambiente propício à melhoria de desempenho – caracterização do arranjo produtivo local do setor de confecção de bordados de Ibitinga (GEROLAMO et al., 2005) • As bordadeiras de Ibitinga: trabalho a domicílio e prática sindical (LEITE, 2009) • Especialização produtiva e aglomeração industrial: uma análise da indústria de confecções de Ibitinga-SP (MATUSHIMA, 2005) • A Experiência no APL de enxovais bordados de cama, mesa e banho de Ibitinga (TURCO, 2007) • Porque acreditar em Ibitinga (ROSA, 1991) • 39 artigos do “Jornal da Cidade”11 publicados entre 1999 e 2010 Quadro 1. Recursos não-estruturados para investigação do domínio léxico-conceitual da IBI. • De bonecas, flores e bordados: investigações antropológicas no campo do artesanato em Brasília (CANANI, 2008) • Do arado ao bordado: mudança no trabalho do homem do Sertão (CHAGAS, 2007) 11 O “Jornal da Cidade”, da cidade de Bauru, vizinha de Ibitinga, é o periódico que mais noticia a cidade de Ibitinga em sua região. 18 • Glossário de termos têxteis e afins (COSTA, 2004) • Entrevista com bordadeiras do Morro São Bento de Santos: uma reminiscência dos bordados da Ilha da Madeira (CRUZ, 2007) • Art in Needlework – a book about embroidery (DAY, 1900) • Handbook of Embroidery (HIGGINS, 1880) • Bordado como assinatura: tradição e inovação do artesanato na comunidade de Barateiro – Itapajé/CE (OLIVEIRA, 2006) • Bordados e rendas – cama, mesa e banho: estudos de mercado SEBRAE/ESPM (SEBRAE, 2008) • Bordados Tradicionais Portugueses (SILVA, 2006) • Bordados Tradicionais Portugueses (VIEIRA, 2002) Quadro 2. Recursos não-estruturados para investigação do domínio léxico-conceitual da IB. 2.1.3 Entrevistas As entrevistas com informantes especialistas, além de auxiliarem na contextualização do domínio, são recursos que agilizam a coleta dos itens lexicais, o recorte e a descrição dos conceitos que compõem o léxico e a ontologia do domínio, pois explicitam conhecimentos lexicais e enciclopédicos. Por exemplo, ao perguntarmos a um informante o que é uma semaninha, ele, trilhando inconscientemente o percurso semasiológico, nos fornece a glosa, “jogo de sete panos de prato bordados ou pintados, cada um deles representando um dia da semana”, que nos leva ao conceito SEMANINHA12 lexicalizado pelo item lexical semaninha. Se perguntarmos o que é e como se chama a peça bordada na qual ele trabalha, o informante, agora pelo percurso onomasiológico, nos retorna tanto o conceito quanto o item lexical com o qual ele se refere àquela peça em português13. Com as entrevistas fica evidenciado o “vai e vem” pelos percursos onomasiológico e semasiológico, sendo que tal movimento é recorrente também na análise de outros recursos do nosso corpus, por exemplo, em buscas de conceitos/itens lexicais em dicionários. 12 A representação dos conceitos é o seu rótulo em caixa alta. 13 Babini (2006, p.39-40) retoma Bernard Pottier na explicação dos dois percursos gerativos da enunciação: no percurso onomasiológico o emissor vai da intenção de dizer ao enunciado, já no semasiológico o receptor vai do enunciado a sua interpretação. Por exemplo, se o conceito SEMANINHA lexicalizado por semaninha é desconhecido para o leitor desta dissertação, será necessário recorrer à definição proposta no texto, para então, semasiologicamente, apreender o conceito SEMANINHA. 19 2.1.4 Outros corpora estruturados e a Web como corpus O universo digital da Web disponibiliza, para o estudioso da linguagem preparado e atento, um volume considerável e rico de material linguístico, ao conter grande número de textos, das mais diversas naturezas, disponíveis para a análise. Não é sem tempo que se encontram trabalhos que demonstram a relevância de utilizarmos a “Web como corpus” (LENCI, 2010)14. Na Web, nos valemos também de corpora estruturados acessíveis gratuitamente e com ferramentas de busca inteligentes, como o ‘Corpus do NILC’15 (Núcleo Interinstitucional de Linguística Computacional, da USP de São Carlos), que contém textos brasileiros do registro jornalístico, didático, epistolar e redações de alunos; ou o maior corpus de acesso gratuito para o inglês, ‘The Corpus of Contemporary American English’16, ou ainda seu correspondente para o português, o ‘Corpus do Português’17. São também parte de nosso corpus textos coletados de sites desenvolvidos para buscas específicas, dentre os quais citamos o ‘One Look dictionary search’18, que localiza definições em várias referências on-line como dicionários e enciclopédias, e o ‘WebCorp Live’19, que permite fazer buscas com filtros, concordância de palavras e/ou em domínios específicos. Não desconsideramos os sites em geral para a localização (com URL direto ou por motores de busca como o Google) de anúncios comerciais, notícias, e-books de cursos, etc., tanto os relativos ao domínio léxico-conceitual relativo à cidade de Ibitinga quanto os de outras localidades (no domínio léxico-conceitual da IB). Lenci (2010) caracteriza bem a importância da utilização desses tipos de recursos em língua natural no desenvolvimento de pesquisas em domínios de conhecimento: [...] documentos – desde a Wikipedia a artigos científicos e relatórios técnicos – são o repositório primário de conhecimento de uma certa comunidade. Portanto, eles podem ser minerados para identificar os itens de 14 Embora a Web facilite o acesso e a distribuição de diversos corpora, não ignoramos a advertência de Aluísio e Almeida (2007), para quem a web como corpus deve ser usada com cautela. As autoras, por outro lado, apontam para a alta relevância dos corpora manipuláveis pelo computador, em oposição aos corpora compostos por textos impressos. 15 Disponível em: . Acesso em: 04 jun. 2011. 16 Disponível em: . Acesso em: 04 jun. 2011. 17 Disponível em: . Acesso em: 04 jun. 2011. 18 Disponível em: . Acesso em: 04 jun. 2011. 19 Disponível em: . Acesso em: 04 jun. 2011. 20 conhecimento mais relevantes para caracterizar um domínio particular, e usá-los para alimentar o processo de criação da ontologia. (p.249)20. Dentre os recursos do corpus, demos relevo ao uso de teses, artigos, relatórios e livros para a extração de conceitos e de itens lexicais do domínio léxico-conceitual da IBI, já que os demais recursos são mais apropriados para extração de conceitos e itens lexicais domínio léxico-conceitual IB. Conforme argumenta Sardinha (2000, p. 348): [...] a quantidade de textos de uma variedade ou domínio específicos nos corpora gerais é pequena. Assim, normalmente, corpora compilados em pequena escala por pesquisadores individuais acabam sendo mais representativos do que os respectivos sub-corpora dos corpora gerais. Teubert e �ermáková (2007) expõem os limites enfrentados pela Lexicografia para representar o vocabulário de uma comunidade de discurso: Não podemos esperar tornar o discurso em um todo acessível para nossas investigações lexicográficas, mas podemos compilar corpora maiores e maiores e podemos também usar a crescente Internet como um corpus virtual. No entanto, como novas palavras e construções são cunhadas dia a dia, é conceitualmente impossível propor um corpus que compreenda todo o vocabulário de uma comunidade de discurso. (p. 46)21. Essa limitação, talvez impossível de ser superada, dada a própria natureza das línguas naturais, se impõe para as pesquisas, desde aquelas que focam um domínio pontual, como no nosso caso, até aquelas que visam a descrever toda uma língua ou a estudar aspectos específicos dela (sozinha ou em comparação com outras línguas). Por isso, a constituição do corpus com o qual trabalhamos é diversificada. 20 “[...] documents – from Wikipedia to scientific papers and technical reports – are the primary repository of the knowledge of a certain community. Therefore, they can be mined to identify the knowledge items most relevant to characterize a particular domain, and use them to feed the ontology creation process.” 21 “We cannot hope to make the discourse as a whole accessible to our lexicographic enquiries, but we can compile larger and larger corpora, and we can also use the ever-growing Internet as a virtual corpus. Nevertheless, as new words and phrases are coined day by day, it is conceptually impossible to come up with a corpus that comprises the whole vocabulary of a discourse community.” 21 2.1.5 As redes wordnets e framenets Conforme adiantamos, fazem parte dos recursos lexicogramaticais estruturados do nosso corpus duas redes semântico-conceituais decisivas para a montagem do ontoléxico em construção: as redes WordNet de Princeton e FrameNet de Berkely. 2.1.5.1 A rede WordNet O constructo linguístico-computacional WordNet (FELLBAUM, 1998), doravante rede WN.Pr, desenvolvido por George Miller e sua equipe, entre as décadas de 1980 e 90, na Universidade de Princeton, é uma rede que estrutura os conceitos expressos no léxico do inglês, sendo que esses conceitos lexicalizados organizam-se em termos de synsets (synonym sets = conjuntos de sinônimos). Um synset, fundamentando-se na sinonímia contextualmente motivada, reúne itens lexicais como embroidery e fancywork, porque podem ser usados, em um dado contexto, para expressar um mesmo conceito22. Além da sinonímia, que agrupa os itens lexicais em synsets, a rede WN.Pr abriga outros três tipos de relações: a antonímia (oposição de sentidos), a hiponímia/hiperonímia (subordinação/superordenação) e a meronímia/holonímia (parte-todo), que relacionam os synsets (isto é, os conceitos lexicalizados)23. Desse modo, na constituição da rede, cada synset é um nó e cada relação que ele estabelece com outros synsets é um arco. O Quadro 3 exemplifica as relações que estruturam uma rede como a rede WN.Pr. Além dos synsets formados por substantivos, a rede WN.Pr também contém synsets formados por verbos, para os quais prevê as relações semânticas da troponímia e acarretamento24, e adjetivos, para os quais prevê a relação de antonímia, também prevista para os synsets de substantivos. Marginalmente, contém também synsets de advérbios. 22 Entendido o fato de que a sinonímia exata é rara em línguas naturais, para a rede WN.Pr, são considerados sinônimos os itens lexicais que são intercambiáveis em um dado contexto. 23 A rede WN.Pr estrutura-se, então, em termos de relações lexicais (entre os itens lexicais sinônimos que compõem os synsets) e relações conceituais (entre os conceitos da rede, lexicalizados nos synsets). 24 Troponímia é um termo cunhado pelos desenvolvedores da WN.Pr para denotar a relação de hiponímia entre synsets de verbos. Por exemplo: {embroider, broider} tem como tropônimo {purl} (bordar com linha de ouro ou prata), ou seja, este codifica um modo particular de executar a ação codificada naquele; já a relação (unilateral) 22 SYNSETS (a) {tambour1, embroidery frame, embroidery hoop} (b) {framework, frame2, framing} (c) {brace, bracing} RELAÇÕES LÉXICO-CONCEITUAIS hiperonímia / hiponímia meronímia / holonímia (b) é hiperônimo de (a) (a) é hipônimo de (b) (b) tem (c) como parte (c) é parte de (b) Quadro 3. Estruturação léxico-conceitual na rede WN.Pr. Fellbaum (1998) reconhece que “[...] não existem relações semânticas diferentes suficientes na WordNet.” (p.36)25, já que seus desenvolvedores limitaram-se às relações que acreditavam ser de mais ampla aplicabilidade e de maior familiaridade; em decorrência disso, ocorre o que se denomina the tennis problem (FELLBAUM, 199826; MARCELLINO; DIAS- DA-SILVA, 2009), ou seja, “o problema do jogo de tênis”. Trata-se da falta de conexão entre itens lexicais de um mesmo domínio conceitual dentro da rede WN.Pr: não há, por exemplo, em uma wordnet, uma relação que ligue o synset {darning needle, embroidery needle} ao synset {thread, yarn}. Seguindo a metodologia de montagem da rede WN.Pr para a descrição do léxico do inglês norte-americano, outros projetos foram propostos para o desenvolvimento de outras wordnets e de wordnets multilíngues, como a rede EuroWordNet (VOSSEN, 1998), uma “multiwordnet” que alinha semanticamente as wordnets em construção para as línguas da União Europeia. A rede WordNet.Br, doravante rede WN.Br (DIAS-DA-SILVA, 2007, 2006, 2004), motivadora de estudos e produções de nossa Iniciação Científica (MARCELLINO, 2008; MARCELLINO; DIAS-DA-SILVA, 2008; RODRIGUES; MARCELLINO; DIAS DA SILVA, 2008) e desta pesquisa, é uma iniciativa, em andamento, de construção de uma rede wordnet similar para o português brasileiro. Para facilitar a construção dessas wordnets internacionais e o mapeamento entre elas, Vossen (1998) propôs o Índice-Interlíngue (Interlingual-Index, ILI) que engloba todos os synsets da rede WN.Pr versão 1.5 e permite que as wordnets em construção para as outras de acarretamento entre synsets de verbos pode ser exemplificada pelos synsets {dream} e {sleep, kip, slumber, log Z's, catch some Z's}, em que o primeiro acarreta o segundo. 25 “[...] there are not enough different semantic relations in WordNet.” 26 Fellbaum (1998, p.34) ilustra esse problema explicando que o vocabulário especializado do tênis está presente em toda parte e em parte alguma da rede WN.Pr: os equipamentos do tênis localizam-se no arquivo noun.artifact, os jogadores em noun.person, a quadra em noun.location, etc; os substantivos que co-ocorrem em discussões sobre tênis estão, então, espalhados pela rede sem que nada os relacione. 23 línguas conectem os seus synsets aos synsets correspondentes à base ILI, o que torna o ILI um agrupamento de todos os conceitos de todas as wordnets cujo mapeamento de synsets é muito útil para várias aplicações no cruzamento de línguas (PEASE; FELLBAUM, 2010, p.34). Vossen (em VOSSEN, 1998 e IDE; GREENSTEIN; VOSSEN, 1998) ainda define a metodologia para o mapeamento entre as wordnets, parte importante dela, da qual nos valemos nesta pesquisa, corresponde à especificação do alinhamento semântico (ou co- indexação) entre synsets. Por exemplo, o synset {dirigir, guiar, pilotar} da rede WN.Br é alinhado a {drive} (wordnet do inglês), a {guidare} (wordnet do italiano) e a todos os outros synsets de redes diferentes que se alinharem ao mesmo ILI {drive}. A notação EQ_SYNONYM é utilizada para indicar a relação direta entre synsets sinônimos de wordnets diferentes, dessa maneira, no alinhamento entre a rede WN.Br e a rede WN.Pr temos, por exemplo, {bordador} EQ_SYNONYM {embroiderer}, conforme ilustrado na Figura 2. Figura 2. Synset {bordador} construído para o português, e o seu alinhamento com o synset {embroiderer}. Observamos, na Figura 2, que a construção27 do synset envolve a representação de várias informações: o próprio item lexical (nesse caso apenas um, bordador, mas poderia haver outros se fossem identificados sinônimos para ele), a glosa “alguém que faz ornamentos 27 Esse synset, assim como os outros em desenvolvimento para a base brasileira e, no caso desta pesquisa, para o ontoléxico do domínio léxico-conceitual da IB(I), foi construído no arquivo padrão que segue as especificações necessárias para que seja possível sua implementação no editor que viabiliza o alinhamento entre a rede WN.Br e a rede WN.Pr através do ILI. 24 com bordados” e a frase-exemplo de seu emprego, extraída de corpus, “Estávamos entrevistando os bordadores”. Além disso, o synset recebe28 o mesmo ILI do synset da rede WN.Pr (indicado pela numeração 09408405). Desse modo, os synsets, que então representam um mesmo conceito, estão alinhados pela relação de sinonímia. A co-indexação das bases, por sua vez, permite à rede WN.Br herdar o tipo semântico29 do synset (uma informação importante para sua categorização) e a estrutura hierárquica da rede WN.Pr, pela Figura 2, notamos que é possível conhecer, por exemplo, o synset hiperônimo de {embroiderer}, o {needleworker}, sob o qual estão representados, por meio de synsets, outros conceitos além de o de BORDADOR; ter acesso a esses outros conceitos, bem como aos itens lexicais que os lexicalizam, já nos permite enriquecer a base da rede WN.Br e, sobretudo, construir o ontoléxico do domínio léxico-conceitual da IBI, conforme veremos ao longo da seção 3. No entanto, podemos nos deparar com a impossibilidade de fazer alinhamento direto entre synsets, ou qualquer outro tipo de alinhamento, o que reflete lacunas nas estruturas das wordnets ou lacunas nas línguas, o que é comum. Diferentes notações foram definidas para os casos em que o alinhamento entre um synset X (de uma wordnet) e o synset Y (de outra wordnet) é indireto: • X é mais específico que Y � X EQ_HAS_HYPERONYM Y; • X é mais genérico que Y � X EQ_HAS_HYPONYM Y; • X associa-se a Y e a Y’ � X EQ_NEAR_SYNONYM Y; • X e X’ associam-se a Y �X EQ_NEAR_SYNONYM Y. A importância de redes com organização paradigmática conceitual, como as wordnets, se reflete nos diversos trabalhos de PLN que utilizam a rede WN.Pr de várias maneiras, inclusive aproveitando a ontologia que lhe subjaz: “A ontologia implícita nas hierarquias dos substantivos têm recebido especial atenção dos linguistas computacionais” (FELLBAUM, 28 Rodrigues, Marcellino e Dias-da-Silva (2008) descrevem parte dos procedimentos metodológicos para o alinhamento de synsets de substantivos, que envolve, basicamente, a análise dos synsets do português e do inglês fundamentada nas teorias de investigação léxico-semântica e nas teorias de construção e co-indexação de wordnets, contando também com o auxílio de recursos como dicionários e corpora. 29 Os tipos semânticos propostos na base da rede WN.Pr são: noun.Tops, noun.act, noun.animal, noun.artifact, noun.attribute, noun.body, noun.cognition, noun.communication, noun.event, noun.feeling, noun.food, noun.group, noun.location, noun.motive, noun.object, noun.person, noun.phenomenon, noun.plant, noun.possession, noun.process, noun.quantity, noun.relation, noun.shape, noun.state, noun.substance e noun.time. Esses tipos semânticos acompanham os synsets, agrupando-os nessas grandes categorias semânticas, e derivam do desenvolvimento dos unique beginners que embasaram a WN.Pr. 25 1998, p.44)30. Sobre as características da rede, Prévot et al. (2010) resumem que a “[...] WordNet é, em princípio, um léxico, já que todas as suas entradas são expressões linguísticas, mas a estrutura semântica definida pelos synsets e por suas relações tem sido frequentemente utilizada como uma ontologia linguística [...]” (p.11)31. 2.1.5.2 A rede FrameNet A rede FrameNet (FILLMORE; JOHNSON; PETRUCK, 2003), por sua vez, é uma implementação computacional da semântica de frames (FILLMORE, 1976), em que os frames, que representam situações/cenas/domínios, são estruturados, a partir da análise de frases e textos escritos em inglês norte-americano, em termos de relações temáticas dentro do frame (Role, Means, Place, dentre outras) e de relações entre frames (Inherits From, Is Used By, Has Subframes, dentre outras). As informações de uma rede FrameNet, por estarem sintagmaticamente estruturadas, de certa forma, complementam as informações de uma rede WordNet. Uma rede FrameNet inclui também unidades lexicais (lexical unities, LUs), sendo que cada LU evoca um frame com o seu conjunto de elementos, os elementos do frame (frame elements, FEs)32. Por exemplo, o frame Physical_artworks contém FEs, que são as relações temáticas, como Artifact, considerado o elemento nuclear do frame (Core), Creator, Material, Time_of_creation, Type, dentre outros, e está associado a LUs como drawing.n, painting.n, photograph.n, sculpture.n., etc. Em linhas muito gerais, um sistema de frames pode ser concebido como uma representação conceitual linguisticamente motivada de um domínio experienciado. No nosso caso, o domínio léxico-conceitual da IBI. Os frames, nas palavras de Allan (2001), “[...] identificam os traços, atributos e funções características de um objeto do mundo, e a suas interações características com coisas típica ou necessariamente associadas a ele.” (p.251)33. 30 “The ontology implicit in the noun hierarquies has received special attention from computational linguists.” 31 “[...] WordNet is primarily a lexicon since all its entries are linguistic expressions, but semantic structure defined by the synsets and their relations have frequently been used as a linguistic ontology [...].” 32 É importante destacar que, na rede FrameNet, a unidade lexical, por definição, é uma unidade léxica não ambígua. 33 “Frames identify the characteristic features, attributes, and functions of a denotatum, and its characteristic interactions with things necessarily or typically associated with it.” 26 Assim, neste trabalho, prevemos que a representação da valência semântica dos itens lexicais que devem integrar o ontoléxico domínio léxico-conceitual da IBI seja elaborada em termos de uma rede FrameNet, já que, por exemplo, o item lexical bordado pode ser entendido como uma LU do frame Physical_artworks, posto que os FEs Artifact, Creator e Material, dentre outros, são instanciados pelas LUs bordado, bordadeira e linha, respectivamente, da mesma forma, como exemplificam os autores, que as LUs, drawing, Garofalo e marble. 2.2 A estratégia de coleta das informações léxico-conceituais O corpus da pesquisa, descrito na subseção 2.1, fornece informações de várias naturezas via língua natural, por meio da qual temos acesso a duas partes dessas informações que são objetos de busca e análise aqui: a identificação de conceitos (cf. Ia) e a coleta das parcelas dos léxicos do português e do inglês que se relacionam com os conceitos (cf. IIa’ e IIc). Nesta subseção, é principalmente da coleta de itens lexicais, que então nos dá acesso a informações de natureza lexical e conceitual, que tratamos, com foco nas ferramentas e nos procedimentos que nos auxiliam nessa tarefa. O alinhamento entre wordnets também é abordado para mostrarmos como outras tarefas são executadas a fim de coletarmos informações particulares a esses tipos de redes e igualmente importantes para o desenvolvimento do ontoléxico do domínio léxico-conceitual da IBI. A coleta parcial dos itens lexicais nos recursos desta pesquisa se dá majoritariamente de modo manual, conforme é verificado no Apêndice 1, mas ela pode ser facilitada às vezes: ���� por meio de um ambiente específico para armazenamento de sites, o ‘Offline Explorer Enterprise’34 (OEE), que possibilita baixar e armazenar sites, inteiros ou partes, para consultas posteriores. Perante a dinamicidade da Web é importante ter um objeto fixo para se trabalhar, e com o OEE o trabalho consiste em incrementar os recursos da pesquisa com os textos de sites escolhidos, dos quais coletamos os itens lexicais. Através das ferramentas específicas do OEE conseguimos atualizar, no programa, o site trabalhado (opção: “Explorar a URL atual Online”), carregando 34 Offline Explorer Enterprise 5.8.3158 Release: Disponível em: . Acesso em: 04 jun. 2011. 27 eventuais dados, como imagens que tenham sido inicialmente dispensadas, e também fazer buscas através de palavras-chave (opção: “Buscar conteúdo”); ���� pelas opções de busca em sites, conforme apresentamos os corpora como recursos para a pesquisa, ou nos próprios documentos e programas. Por exemplo, o visualizador de arquivos Adobe Reader©35 permite buscas avançadas no próprio documento ou em alguma pasta específica armazenada no computador. A Figura 3 mostra o ambiente OEE. A Figura 4 exemplifica um tipo de busca nesse ambiente, em que a chave “porta” retorna itens lexicais como porta condimentos, porta azeite, porta galão, porta assadeira, porta papel toalha e porta pão. A Figura 5 exemplifica um exercício de pesquisa, usando o item lexical bordado, com o Adobe Reader©. Figura 3. O ambiente OEE (Offline Explorer Enterprise). 35 Visualizador de documentos eletrônicos disponível para download gratuito em Acesso em: 04 jun. 2011. 28 Figura 4. Resultado da busca com a palavra-chave “porta” no ambiente OEE. Figura 5. Exemplo de busca com o Adobe Reader©. 29 Conforme já adiantamos, a maioria dos dicionários que compõem nossos recursos para a pesquisa é do tipo legível com máquina, o que nos permite contar com a funcionalidade da pesquisa reversa. Por exemplo, digitando a palavra-chave “bordado”, coletamos 71 palavras- entrada do Houaiss (HOUAISS, 2001) contendo essa palavra-chave em suas definições, conforme mostra parcialmente a Figura 6. Figura 6. Resultado da pesquisa reversa com a palavra-chave “bordado” no dicionário Houaiss (2001). Quanto ao trabalho com wordnets, se tomarmos a rede WN.Pr como uma ontologia36 (possibilidade explicada há pouco na subseção 2.1.5.1), teremos uma base preliminar motivando a construção da ontologia o domínio léxico-conceitual da IBI para ancorar os fragmentos de léxico desse domínio. Partindo, então, de um conceito coletado nas referências da pesquisa ou na própria WN.Pr, damos início às atividades que levarão à ancoragem e desenvolvimento do ontoléxico o domínio léxico-conceitual da IBI: 1. uma vez determinado o conceito da ontologia (satisfeito o objetivo Ia); 2. procedemos à coleta do item lexical (ou itens) no português que o lexicaliza, caso o conceito já não tenha sido determinado a partir do item lexical, mas em qualquer situação, partindo do conceito ou partindo do léxico, cumprem-se IIa’ e IIc; 3. com as informações conceituais e lexicais já levantadas, o synset pode ser construído, frases-exemplos podem ser extraídas dos recursos e uma glosa pode 36 Podemos também tomar a coleção de conceitos mais ampla, os ILIs, usados no alinhamento entre wordnets. 30 ser proposta, o que corresponde a parte do objetivo Ib (descrição do conceito em termos de uma glosa); 4. o synset pode, então, ser alinhado ao ILI, que corresponde ao seu conceito e ao qual também foi alinhado um synset da rede WN.Pr, o que promove a sua conexão direta (logo, IId é satisfeito) e indireta com os synsets da rede (herança de relações semânticas)37. Logo, a outra parte de Ib, a descrição do conceito em termos da definição de suas relações, se cumpre. Já com a entrevista, com “o vai e vem” pelos percursos onomasiológico e semasiológico, que ilustramos na subseção 2.1.3, o informante nos possibilita, simultaneamente, coletar itens lexicais (cf. IIa’) e identificar conceitos (cf. Ia), o que, por sua vez, nos fornece informações essenciais para a categorização conceitual dos itens lexicais (cf. IIc), um passo fundamental para a proposição do ontoléxico que buscamos, conforme afirma Lenci (2010, p.243): O objetivo primário dos recursos ontoléxicos é caracterizar os tipos semânticos das expressões linguísticas, ou seja, as classes às quais as expressões linguísticas pertencem em virtude de seus significados. Os tipos semânticos podem ser tomados como modos formais e simbólicos de identificar os conceitos expressos pelas expressões linguísticas. Na medida em que significados são relacionados a entidades no mundo, os tipos semânticos correspondem também a categorias de entidades referidas por itens linguísticos.38 Esse outro papel do informante, na categorização de conceitos, é, então, muito relevante para a pesquisa: seu auxílio de especialista permite a identificação e o refinamento das categorias39 ontológicas do domínio léxico-conceitual da IBI. Até o momento propomos algumas categorias para a ontologia, de acordo com o exposto na subseção 3.3. 37 Retomando o exemplo de construção e alinhamento de synset da Figura 2 (p.23): a conexão direta é ilustrada pelo alinhamento {bordador} EQ_SYNONYM {embroiderer}, que proporciona também a conexão indireta, por meio da herança de relações, do synset {bordador} com outros synsets da hierarquia, como o seu hiperônimo {needleworker} ou o seu synset coordenado {sewer}, ou seja, o seu synset “irmão” na hierarquia. 38 “The primary aim of ontolexical resources is to characterize the semantic types of linguistic expressions, i.e. the classes to which linguistic expressions belong in virtue of their meanings. Types can be regarded as formal, symbolic ways of identifying the concepts expressed by linguistic expressions. To the extent that meanings are related to entities in the world, semantic types also correspond to the categories of entities referred to by linguistic items.” 39 Categoria é aqui entendida como conjunto de elementos que compartilham uma ou mais propriedades. 31 2.3 Os conceitos-chave: léxico, ontologia, e ontoléxico Conforme já explicamos, constituirão o ontoléxico lexicalizações dos conceitos dos domínios léxico-conceituais tanto da IBI quanto da IB, sendo que ambos compartilham conceitos com outros domínios, como esquematiza a Figura 1 (p.14). É importante, para situar a pesquisa no cenário teórico dos estudos do léxico, expormos a natureza dessas lexicalizações, que revestem os conceitos com unidades lexicais que, dependendo do cenário comunicativo, ora são chamadas de itens lexicais ora de termos. Dois estudos em especial precisam ser levados em consideração na abordagem desta questão: a Lexicologia e a Terminologia, que [...] embora aproximem-se, porquanto ambas constituem ciências do léxico, distinguem-se pela especificidade de seus objetos. A diferença entre estes, cabe ressaltar, não é outra senão a propriedade que possuem as unidades lexicais chamadas de termos de estruturas linguísticas que, em sua dualidade sígnica, denominam e circunscrevem cognitivamente objetos, processos e conceituações pertinentes ao universo das ciências, das técnicas e das tecnologias; enquanto as palavras, realizando o mesmo processo denominativo e conceitual, cobrem toda a abrangência da realidade cognitiva e referencial apreendida e construída pelo homem. (KRIEGER; FINATTO, 2004, p.43). Desse modo, as conceitualizações humanas em sua totalidade manifestam-se na língua por meio de itens lexicais (ou palavras, para as autoras), sendo que partes específicas dessa totalidade são representadas por termos. Eugen Wüster, difusor das primeiras ideias da Terminologia moderna, que deram origem à Teoria Geral da Terminologia, considerava a Terminologia como um ramo da Linguística Aplicada, diferenciando bem, no entanto, a Linguística da Terminologia, considerando que cabe à primeira a investigação de todos os aspectos da língua geral e que a segunda deve se ocupar do léxico especializado, em que figuram termos com significados específicos da área (monorreferencialidade). Por outro lado, novos estudos terminológicos, incitados por linguistas, começaram a criticar a Teoria Geral da Terminologia e seu ideal normalizador, questionando, por exemplo, as fronteiras traçadas entre item lexical e termo, entre língua comum e língua de especialidade. Dentre as novas investigações terminológicas destaca-se a proposta de Maria Teresa Cabré (CABRÉ, 1999), a Teoria Comunicativa da Terminologia. Essa teoria: 32 [...] articula-se baseada na valorização dos aspectos comunicativos das linguagens especializadas, bem como na compreensão de que as unidades terminológicas formam parte da linguagem natural e da gramática das línguas. O conteúdo de um termo não é fixo, mas relativo, variando conforme o cenário comunicativo em que se inscreve. Não há termos, nem palavras, mas somente unidades lexicais, tendo em vista que estas adquirem estatuto terminológico no âmbito das comunicações especializadas. (KRIEGER; FINATTO, 2004, p.35) Com essa visão da Terminologia de caráter mais linguístico, explica Finatto (2004), o objeto texto precede o objeto termo, em um estudo que foca mais o texto que tenha termos e menos o estudo de termos em textos, afinal, os termos “[...] são as unidades semânticas dominantes ou mais salientes nos textos técnico-científicos. Não obstante, o termo é uma unidade lexical e sua acepção estará definida no texto-fonte, integrando a totalidade da tessitura textual.” (FINATTO, 2004, p.351-352). Priorizando, então, a realização em língua, o estudo terminológico de base comunicativa afirma que “[...] os termos são itens lexicais que não se distinguem da palavra do ponto de vista de seu funcionamento.” (KRIEGER; FINATTO, 2004, p.78), sendo assim, um termo “[...] é elemento da linguagem em funcionamento, dada a sua presença em textos e discursos especializados [...]” (KRIEGER; FINATTO, 2004, p.79). Krieger e Finatto ainda afirmam que “[...] palavra e termo obedecem aos mesmos padrões e sofrem os mesmos efeitos da gramática dos sistemas linguísticos.” (2004, p.46) e que “[...] tal como as outras unidades lexicais dos sistemas linguísticos, as especializadas sofrem processos de sinonímia e comportam variações das mais diferentes naturezas.” (2004, p.79); tais fatores, desconsiderados pela Teoria Geral da Terminologia, que não levava em conta a linguagem em seu funcionamento, são verificáveis em constructos como os synsets. Por exemplo, os synsets da WN.Pr {sunflower, helianthus}, {cameraman, camera operator, cinematographer} ou {cancer, malignant neoplastic disease} abarcam itens lexicais e termos, assim como o ontoléxico para o domínio IBI pretende fazer (por exemplo, em {máquina de costurar, maquininha}), já que não há o comprometimento teórico e metodológico estrito com a Lexicografia e nem com a Terminografia, estudos que abordamos a seguir. A Lexicografia, comumente entendida como a arte (técnica/ciência) de fazer dicionários, explicam Krieger e Finatto (2004, p.47-49), é uma atividade milenar que cada vez mais vem focando e aprimorando o aspecto aplicado do fazer lexicográfico, que é a produção de diversificadas obras dicionarísticas para o léxico geral, e o aspecto teórico, que visa a uma metodologia científica, desse fazer. A Terminografia, ao ser também denominada 33 Lexicografia Especializada, já indica ser correlata à Lexicografia, mas, ao invés de tomar a palavra como objeto de descrição e aplicação, toma o termo, que vai figurar, então, em glossários, dicionários técnicos ou terminológicos e bancos de dados (KRIEGER; FINATTO, 2004, p. 50-53). Os variados produtos dessas duas ciências do léxico admitem certas categorizações. Por exemplo, Babini (2006, p.38-39) menciona os repertórios semasiológicos, que organizam itens lexicais em função da forma, e os repertórios onomasiológicos, que organizam itens lexicais em função dos conceitos que representam. Desse modo: O problema que um dicionário onomasiológico deve resolver é exatamente o inverso daquele de um dicionário semasiológico: dada uma ideia (noção ou conceito), deve-se encontrar a unidade lexical ou o termo que a exprima. Em um dicionário semasiológico, o ponto de partida é o significante de um termo ou palavra; em um dicionário onomasiológico o ponto de partida é o significado. (BABINI, 2006, p. 39). Desta forma, a Lexicografia, com seu método semasiológico, tem como produto o dicionário de língua geral40, e a Terminografia, com seu método onomasiológico, tem o dicionário terminológico. Krieger nos lembra que “[...] para cumprir o programa de repertoriar as unidades lexicais, definir-lhes o significado e configurá-las descritivamente, a prática lexicográfica necessita fazer frente à heterogeneidade constitutiva do léxico.” (2006, p. 144). Essa heterogeneidade acaba refletida nas obras. Por exemplo, é comum verificarmos que um dicionário de língua geral contém mais termos de áreas específicas do que era de se esperar, já que, explicam Krieger e Finatto (2004, p. 131-132), em tese, é inserido em um dicionário comum apenas o vocabulário técnico de base de grandes áreas especializadas. No entanto, estimativas indicam que, em média, a metade do volume registrado nesses dicionários é constituída de léxico especializado, o que denuncia a dificuldade em se traçar fronteiras entre a língua comum e a língua de especialidade. Uma vez que “não há termos, nem palavras, mas somente unidades lexicais”, conforme já citamos em referência de Krieger e Finatto (2004, p.35), o nosso trabalho com o domínio léxico-conceitual da IBI envolve, pois, elementos denominados “palavras” e outros 40 Dicionário de língua geral: “[...] denominação muitas vezes aplicada em razão da obra cobrir a totalidade das realizações léxicas de um idioma. Neste caso, a totalidade não significa o registro exaustivo das palavras de uma língua, desde as mais antigas até os neologismos mais recentes, até porque a lexicografia não consegue acompanhar o dinamismo lexical; mas caracteriza a abrangência do componente léxico, sem privilegiar uma temática específica. A especificidade está nos dicionários que têm por objeto um subconjunto léxico, por exemplo, a terminologia da química, da informática ou do meio ambiente.” (KRIEGER, 2006, p.143-144) 34 denominados “termos”, todos, na verdade, lexicalizando as peças-chave da ontologia que sustenta o nosso ontoléxico: os conceitos. Embora desenvolvamos um trabalho na área dos estudos do léxico e possamos utilizar partes do arcabouço teórico e metodológico desse campo interdisciplinar, ressaltamos que o mapeamento dos conceitos e de seus revestimentos lexicais, neste trabalho, se dá sem a necessidade teórica da classificação dessas lexicalizações. Por isso, adotamos a expressão “itens lexicais”, sem nos esquecermos, é claro, de que tal classificação não poderia ser descartada em uma pesquisa especificamente voltada à Lexicografia e/ou à Terminografia. Conforme viemos explicando, os itens lexicais com os quais trabalhamos são coletados, então, em fontes linguísticas da chamada língua de especialidade (o que os classificariam como “termos”), mas também da chamada língua comum (o que os classificariam como “palavras”). A opção por tais recursos heterogêneos se deu em decorrência da escassez de recursos estruturados que contemplassem com robustez o domínio alvo da pesquisa, sendo esse um empecilho comum aos trabalhos com domínios específicos, conforme relatam Almeida, Oliveira e Aluísio: Embora já exista um número razoável de corpora genéricos (ou de referência, como são chamados) para várias línguas, o número de corpora específicos disponíveis para suporte à pesquisa terminológica ainda é deficiente. Essa deficiência dá-se pela própria especificidade de tais corpora que são muitas vezes construídos para serem utilizados por um período curto de tempo e somente em um projeto, daí se questionar o investimento de grandes esforços na sua compilação e anotação que visam a sua reutilização (ou reuso, como se costuma referir em linguística computacional). Ainda que seja possível construir tais corpora pela busca manual na web, esse processo consome muito tempo, se levarmos em conta os benefícios para pesquisas tão pontuais. (2006, p.43) Desse modo, evidencia-se o fato, já esperado, de contarmos com mais recursos abrangendo o domínio léxico-conceitual mais geral da IB41 do que o domínio léxico- conceitual mais específico da IBI: os textos do Quadro 1 (p.14), juntamente com as transcrições das entrevistas e com os materiais de divulgação que circulam na cidade, por exemplo, estão em desvantagem quantitativa em relação aos demais recursos do nosso corpus, no entanto, abarcam informações altamente relevantes para o desenvolvimento desta pesquisa, 41 Advertimos que “mais geral” não se confunde com “geral”. Aquela é uma relação relativa e esta absoluta e se aplica à definição das ontologias gerais ou Top ontologies, que estrutura conceitos gerais como entidades, eventos, tempo, espaço, etc., conforme será explicado mais adiante. 35 que, ao organizar o domínio léxico-conceitual da IBI, não pode deixar de contemplar os seus níveis superiores. Os estudos sobre a interface ontologia/léxico que visamos a desenvolver neste estudo de mestrado baseiam-se principalmente na obra “Ontology and the lexicon” (HUANG et al., 2010)42, uma referência do que há de mais atualizado nesse campo e que pode beneficiar diversos profissionais como pesquisadores da Engenharia do Conhecimento e da Web Semântica que levam em consideração as línguas naturais, linguistas que visam a investigar como o conhecimento lexical pode ser formalizado e tratado por máquinas e pesquisadores da Linguística Computacional que se interessam por construção de léxicos computacionais. Como muitas são as áreas e subáreas envolvidas na investigação dessa interface, procuramos seguir a terminologia adotada em Huang et al. (2010), que ainda nos fornece grande parte das definições para os conceitos com os quais trabalhamos, não descuidando das importantes contribuições de outros pesquisadores como Hirst (2004), Vossen (2003) e Handke (1995). 2.3.1 Ontologias e léxicos Vossen (2003) discute que, no processamento de informações, nos valemos de informações de naturezas distintas, armazenadas em léxicos e ontologias; para ele, não há consenso na identificação de exatamente quais são as semelhanças e as diferenças entre ambos. Por essa razão, Huang et al. (2010) trazem considerável contribuição para o campo, ao buscarem um olhar apurado sobre as diferentes abordagens e os diferentes quadros teóricos e aplicados que tratam de ontologias e léxicos. Para contextualizarmos e definirmos o que entendemos por ontologia, adotamos a noção vigente no âmbito da “Representação do Conhecimento”, baseada em Gruber, que é a discutida em Prévot et al. (2010) e a que se utiliza no estudo do PLN. Como mostram Geller, Perl e Lee (2004), em levantamento histórico, quando Ross Quillian publicou o artigo Semantic Memory, em 1968, descrevendo um programa de computador que gerava expressões simples de língua natural, ele alcançou um feito que 42 Desde o ano de 2000 ocorre o “OntoLex”, um evento de âmbito internacional, focado justamente no estudo da interface entre ontologias e recursos lexicais. Huang et al. (2010) reúnem os principais artigos, revistos e atualizados, que foram apresentados nesses 10 anos de eventos. 36 inspirou, dentre outras coisas, o desenvolvimento do campo de estudos que seria denominado “Representação do Conhecimento”. Um dos grandes marcos nesse campo deu-se no início da década de 1990, com Thomas Gruber, que lhe oferece uma abordagem diferenciada, a da construção de ontologias43: “Uma especificação de um vocabulário representacional para um domínio de discurso compartilhado – definições de classes, relações, funções e outros objetos – é chamada ontologia” (GRUBER, 1993, p.199)44. Essa definição se aplica também ao léxico, se o concebermos como o conhecimento linguístico que se pode extrair da experiência linguística. No entanto, indicam PRÉVOT et al. (2010, p.3)45, para “[...] entendermos diferenças mais sutis, temos que olhar mais de perto os elementos centrais da criação de ontologia: conceitualização e especificação. O que diferencia léxicos e ontologias encontra-se na interpretação mais clara de tais noções.” Essas noções serão analisadas mais adiante. Chishman (2009, p.113) complementa a definição de Gruber, explicitando os objetivos de uma ontologia: [...] (i) compartilhar conhecimento estruturado de informações comuns entre pessoas e máquinas (sistemas computacionais); (ii) possibilitar o reuso46 do conhecimento de determinado domínio; (iii) tornar explícito o conhecimento sobre determinado domínio; (iv) separar o conhecimento de um domínio do conhecimento operacional de construção de um sistema; (v) analisar o conhecimento de um domínio. Hirst (2004) alerta para o fato de que, embora sejam aparentemente semelhantes a ponto de serem intersubstituíveis em alguns casos, léxicos e ontologias não são a mesma coisa: Uma ontologia, afinal, é um conjunto de categorias de objetos ou ideias no mundo, juntamente com certas relações entre eles: não é um objeto 43 Seguindo o direcionamento de Huang et al. (2010), aceitamos a diferenciação entre “Ontologia” (em maiúscula e no singular) enquanto campo filosófico e “ontologias” (no plural) enquanto artefatos de representação de conhecimento. 44 “A specification of a representational vocabulary for a shared domain of discourse – definitions of classes, relations, functions, and other objects – is called an ontology.” 45 “In order to understand more subtle differences one has to look closer at the central elements of ontology creation: conceptualization and specification. What distinguishes lexicons and ontologies lies in a sharper interpretation of these notions.” 46 Pinto e Martins (2004) identificam dois processos principais de reuso de ontologias: a fusão/incorporação, na qual os conhecimentos armazenados em duas ou mais ontologias de um mesmo domínio são unificados em uma só ontologia, e composição/integração, na qual ontologias de diferentes domínios, depois de passarem por adaptações e especificações, são combinadas em uma só ontologia. 37 linguístico. Um léxico, por outro lado, depende, por definição, de uma língua natural e dos sentidos das palavras dela. (HIRST, 2004, p.216)47. Evidências dessa diferenciação são analisadas por Prévot et al. (2010). Por exemplo, enquanto que a sinonímia e a sinonímia aproximada são relações importantes para os léxicos semânticos, elas não o são para as ontologias formais, como as baseadas em linguagem de lógica de primeira ordem: “Ter dois símbolos que são logicamente equivalentes é uma redundância em qualquer teoria matemática” (PEASE; FELLBAUM, 2010, p.29)48; já no que diz respeito ao uso de itens lexicais, os léxicos apresentam informações sobre usos, mas as ontologias tradicionais não. A distinção entre ontologias formais e ontologias linguísticas também é destacada por Prévot et al. (2010, p.4), sendo que as primeiras são apreendidas através da lógica e são estruturas conceituais formalmente bem formadas, e as segundas, que se baseiam em língua natural, são linguisticamente convencionalizadas, não são formalmente precisas e, por isso, não são estruturas conceituais per se. Quanto aos léxicos, Handke (1995) lembra-nos de que os itens lexicais podem ser armazenados na mente, em livros de referência e em dispositivos de armazenamento conectados a computadores, conforme mostra a Figura 12. Figura 12. Uma tipologia dos acervos de itens lexicais (HANDKE, 1995, p.49). 47 “An ontology, after all, is a set of categories of objects or ideas in the world, along with certain relationships among them; it is not a linguistic object. A lexicon, on the other hand, depends, by definition, on a natural language and the word senses in it.” 48 “Having two symbols that are logically equivalent is a redundancy in any mathematical theory.” 38 Os recursos para esta pesquisa descritos em 2.1 podem ser, então, conformados com a representação do acervo de palavras descrito na Figura 12: de um lado, temos, para ‘dictionary’, tanto obras impressas, como o Dicionário de usos do português do Brasil, (BORBA, 2002), quanto obras em CD-ROM, como o Miniaurélio eletrônico (FERREIRA, 2004); de outro, temos, para ‘lexicon’, constructos como as já citadas redes WordNet e FrameNet, cada uma tratando do léxico mental para a qual foi desenvolvida. Ressaltamos que um léxico computacional é a representação formal, com vistas a aplicações em PLN, de parte de um léxico mental, e que sua capacidade representacional depende do refinamento das relações hierárquicas que contém e da sua ancoragem conceitual. Prévot et al. (2010) explicam que muitas vezes léxico computacional, léxico relacional e recurso lexical são sinônimos no contexto do estudo em PLN, para o qual, informam os autores, dentre as definições possíveis, um léxico pode ser definido como “[...] uma coleção de conceitos linguisticamente convencionalizados [...]” (p.6)49. O constructo de interface, o ontoléxico, emerge das características distintas, embora relacionadas, da ontologia e do léxico. Apesar de ambos representarem conceitualizações compartilhadas, explica-nos Prévot et al. (2010), a primeira trata de conceitos e permite que máquinas processem conhecimento de modo direto (em aplicações da Web Semântica, por exemplo); já o segundo trata de itens lexicais e permite a conexão entre agentes humanos e conhecimento (em aplicações de tecnologia de língua humana, por exemplo). Os autores ainda afirmam que “É nesse contexto que a interface ontoléxico se torna um tópico de pesquisa crucial que conecta o conhecimento humano ao conhecimento da web.” (PRÉVOT et al., 2010, p.5)50. A conceitualização e a especificação de ontologias De acordo com Gruber, toda base (ou sistema) de conhecimento está explicitamente ou implicitamente envolvida com alguma conceitualização51: “[...] uma visão do mundo abstrata e simplificada que desejamos representar para algum propósito.” (GRUBER, 1993, 49 “A lexicon can be defined as a collection of linguistically conventionalized concepts [...].” 50 “It is in this context that the ontolex interface becomes a crucial research topic connecting human knowledge to web knowledge.” 51 França (2009) explica que é com base na noção de conceitualização, como definida por Gruber, que os trabalhos no domínio da Ontolinguística são desenvolvidos. Estudar o conhecimento ontológico, como fazem os pesquisadores da interface ontoléxico, também é um dos interesses da Ontolinguística, que, ao inserir-se no âmbito da linguística cognitiva, caracteriza-se como “[...] uma área de estudo onde se procura encontrar uma ponte entre os mecanismos linguísticos que usamos no nosso dia-a-dia e o nosso conhecimento ontológico.” (FRANÇA, 2009, p.109). 39 p.199)52. Prévot et al. (2010, p.5) explicam que conceitualização, independente de situações específicas ou de línguas de representação, é o processo que leva à extração e generalização de informações relevantes a partir da experiência. Além disso, Cada conceitualização está presa a um único agente, isto é, ela é um produto mental que representa a visão de mundo adotada pelo agente; é através das ontologias, que são especificações desses produtos mentais em alguma linguagem, que agentes heterogêneos (humanos, artificiais ou híbridos) podem julgar se uma dada conceitualização é compartilhada ou não e escolher se vale a pena negociar o significado ou não. (PRÉVOT et al., 2010, p.5)53. Vale lembrar que a linguagem referida na citação anterior não é necessariamente uma língua natural, mas sim um formalismo representacional artificial com vocabulário próprio. É apenas através dessa linguagem que se tem acesso a conceitos. Por isso, se o leigo geralmente se vale de língua natural, uma linguagem formal compreensível por máquinas se faz necessária em sociedades híbridas, compostas por diversos agentes como computadores, robôs e humanos (PRÉVOT et al., 2010, p.5). A conceitualização tem que ser compartilhada entre agentes. No caso de agentes humanos, a conceitualização que a língua natural representa é um processo coletivo e o conteúdo informacional é definido pela coletividade de falantes (PRÉVOT et al., 2010, p.6). O fato de a língua natural servir como fonte de informação é determinante na diferenciação entre ontologia linguística e ontologia conceitual: a primeira, também chamada de ontologia descritiva, toma como recursos para o conhecimento ontológico a língua natural e o senso comum; a segunda, também chamada de ontologia revisionista, se opõe à primeira, ao capturar a natureza intrínseca de um domínio, sem levar em conta os agentes que fazem a conceitualização. Já em ontologias lexicais, a conceitualização baseia-se em critérios linguísticos, ou seja, em informações encontradas em recursos lexicais como dicionários e thesaurus, que, em alguns casos, abarcam também conhecimento do mundo (ou, em outras palavras, conhecimento enciclopédico ou do senso comum). Uma breve relação entre os conhecimentos identificáveis em dicionários e enciclopédias foi apresentada na subseção 2.1.1. 52 “[…] an abstract, simplified view of the world that we wish to represent for some purpose.” 53 “Every conceptualization is bound to a single agent, namely it is a mental product which stands for the view of the world adopted by that agent; it is by means of ontologies, which are language-specifications of those mental products, that heterogeneous agents (humans, artificial or hybrid) can assess whether a given conceptualization is shared or not and choose whether it is worthwhile to negotiate meaning or not.” 40 A ontologia cuja conceitualização se assenta nas experiências compartilhadas entre especialistas é também de interesse do PLN, que estuda como tais ontologias podem ser integradas a outras mais genéricas, conforme relatamos em outras partes deste estudo. No que diz respeito à especificação, ela é a operação através da qual uma ontologia especifica a conceitualização em termos de uma linguagem de representação acima referida, ou seja, uma linguagem que formula a ontologia e que não precisa depender de uma língua natural. Essa linguagem permite que a ontologia, independente do quão complexa e explícita possa ser, funcione como “[...] a base da comunicação, a ponte através da qual o entendimento comum é estabelecido” (PRÉVOT et al., 2010, p.7)54. A natureza dessa linguagem determina se uma ontologia é formal, expressa em uma linguagem formal que impossibilita a existência de ambiguidades, se é informal, expressa, por exemplo, em uma língua natural, ou semi-formal, expressa em uma linguagem que mescla as duas anteriores. Prévot et al. (2010, p.7) também indicam que uma ontologia pode ser bem rigorosa e precisa, mesmo se formulada em língua natural. Nesse caso, denomina-se “ontologia linguística”. Esse tipo de ontologia usa os sentidos de itens lexicais definidos em recursos lexicais (de maneira formal ou semi-formal, como nas wordnets) para criar os conceitos que a constituem. Observamos, entretanto, que esse procedimento precisa ser realizado com rigor, para não corrermos o risco de construir recursos pobres do ponto de vista ontológico. Handke (1995) discute uma especificação importante do léxico enquanto parte de um sistema de PLN, conferindo ao léxico o estatuto de ser: [...] o módulo central de um sistema de processamento de língua natural, seja do homem ou da máquina. Ele interage intimamente com os outros componentes do processador da língua e fornece informações detalhadas sobre as palavras a serem produzidas ou compreendidas. (HANDKE, 1995, p.50)55. Desse modo, explica Handke (1995, p.68), na produção de língua natural, os itens do léxico são coletados para preencher a estrutura conceitual pré-concebida a ser manifestada em língua; já na recepção de língua natural, padrões fonológicos ou grafológicos ativam o léxico mental. Tanto para a produção quanto para a recepção, há a necessidade da especificação de 54 “[…] the basis of communication, the bridge across which common understanding is established.” 55 “[…] the central module of a natural language processing system, whether human or machine. It closely interacts with the other components of the language processor and provides detailed information about the words to be produced or comprehended.” 41 cada item lexical nos aspectos fonológicos, grafológicos, morfológicos, sintáticos e semântico-conceitual. Especificar e explicitar para a máquina tais aspectos vem se mostrando um grande desafio para o PLN, principalmente no que diz respeito ao aspecto semântico. Handke (1995) afirma ainda que a descrição semântica para os itens do léxico “[...] tem que especificar, com bastante detalhe, as relações de sentido, usando formalismos de representação adequados.” (p.90)56, conforme descrevem Prévot et al. (2010) nos parágrafos anteriores, tratando da (in)formalidade de, por exemplo, ontologias linguísticas. A descrição dos fragmentos dos léxicos, frisada por Handke, pode recobrir também aspectos morfológicos, envolvendo, por exemplo, estudos sobre a formação dos itens lexicais que revestem lexicalmente a ontologia do domínio, assim como sobre o caráter de inovação deles. Almofadrom57, por exemplo, é um item lexical característico de um tipo de formação de palavras que Sandmann (1991) denomina cruzamento vocabular. Esse autor descreve os principais tipos de formação de palavras, desde os mais frequentes, como composição e derivação, aos chamados de tipos especiais, que são a reduplicação (tititi, corre-corre), a analogia (metroviário, bode explicatório), a abreviação (japa, PT, óvni) e o cruzamento vocabular (intelijumência, furaquinho). Aprofundando um pouco, citamos os tipos de combinações entre classes de palavras que Borba (2003, p.25) nos traz: nome + nome (ponto fantasia), adjetivo + adjetivo (luso-brasileiro), pronome + nome (Sua Majestade), numeral + nome (dois-de-paus), advérbio + verbo, adjetivo ou nome (bem-querer), verbo + nome (bate mão), verbo + (±e) + verbo (vai vem). Esses processos de formação de palavras destacados por Sandmann e Borba exemplificam a forte predisposição que uma língua tem no que diz respeito à inovação lexical. Sobre isso fala-nos Correia e Lemos (2005), explicando que a neologia “[...] traduz a capacidade natural de renovação do léxico de uma língua pela criação e incorporação de unidades novas, os neologismos.” (p.13). Na língua temos, como demonstração da criatividade lexical, a neologia denominativa e a criação neológica estilística, sendo que a primeira é particularmente interessante para nós, uma vez que estudamos um domínio de conhecimento que, a todo o momento, nomeia novas realidades (especialmente novos objetos) através da criação de itens lexicais como capa de microondas ou bordado computadorizado. 56 “[…] has to specify sense relationships in great detail, using adequate representation formalisms.” 57 O almofadrom é uma [almofada + edredom], que, quando desempacotada, se transforma em um edredom. Essa peça, que é suporte para vários tipos de bordados, foi criada em 2008 na cidade de Ibitinga. O conceito ALMOFADROM pode não ter contrapartida linguística em outras línguas, mas, certamente, integra a ontologia da IBI em algum nível. 42 Correia e Lemos (2005, p.17-18) propõem três níveis para a classificação dos tipos dos neologismos, conforme resume o Quadro 4. • Novidade formal (a sua forma significante é nova): quando o neologismo apresenta uma forma não atestada no estádio anterior de registro de língua;58 • Novidade semântica: quando o neologismo corresponde a uma nova associação significado-significante, isto é, uma palavra já existente adquire um novo sentido; • Novidade pragmática: quando a neologia resulta da passagem de uma palavra previamente usada num dado registro para outro registro da mesma língua. Quadro 4: Tipos de neologismos (CORREIA; LEMOS, 2005, p.17-18). Os diferentes níveis de ontologias As pesquisas com ontologias reconhecem três níveis de especificidade que esses constructos podem apresentar: a ontologia de nível superior (top-level), a de nível intermediário (core level ou reference) e a de domínio (domain ontology ou domain level), conforme está ilustrado na Figura 13, adaptada de Prévot et al. (2010). No nível superior, encontram-se as categorias e relações mais gerais da taxonomia de conhecimento, cujos termos, em sua grande maioria, não estão/são lexicalizados, enquanto que a ontologia de domínio abarca domínios específicos de aplicação (que podem ser bem restritos e cujos termos são praticamente todos lexicalizados); conectando os níveis opostos, está a ontologia de nível intermediário, que tem a maioria dos seus termos lexicalizados. Figura 13. Níveis de especificidade das ontologias (PRÉVOT et al., 2010, p.8). 58 Os itens lexicais que resultam de importação, os estrangeirismos, como richelieu, caracterizam, então, esse tipo de novidade. 43 O conteúdo das ontologias Como se deduz, os elementos de uma ontologia são de natureza conceitual e, como explicam Prévot et al. (2010, p.10), são denominados conceitos, tipos, categorias ou propriedades. Frequentemente eles são caracterizados extensionalmente em termos de classes e correspondem, nesse caso, a conjuntos de instâncias ou indivíduos. Indivíduos (denotados por nomes próprios e outras entidades nomeadas) às vezes são tratados como outros conceitos em ontologias derivadas diretamente de recursos lexicais59, no entanto, a diferença entre classes e instâncias tem que ser bem estabelecida para se construir uma ontologia robusta: [...] a confusão entre conceito e indivíduo não é nada além do produto da “falta de expressividade”. Na verdade, se houvesse uma relação instância- de, poderíamos distinguir entre uma relação conceito-conceito (subsunção) e uma relação indivíduo-conceito (instanciação). (GANGEMI et al., 2010, p.37)60. Usando a rede WN.Pr como exemplo de um léxico baseado no sentido (sense-based lexicon), Prévot et al. (2010, p.11) colocam a problemática de como situar esse tipo de léxico em que os nós não são nem termos puros e nem conceitos puros, mas sim sentidos de palavras que correspondem a um uso convencionalizado de uma palavra. Desse modo, em princípio a rede WN.Pr é um léxico, já que todas as suas entradas são expressões linguísticas, mas a estrutura semântica definida pelos synsets e pelas relações entre synsets tem sido usada como uma ontologia linguística. Na construção de ontologias são destacados dois procedimentos principais61: 1) Top-down: o principal passo do processo é a determinação de uma taxonomia guia que forneça as principais categorias e a arquitetura taxonômica para elas organizada por meio da relação ‘é-um-tipo-de’ (is-a-kind-of). Adaptar tais estruturas a léxicos constitui uma abordagem top-down, pois os sentidos das 59 As primeiras versões da rede WN.Pr, por exemplo, não diferenciam tipos e instâncias, por isso o synset {Rio de Janeiro, Rio} é indicado como “hipônimo-de” (um tipo de) {city, metropolis, urban center} quando na verdade ele é um indivíduo (uma instância). Atenta a essa problemática, a WN.Pr instaura, a partir de sua versão 2.1, a relação “instância-de”. 60 [...] the confusion between concept and individual is nothing but the product of a “lacking in expressiveness”. In fact, if there was an instance-of relation, we could distinguish between a concept-to-concept relation (subsumption) and an individual-to-concept one (instantiation). 61 Ding e Foo (2002) citam também a abordagem middle-out, que visa à construção da ontologia partindo dos conceitos centrais em direção aos mais gerais e aos mais específicos. 44 palavras serão fortemente determinados pela posição de suas ligações na taxonomia. (PRÉVOT et al., 2010, p.11). 2) Bottom-up: nesse processo a ontologia emerge dos itens lexicais, sendo que o questionamento sobre a existência ou não de sentidos de palavras62 pode ser levado em consideração, mas não é essencial; o foco fica sobre os cuidados em se lidar com a granularidade entre os vários recursos de onde provêm os itens lexicais. (PRÉVOT et al., 2010, p.12). Variadas ontologias já foram construídas e estão disponíveis atualmente para toda sorte de aplicação. Sobre a profusão de ontologias desenvolvidas sob diferentes prismas falam-nos Prévot, Borgo e Oltramari (2010): Ontologia, enquanto um ramo da representação do conhecimento, é uma área de pesquisa nova e com várias fragilidades, duas das quais são a falta de metodologias estabelecidas e a falta de um critério de avaliação confiável. Então, não deveria ser uma surpresa descobrir que as ontologias disponíveis hoje têm sido construídas seguindo abordagens discrepantes que resultam em sistemas bem diferentes. (p.188-189).63 Prévot et al. (2010, p. 12) falam de relações de natureza conceitual e de natureza lexical: nas ontologias os conceitos são integrados em um todo coerente por meio de relações que são conceitualmente guiadas e que tomam conceitos como argumentos, nas ontologias formais, por exemplo, a relação ‘é-um’ está sobrecarregada e vem sendo muito usada, embora de maneira pouco definida e sendo correspondida a intuições ativadas pela sua expressão em língua natural (‘é-um’); já nos recursos lexicais, nos quais a preocupação recai sobre a organização de itens lexicalizados, as relações têm apenas natureza conceitual indireta, como no caso da antonímia (estabelecida entre formas de palavras e não entre conceitos) e da hiperonímia (entre sentidos de palavras). Enquanto as ontologias formais vêm se preocupando em como definir a natureza das propriedades formais das relações (se elas se relacionam a classes ou indivíduos, se são reflexivas, simétricas, transitivas, etc.), os recursos lexicais se 62 Prévot et at. (2010) apontam para a impossibilidade de se listar exaustivamente a polissemia regular ou o uso criativo em uma língua natural. Hirst (2004, p.210) comenta que, às vezes, os