Prosódia computacional do português brasileiro: a entoação declarativa neutra gerada por um sistema de síntese de fala baseado em Inteligência Artificial (IA)
Carregando...
Data
Autores
Orientador
Massini-Cagliari, Gladis 

Coorientador
Pós-graduação
Linguística e Língua Portuguesa - FCLAR
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Dissertação de mestrado
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
Esta dissertação investiga a entoação declarativa neutra no português brasileiro, gerada por um recurso de conversão de texto escrito em fala audível baseado em Inteligência Artificial (IA), desenvolvido pela empresa multinacional americana Google. Os objetivos gerais consistem em caracterizar as propriedades entoacionais de enunciados declarativos neutros sintéticos e compará-las com a entoação natural do português brasileiro. Especificamente, objetiva-se identificar os eventos tonais associados ao contorno de entoação dos enunciados declarativos neutros, determinar o padrão entoacional do conjunto de enunciados sintéticos e comparar os aspectos entoacionais desses enunciados com os resultados do estudo de Tenani (2002) sobre a entoação declarativa neutra do português brasileiro em um contexto de fala natural. A pesquisa, auxiliada pela Fonética Acústica, adota uma visão integrada entre a entoação e os domínios prosódicos, com base na Fonologia Entoacional (Ladd, 1996, 2008) e na Fonologia Prosódica (Nespor; Vogel, 1986, 2007), além de considerar os trabalhos que tratam da variação entoacional do português brasileiro. A análise se concentra em enunciados declarativos neutros produzidos por vozes sintéticas do produto investigado, com foco no parâmetro acústico da frequência fundamental (F0). Para a identificação dos eventos tonais associados ao contorno de entoação dos enunciados declarativos neutros, conforme as diretrizes do sistema P-ToBI (Frota; Oliveira, P.; Cruz; Vigário, 2015), são utilizadas a inspeção auditiva e a versão 6.4.04 do software Praat (Boersma; Weenink, 2024). Determina-se o padrão entoacional do conjunto de enunciados declarativos neutros com o auxílio da descrição dos tons atribuídos ao contorno melódico, e a análise entoacional dos dados de fala sintética é comparada com o estudo de Tenani (2002) e outras pesquisas sobre a entoação do português brasileiro. Hipotetiza-se que a entoação desses enunciados decorra da mesma organização fonológica da fala natural do português brasileiro, pois as arquiteturas de redes neurais artificiais são utilizadas para a identificação de padrões prosódicos recorrentes em amostras humanas e para a reprodução robusta de traços melódicos, ainda que por meio de mecanismos estatísticos. Os resultados indicam que os eventos tonais observados correspondem à gramática prosódica do português brasileiro, reforçam a alta densidade tonal dessa variedade linguística e destacam a importância da palavra fonológica na atribuição de acentos tonais. A pesquisa identifica um padrão entoacional predominante, com uma ascendência tonal no começo e uma descendência melódica no término dos enunciados. Ademais, o trabalho mostra que a fala sintética é semelhante à natural, no que se refere à declaração neutra, em termos de eventos tonais, e demonstra a capacidade do Google Cloud Text-to-Speech de gerar, com precisão, a estrutura entoacional dessa modalidade enunciativa no português brasileiro. Em suma, o estudo destaca a compatibilidade da entoação declarativa neutra sintética com a gramática prosódica de falantes proficientes do português brasileiro e contribui para o avanço da Linguística Computacional. Conclui-se que a fala sintética analisada dispõe de propriedades entoacionais similares às da fala natural na declaração neutra, o que evidencia um progresso significativo das tecnologias de síntese de fala baseadas em IA. Essa correspondência comprova que o sistema computacional investigado modela e reproduz a entoação declarativa neutra de maneira consistente e corrobora as hipóteses da pesquisa.
Resumo (inglês)
This dissertation investigates neutral declarative intonation in Brazilian Portuguese, generated by a text-to-speech conversion tool based on Artificial Intelligence (AI), developed by the American multinational company Google. The general objectives are to characterize the intonational properties of synthetic neutral declarative utterances and compare them with the natural intonation of Brazilian Portuguese. Specifically, the objective is to identify the tonal events associated with the intonation contour of neutral declarative utterances, determine the intonational pattern of the set of synthetic utterances, and compare the intonational aspects of these utterances with the results of Tenani's (2002) study on the neutral declarative intonation of Brazilian Portuguese in a natural speech context. The research, aided by Acoustic Phonetics, adopts an integrated view of intonation and prosodic domains, based on Intonational Phonology (Ladd, 1996, 2008) and Prosodic Phonology (Nespor; Vogel, 1986, 2007), in addition to considering works that deal with intonational variation in Brazilian Portuguese. The analysis focuses on neutral declarative statements produced by synthetic voices of the investigated product, focusing on the acoustic parameter of fundamental frequency (F0). To identify the tonal events associated with the intonation contour of neutral declarative statements, according to the guidelines of the P-ToBI system (Frota; Oliveira, P.; Cruz; Vigário, 2015), auditory inspection and version 6.4.04 of the Praat software (Boersma; Weenink, 2024) are used. The intonation pattern of the set of neutral declarative utterances is determined with the aid of the description of the tones assigned to the melodic contour, and the intonation analysis of the synthetic speech data is compared with the study by Tenani (2002) and other research on Brazilian Portuguese intonation. It is hypothesized that the intonation of these utterances stems from the same phonological organization present in natural Brazilian Portuguese speech, since artificial neural network architectures are used to identify recurring prosodic patterns in human samples and to robustly reproduce melodic features, albeit through statistical mechanisms. The results indicate that the tonal events observed correspond to the prosodic grammar of Brazilian Portuguese, reinforce the high tonal density of this linguistic variety, and highlight the importance of the phonological word in the assignment of pitch accents. The research identifies a predominant intonational pattern, with a tonal rising at the beginning and a melodic falling at the end of utterances. Furthermore, the study shows that synthetic speech is similar to natural speech in terms of neutral utterances, in terms of tonal events, and demonstrates the ability of Google Cloud Text-to-Speech to accurately generate the intonational structure of this type of utterance in Brazilian Portuguese. In short, the study highlights the compatibility of synthetic neutral declarative intonation with the prosodic grammar of proficient speakers of Brazilian Portuguese and contributes to the advancement of Computational Linguistics. It is concluded that the synthetic speech analyzed has intonational properties similar to those of natural speech in the neutral declaration, which shows significant progress in AI-based speech synthesis technologies. This correspondence proves that the investigated computer system models and reproduces neutral declarative intonation consistently and corroborates the research hypotheses.
Descrição
Palavras-chave
Prosódia computacional, Síntese de fala, Entoação, Português brasileiro, Computational prosody, Speech synthesis, Intonation, Brazilian Portuguese
Idioma
Português
Citação
TOJEIRA-RAMOS, J. P. Prosódia computacional do português brasileiro: a entoação declarativa neutra gerada por um sistema de síntese de fala baseado em Inteligência Artificial (IA). 2025. 148f. Dissertação (Mestrado em Linguística e Língua Portuguesa) – Faculdade de Ciências e Letras, Universidade Estadual Paulista, Araraquara, 2025.


