Integração de pistas audiovisuais em tarefa de percepção de fala em falantes do português brasileiro

Silva, Lídia Maurício da

Publicação:
Integração de pistas audiovisuais em tarefa de percepção de fala em falantes do português brasileiro

Arquivos

silva_lm_dr_sjrp.pdf (1.4 MB)

Data

2023-05-04

Autores

Silva, Lídia Maurício da

Orientador

Berti, Larissa Cristina

Pós-graduação

Estudos Linguísticos - IBILCE 33004153069P5

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Tese de doutorado

Direito de acesso

Acesso aberto

Resumo

Resumo (português)

Introdução: o estudo inovador de Mcgurk e Macdonald (1976) atribuiu à integração audiovisual um importante papel no fenômeno de percepção da fala. Ao longo dos anos, diferentes estudos buscaram replicar o estudo original, buscando descrever o desempenho em tarefa de percepção multimodal, primordialmente, para língua inglesa e japonesa (SEKIYAMA e TOHKURA, 1991; SEKIYAMA e TOHKURA, 1993; SEKIYAMA e BURNHAM, 2004). O presente estudo assume o fenômeno de percepção da fala como sendo de natureza multimodal (MCGURK e MACDONALD, 1976) e se justifica pela escassez de estudos que investigam a percepção multimodal de fala em falantes do português brasileiro. Objetivo: investigar como se dá a integração de pistas audiovisuais em função do padrão silábico da língua considerando três grupos de participantes: adultos, crianças típicas e crianças com distúrbio fonológico. Dessa forma, as hipóteses deste trabalho assim se definiram: H1) haveria integração de pistas audiovisuais na percepção de fala nos falantes do PB, marcada pela menor porcentagem de acerto e maior tempo de reação na condição AV- comparativamente à condição AV+ ; H2) a percepção de fala sofreria influência do padrão silábico, ou seja, haveria uma diferença do grau de influência visual em função da complexidade silábica. Espera-se maior grau de influência visual e maior tempo de reação no padrão silábico complexo; e H3) haveria diferenças no desempenho perceptual entre os grupos. Espera-se que os adultos sofram uma maior influência visual comparado às crianças. E, ainda, que as crianças típicas sofram uma maior influência visual comparadas às crianças com distúrbio fonológico. A influência visual seria marcada pela menor porcentagem de acerto e maior tempo de reação na condição AV- comparativamente à condição AV+. Método: os participantes selecionados para a presente pesquisa foram 11 adultos típicos, entre 20 e 30 anos; 10 crianças típicas, entre 6 e 8 anos, que apresentaram desenvolvimento típico de linguagem e sistema fonológico efetivamente adquirido; e 10 crianças com Distúrbio Fonológico (DF) entre 6 e 8 anos, que apresentaram processos de substituição de líquida não lateral por lateral em padrão silábica complexo ou redução de encontro consonantal. Os estímulos auditivos e visuais foram constituídos por sílabas simples e complexas: /pa/, /ta/, /ka/, /pra/, /tra/ e /kra/. O procedimento experimental de percepção constituiu de um teste de identificação composto por quatro etapas distintas: apresentação dos estímulos por (1) via auditiva; (2) via visual; (3) integração audiovisual congruente e (4) integração audiovisual incongruente. Na análise, foram consideradas as porcentagens de respostas corretas (acurácia) e o tempo de reação nas diferentes condições de apresentação dos estímulos. Resultados: os objetivos definidos foram explorados em três estudos. No primeiro estudo, o teste GzLM (generalized linear models) demonstrou que os adultos apresentaram maior porcentagem de acerto quando os estímulos foram apresentados na condição audiovisual congruente comparado a condição audiovisual incongruente, entretanto, não houve diferença significante no tempo de reação na comparação entre as duas condições. No segundo estudo, considerando a investigação de crianças típicas, o teste GzLM não demonstrou diferenças significantes de acurácia ou tempo de reação, na comparação entre as condições de apresentação audiovisual congruente e audiovisual incongruente. No entanto, considerando a investigação de crianças com distúrbio fonológico, o teste GzLM demonstrou que as crianças apresentaram maior porcentagem de acertos quando os estímulos foram apresentados na condição audiovisual congruente comparado a condição audiovisual incongruente, mas não houve diferença significante no tempo de reação na comparação entre as duas condições. Por fim, no terceiro estudo, considerando os dados de acurácia, o teste GzLM demonstrou uma diferença significante para a condição de apresentação do estímulo somente visual. Para esta condição de apresentação, o desempenho dos adultos se diferenciou do desempenho das crianças típicas e crianças com DF, na medida em que os adultos apresentaram maior porcentagem de erro comparativamente às crianças. Considerando os dados de tempo de reação, o teste GzLM demonstrou uma diferença significante para as condições de apresentação somente auditiva e somente visual. Para a condição somente auditiva, o desempenho de crianças típicas se diferenciou do desempenho de crianças com DF, na medida em que crianças com DF demoraram mais para eliciar uma resposta; enquanto, para a condição somente visual, o desempenho dos adultos se diferenciou do desempenho de crianças com DF, na medida em que crianças com DF demoraram mais para eliciar uma resposta. Além disso, perante análise inferencial dos dados foi possível verificar que o grau de influência visual não varia em função do padrão silábico independente do grupo investigado. Conclusão: o desempenho perceptual para os falantes do PB parece sofrer influência da pista visual, verificada no desempenho da acurácia e no tempo de reação da resposta. Dessa forma, foi possível verificar a integração de pistas audiovisuais na percepção multimodal da fala para os participantes investigados, falantes do Português Brasileiro. Ainda, o desempenho perceptivo de adultos, crianças típicas e crianças com DF, não é dependente do padrão silábico (simples ou complexo) investigado na presente pesquisa. Além disso, há diferença no desempenho perceptual entre os grupos investigados e essa diferença ocorre a depender da condição de apresentação do estímulo.

Resumo (inglês)

Introduction: the innovative study by McGurk and Macdonald (1976) emphasized audiovisual integration in the phenomenon of speech perception. Several studies over the years have attempted to replicate the original study, investigating performance in a multimodal perception task for English and Japanese languages (SEKIYAMA and TOHKURA, 1991; SEKIYAMA and TOHKURA, 1993; SEKIYAMA and BURNHAM, 2004). The present study builds upon the phenomenon of speech perception as multimodal in nature (MCGURK and MACDONALD, 1976) and is justified and motivated by the scarcity of research investigating multimodal speech perception in Brazilian Portuguese speakers. Objective: to investigate how the integration of audiovisual cues takes place as a function of the syllabic pattern of the language, considering three groups of participants: adults, typical children and children with phonological disorders. Thus, the hypotheses of this investigation were defined as follows: H1) there would be integration of audiovisual cues in the speech perception of BP speakers, marked by the lower percentage of correct answers and longer reaction time in the AV- condition compared to the AV+ condition; H2) speech perception would be influenced by the syllabic pattern, that is, there would be a difference in the degree of visual influence depending on syllabic complexity. A greater degree of visual influence and a longer reaction time are expected in the complex syllabic pattern; and H3) there would be differences in perceptual performance between groups. Adults are expected to suffer a greater visual influence compared to children. In addition, that typical children suffer a greater visual influence compared to children with phonological disorders. The visual influence would be marked by the lower percentage of correct answers and longer reaction time in the AV- condition compared to the AV+ condition. Method: the participants selected for this research were 11 typical adults, between 20 and 30 years old; 10 typical children, between 6 and 8 years old, who presented typical language development and effectively acquired phonological system; and 10 children with Phonological Disorder (PD) between 6 and 8 years old, who presented processes of substitution of non-lateral liquid for lateral in a complex syllabic pattern or reduction of consonant clusters. The auditory and visual stimuli consisted of simple and complex syllables: /pa/, /ta/, /ka/, /pra/, /tra/ and /kra/. The experimental procedure of perception consisted of an identification test composed of four distinct stages: presentation of stimuli by (1) auditory pathway; (2) visual pathway; (3) congruent audiovisual integration; and (4) incongruent audiovisual integration. In the analysis, the percentages of correct answers (accuracy) and the reaction time in the different stimulus presentation conditions were considered. Results: the defined objectives were explored in three studies. In the first study, the GzLM test (generalized linear models) showed that adults had a higher percentage of correct answers when the stimuli were presented in the congruent audiovisual condition compared to the incongruent audiovisual condition, however, there was no significant difference in reaction time when comparing the two conditions. In the second study, considering the investigation of typical children, the GzLM test showed no significant differences in accuracy or reaction time, in the comparison between the conditions of congruent audiovisual presentation and incongruent audiovisual presentation. However, considering the investigation of children with phonological disorders, the GzLM test showed that children had a higher percentage of correct answers when the stimuli were presented in the congruent audiovisual condition compared to the incongruous audiovisual condition, but there was no significant difference in the reaction time comparing the two conditions. Finally, in the third study, considering the accuracy data, the GzLM test showed a significant difference for the visual-alone stimulus presentation condition. For this presentation condition, the performance of adults differed from the performance of typical children and children with PD, as adults presented a higher percentage of wrong answers compared to children. Considering the reaction time data, the GzLM test demonstrated a significant difference for auditory-alone and visual-alone presentation conditions. For the auditory-alone condition, the performance of typical children differed from the performance of children with PD, as children with PD took longer to elicit a response; while, for the visual-alone condition, the performance of adults differed from the performance of children with PD, as children with PD took longer to elicit a response. Furthermore, in view of inferential analysis of the data, it was verified that the degree of visual influence does not vary according to the syllabic pattern, regardless of the investigated group. Conclusion: the perceptual performance for BP speakers seems to be influenced by visual cues, verified in the accuracy performance and response reaction time. Thus, it was possible to verify the integration of audiovisual cues in the multimodal perception of the investigated participants’ speech, speakers of Brazilian Portuguese. Moreover, the perceptive performance of adults, typical children and children with PD is not dependent on the syllabic pattern (simple or complex) investigated in this research. In addition, there is a difference in perceptual performance between the investigated groups, and this difference occurs depending on the stimulus presentation condition.

Palavras-chave

Percepção multimodal, Integração audiovisual, Integração sensorial, Distúrbio fonológico, Multimodal perception, Audio-visual integration, Sensory integration, Phonological disorder

Idioma

Português

Como citar

SILVA, Lídia Maurício da. Integração de pistas audiovisuais em tarefa de percepção de fala em falantes do português brasileiro. (Doutorado em Estudos Linguísticos). 2023. 122 f. - Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2023.

URI

https://hdl.handle.net/11449/253322

Coleções

São José do Rio Preto - IBILCE - Instituto de Biociências, Letras e Ciências Exatas

Página do item completo

Publicação:
Integração de pistas audiovisuais em tarefa de percepção de fala em falantes do português brasileiro

Arquivos

Data

Autores

Orientador

Coorientador

Pós-graduação

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Tipo

Direito de acesso

Resumo

Resumo (português)

Resumo (inglês)

Descrição

Palavras-chave

Idioma

Como citar

URI

Itens relacionados

Financiadores

Coleções

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação

Publicação: Integração de pistas audiovisuais em tarefa de percepção de fala em falantes do português brasileiro

Arquivos

Data

Autores

Orientador

Coorientador

Pós-graduação

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Tipo

Direito de acesso

Resumo

Resumo (português)

Resumo (inglês)

Descrição

Palavras-chave

Idioma

Como citar

URI

Itens relacionados

Financiadores

Coleções

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação

Publicação:
Integração de pistas audiovisuais em tarefa de percepção de fala em falantes do português brasileiro