Integração de pistas audiovisuais na percepção de fala de fricativas surdas: comparação de desempenho em diferentes faixas etárias
Carregando...
Data
Autores
Orientador
Berti, Larissa Cristina 

Coorientador
Pós-graduação
Estudos Linguísticos - IBILCE
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Tese de doutorado
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
A perspectiva teórica sobre a percepção de fala como um evento audiovisual, inaugurada por McGurk e Macdonald (1976), considera que, na percepção de fala, há a integração perceptual de pistas de ordem auditiva (informação acústica) e visual (informação articulatória). A partir desta perspectiva, estudos apontam que a percepção de fala em crianças seria pautada majoritariamente no componente auditivo, enquanto a percepção de fala para os adultos se daria através da integração audiovisual, refletida por um aumento perceptual da pista visual, ao longo do desenvolvimento. Dessa forma, a idade seria um fator influente na percepção de fala (Polka, 1994; Sekiyama et al., 2003; Sekiyama; Burnham 2004). No entanto, a trajetória do desenvolvimento típico da percepção audiovisual de fala ainda é inexistente no Português Brasileiro, sobretudo considerando a classe das fricativas. Objetivo: O presente estudo investiga a percepção audiovisual da fala de fricativas surdas em função da idade, em crianças na faixa etária de 4 a 12 anos e em adultos na faixa etária de 20 a 30 anos. Assumindo que a integração audiovisual na percepção de fala depende da experiência linguística (Hazan; Barret, 2000; Burnham et al., 1991), do desenvolvimento das habilidades psicoacústicas (Scheneider et al., 1986) e visuais (Desjardins,1997), as hipóteses deste trabalho foram assim definidas: espera-se que os adultos apresentem maior acurácia perceptual comparados às crianças; e que as crianças de maior faixa etária apresentem maior acurácia perceptual em comparação às crianças de menor faixa etária, marcado por efeito significativo para grupo etário, refletido pela maior porcentagem de acertos, maior ganho visual e maior ocorrência de Efeito McGurk (ilusão audiovisual). Método: Este estudo foi aprovado pelo CEP sob o nº 5.391.404 Participaram do estudo 75 sujeitos, falantes do Português Brasileiro (PB), com desenvolvimento típico de fala, divididos em cinco grupos etários: (G1) 4 a 5 anos; (G2) 6 a 8 anos; (G3) 9 a 10 anos; (G4) 11 a 12 anos; e (G5) 20 a 30 anos. Foi aplicado um teste de percepção audiovisual, que consistiu na apresentação dos estímulos silábicos /fa/, /sa/, /ʃa/, apresentados em quatro condições: auditiva (A), visual (V) e audiovisual congruente/incongruente (AV+) e (AV-). Foram analisadas as porcentagens de respostas corretas nas condições A e V, o ganho visual (AV+ vs A) e o efeito McGurk (tipos de respostas: auditiva, visual ou ilusão). Resultados: Considerando a análise comparativa entre as condições (A e V), a ANOVA de medidas repetidas mostrou efeito significativo para grupo etário (F (4,70) = 27,066, p < ,001) e para a condição (F (1,70) = 11,068, p = ,001), bem como para a interação grupo × condição (F (4,70) = 5,1495, p < 0,01). A interação significativa foi investigada por meio de testes Post hoc de Tukey, que revelaram que a porcentagem de acertos na condição (A) foi significativamente maior do que na condição (V), mas apenas nas idades de 4–5 e 6–8 anos. Para as idades mais avançadas (9–10, 11–12 e 20–30 anos), não houve diferenças significativas entre as condições (A e V). Para análise do ganho visual, o teste Kruskal–Wallis mostrou uma diferença estatisticamente significativa entre os grupos etários (H (4, N = 75) = 11,74; p = ,002). O teste Post hoc de Dunn mostrou um ganho visual maior nos dois grupos mais jovens (4-6 e 6-8 anos). O ganho visual atingiu o pico aos 6–8 anos e, em seguida, reduziu-se significativamente aos 9–10 e 11–12 anos, antes de chegar próximo de zero no grupo adulto de 20–30 anos. Por fim, para análise do efeito McGurk, a ANOVA de medidas repetidas mostrou diferença significativa para relato perceptual (F (2,140) = 392,53, p < 0,001) e para interação entre grupo etário e relato perceptual (F (8,140) = 3,5242, p < 0,001). Essa interação significativa foi investigada por meio de análises Post hoc de Tukey, que mostrou um aumento no relato perceptual auditivo e uma diminuição no relato perceptual visual e de ilusão entre 4–5 e 6–8 anos (p < 0,001); e esses níveis altos de relato perceptual auditivo e baixos de relato perceptual visual e de ilusão foram mantidos ao longo das idades. Conclusão: A integração audiovisual na percepção de fricativas em falantes do português brasileiro (PB) já ocorre aos 4 anos de idade. Além disso, o maior ganho visual surge entre 4 e 8 anos, com pico entre 6 e 8 anos e declínio a partir desse ponto, sugerindo que crianças falantes do PB 4 a 8 anos superam possíveis obstáculos à percepção da fala e à aquisição da linguagem (a relativa dificuldade de perceber fricativas e a dificuldade associada em aprender as regras fonema-grafema das fricativas) ao recorrer à informação visual. O resultado é o uso otimizado das pistas visuais salientes e distintivas das fricativas do PB, em conjunto com pistas auditivas, e, uma vez superado esse obstáculo, observa-se uma redução da influência da pista visual ao longo das faixas etárias. Contribuições: Acredita-se que os achados deste estudo fornecem uma contribuição interdisciplinar, servindo como base teórica na área linguística e fonoaudiológica. Especificamente, no campo da linguística, os resultados contribuem para a fundamentação teórica que aponta para a natureza audiovisual e desenvolvimental da percepção da fala, especialmente no caso de fricativas que apresentam pistas auditivas semelhantes, mas pistas visuais distintas. Além disso, os achados sugerem que o conhecimento fonológico é construído de forma heterogênea, abrangendo informações de diversas fontes. No que se refere à fonoaudiologia, os resultados da presente tese apresentam uma importante implicação clínica – que as pistas visuais podem ser utilizadas ou enfatizadas nos planos terapêuticos de reabilitação fonológica em Transtorno de Sons da Fala.
Resumo (inglês)
The theoretical perspective on speech perception as an audiovisual event, introduced by McGurk and MacDonald (1976), posits that speech perception involves the perceptual integration of auditory (acoustic information) and visual (articulatory gesture) cues. From this perspective, studies have shown that children’s speech perception is predominantly based on the auditory component, whereas adults’ speech perception relies on audiovisual integration, reflected in an increased perceptual use of visual cues throughout development. Thus, age is considered an influential factor in speech perception (Polka, 1994; Sekiyama et al., 2003; Sekiyama & Burnham, 2004). However, the typical developmental trajectory of audiovisual speech perception has not yet been documented in Brazilian Portuguese, particularly regarding the class of fricatives. Objective: This study investigates the audiovisual perception of voiceless fricatives as a function of age in children aged 4 to 12 years and adults aged 20 to 30 years. Assuming that audiovisual integration in speech perception depends on linguistic experience (Hazan & Barret, 2000; Burnham et al., 1991), as well as on the development of psychoacoustic (Schneider et al., 1986) and visual skills (Desjardins, 1997), the following hypotheses were proposed: adults are expected to show greater perceptual accuracy compared to children, and older children are expected to show greater perceptual accuracy than younger ones. This would be reflected in a significant age-group effect, indicated by higher percentages of correct responses, greater visual gain, and higher occurrence of the McGurk Effect (audiovisual illusion). Method: This study was approved by the Research Ethics Committee under protocol no. 56136022.6.0000.5406. Participants were 75 native speakers of Brazilian Portuguese (BP) with typical speech development, divided into five age groups: (G1) 4–5 years; (G2) 6–8 years; (G3) 9–10 years; (G4) 11–12 years; and (G5) 20–30 years. An audiovisual speech perception test was administered, consisting of syllables /fa/, /sa/, and /ʃa/ presented under four conditions: auditory (A), visual (V), and audiovisual congruent/incongruent (AV+) and (AV–). Percentages of correct responses in the A and V conditions, visual gain (AV+ vs. A), and McGurk effect (response types: auditory, visual, or illusion) were analyzed. Results: A repeated-measures ANOVA comparing the (A) and (V) conditions revealed significant effects for age group (F (4,70) = 27.066, p < .001) and condition (F (1,70) = 11.068, p = .001), as well as a significant group × condition interaction (F (4,70) = 5.1495, p < .01). Tukey’s post hoc tests indicated that the percentage of correct responses in the (A) condition was significantly higher than in the (V) condition, but only for the 4–5 and 6–8 age groups. For older groups (9–10, 11–12, and 20–30 years), no significant differences were observed between (A) and (V) conditions. The Kruskal–Wallis’s test for visual gain revealed a statistically significant difference among age groups (H (4, N = 75) = 11.74; p = .002). Dunn’s post hoc test indicated greater visual gain in the two youngest groups (4–6 and 6–8 years). Visual gain peaked at 6–8 years and then declined significantly at 9–10 and 11–12 years, approaching zero in the adult group (20–30 years). Finally, for the McGurk effect, repeated-measures ANOVA showed a significant difference for perceptual report (F (2,140) = 392.53, p < .001) and for the interaction between age group and perceptual report (F (8,140) = 3.5242, p < .001). Tukey’s post hoc analysis revealed an increase in auditory perceptual reports and a decrease in visual and illusion reports between 4–5 and 6–8 years (p < .001), and these levels were maintained across subsequent ages. Conclusion: Audiovisual integration in the perception of speakers of Brazilian Portuguese (BP) fricatives is already present by age 4. Moreover, the greatest visual gain occurs between 4 and 8 years of age, peaking between 6 and 8 years and declining thereafter. This suggests that children aged 4 to 8 who are speakers of Brazilian Portuguese may overcome potential challenges in speech perception and language acquisition (such as the relative difficulty of perceiving fricatives and learning fricative phoneme–grapheme correspondences) by relying on visual information. As a result, they optimize the use of salient and distinctive visual cues of BP fricatives alongside auditory cues, and once these challenges are overcome, a reduction in the influence of visual cues is observed across age groups. Contributions: The findings of this study offer an interdisciplinary contribution, serving as a theoretical basis for both linguistic and speech-language pathology fields. Specifically, in linguistics, the results support the theoretical framework highlighting the audiovisual and developmental nature of speech perception, especially for fricatives that exhibit similar auditory cues but distinct visual ones. Additionally, the findings suggest that phonological knowledge is constructed heterogeneously, integrating information from multiple sources. In speech-language pathology, the results have important clinical implications: visual cues can be used or emphasized in therapeutic plans for phonological rehabilitation in Speech Sound Disorders.
Descrição
Palavras-chave
Percepção da fala, Percepção auditiva, Fonética, Speech perception, Auditory perception, Phonetics, Prosodic analysis (Linguistics), Alfabetização visual, Visual literacy
Idioma
Português
Citação
ASSIS, Mayara Ferreira de. Integração de pistas audiovisuais na percepção de fala de fricativas surdas: comparação de desempenho em diferentes faixas etárias. 2025. Tese (doutorado em Estudos Linguísticos) - Instituto de Biociências, Letras e Ciências Exatas, Universidade Estadual Paulista, São José do Rio Preto, 2025.

