Arquitetura híbrida baseada em modelos de linguagem para visualização inteligente de dados
Carregando...
Data
Autores
Orientador
Valêncio, Carlos Roberto 

Coorientador
Pós-graduação
Ciência da Computação - FC/FCT/IBILCE/IGCE
Curso de graduação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Dissertação de mestrado
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
A análise e visualização de dados permitem identificar padrões e apresentá-los por meio de representações visuais. Com o propósito de minimizar a necessidade de conhecimento em ferramentas especializadas, as interfaces de linguagem natural permitem interação por meio de perguntas feitas sobre um conjunto de dados, convertidas em visualizações apropriadas ao contexto. Recentemente, modelos de linguagem pré-treinados e os grandes modelos de linguagem tornaram-se a base para a construção de interfaces mais inteligentes. Este trabalho propõe uma arquitetura híbrida baseada em modelos de linguagem para interfaces de linguagem natural voltada à visualização de dados. A arquitetura realiza a combinação de dois modelos de linguagem com papéis complementares: um modelo pré-treinado, responsável por identificar tabelas e colunas relevantes no esquema do banco de dados, e um modelo de linguagem de grande porte, responsável pela conversão de perguntas em linguagem natural em consultas SQL. Ambos os modelos foram ajustados para suas tarefas e comparados a outros, em que os melhores foram integrados à interface. O sistema resultante suporta 17 tipos de visualizações, com inclusão de opções mais complexas, como mapas e diagrama de Sankey. Os resultados da validação mostraram uma acurácia de 91,67% na identificação de tabelas e colunas relevantes e 75% de respostas corretas nas consultas SQL, com maior dificuldade em questões complexas. Esses valores indicam que a arquitetura é eficaz na resolução de perguntas de níveis fácil e médio; assim, torna-se viável para a implantação em bancos de dados reais de pequeno e médio porte como uma ferramenta de apoio ao processo de ciência de dados. Como contribuição científica, tem-se uma arquitetura que explora o uso combinado de diferentes modelos de linguagem na construção de interfaces de linguagem natural, a qual amplia o suporte para uma maior variedade de visualizações, com inclusão das mais complexas.
Resumo (inglês)
Data analysis and visualization enable the identification of patterns and their presentation through visual representations. In order to reduce the need for expertise in specialized tools, natural language interfaces allow interaction through questions posed over a dataset and converted into context-appropriate visualizations. Recently, pre-trained language models and large language models have become the foundation for the development of more intelligent interfaces. This work proposes a hybrid architecture based on language models for natural language interfaces aimed at data visualization. The architecture combines two language models with complementary roles: a pre-trained model responsible for identifying relevant tables and columns in the database schema, and a large language model responsible for converting natural language questions into SQL queries. Both models were fine-tuned for their respective tasks and compared with alternative models, with the best-performing ones integrated into the interface. The resulting system supports 17 types of visualizations, including more complex options such as maps and Sankey diagrams. Validation results showed an accuracy of 91.67% in identifying relevant tables and columns and 75% correct responses in SQL query generation, with greater difficulty observed in complex questions. These results indicate that the architecture is effective in addressing easy- and medium-level questions, making it viable for deployment in small- and medium-sized real-world databases as a support tool for data science workflows. As a scientific contribution, this work presents an architecture that explores the combined use of different language models in the construction of natural language interfaces, expanding support for a wider variety of visualizations, including more complex representations.
Descrição
Palavras-chave
Ciência da computação, Processamento de linguagem natural, Inteligência artificial, Visualização de dados, Interface de linguagem natural, Modelos de linguagem, Computer science, Natural language processing, Artificial intelligence, Data visualization, Natural language interface, Language models
Idioma
Português
Citação
QUADRADO, João Pedro. Arquitetura híbrida baseada em modelos de linguagem para visualização inteligente de dados. 2026. Dissertação (Mestrado em Ciência da Computação) – Universidade Estadual Paulista (Unesp), Instituto de Biociências Letras e Ciências Exatas (Ibilce), São José do Rio Preto, 2026.


