Logo do repositório

Question-answering com modelos de linguagem baseada na abordagem de estudo com flashcards

dc.contributor.advisorPaiola, Pedro Henrique
dc.contributor.authorSilveira, Vinicius Casimiro da [UNESP]
dc.contributor.coadvisorGarcia, Gabriel Lino
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2025-11-26T14:45:55Z
dc.date.issued2025-11-10
dc.description.abstractGrandes Modelos de Linguagem (LLMs) sofrem com conhecimento estático e alucinações. Embora a Geração Aumentada por Recuperação (RAG) atenue isso ao injetar contexto externo, sua abordagem tradicional de segmentação linear (chunking) frequentemente introduz ruído contextual. Como alternativa, este trabalho investiga uma arquitetura RAG baseada em flashcards, unidades atômicas de Pergunta-Resposta inspiradas na prática de recuperação, utilizando uma indexação assimétrica que vetoriza apenas a pergunta. Para validar esta abordagem, foi realizado um experimento comparando três grupos (LLM Puro, RAG Tradicional e RAG Flashcards) com o modelo Phi-4, em uma tarefa de Múltipla Escolha (MCQA) sobre 293 itens do dataset BLUEX (Biologia, Geografia, História). O RAG Tradicional (88, 74%) superou marginalmente o RAG Flashcards (84, 30%), ambos com ganho mínimo sobre o LLM Puro (82, 94%), sugerindo alto conhecimento paramétrico do modelo na tarefa. Contudo, a principal contribuição foi validada na análise de eficiência: o RAG Flashcards alcançou desempenho quase idêntico ao tradicional consumindo apenas 39, 69% do custo computacional (média de 1.173 vs 2.957 tokens por consulta). Conclui-se que, apesar de não superior em acurácia neste cenário, a abordagem em flashcards oferece um balanço de custo-benefício superior à segmentação linear.pt
dc.description.abstractLarge Language Models (LLMs) suffer from static knowledge and hallucinations. Although Retrieval-Augmented Generation (RAG) mitigates this by injecting external context, its traditional linear segmentation (\textit{chunking}) approach often introduces contextual noise. As an alternative, this work investigates a RAG architecture based on flashcards, atomic Question-Answering units inspired by retrieval practice, using asymmetric indexing that vectorizes only the question. To validate this approach, an experiment was conducted comparing three groups (Pure LLM, Traditional RAG, and Flashcard RAG) with the Phi-4 model, in a Multiple Choice Question Answering (MCQA) task on 293 items from the BLUEX dataset (Biology, Geography, History). The accuracy results were not as expected, with Traditional RAG ($88.74\%$) slightly outperforming Flashcards RAG ($84.30\%$), both with minimal gains over Pure LLM ($82.94\%$), suggesting high parametric knowledge of the model in the task. However, the main contribution was validated in the efficiency analysis: Flashcards RAG achieved almost identical performance to the traditional one while consuming only $39.69\%$ of the computational cost (average of $1.173$ vs. $2.957$ tokens per query). It is concluded that, although not superior in accuracy in this scenario, the flashcard approach offers a dramatically superior cost-benefit balance to linear segmentation.en
dc.identifier.citationSILVEIRA, Vinicius Casimiro da. Question-answering com modelos de linguagem baseada na abordagem de estudo com flashcards. 2025. 48 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Universidade Estadual Paulista (UNESP), Faculdade de Ciências, Bauru, 2025.
dc.identifier.orcid0009-0005-8528-6187
dc.identifier.urihttps://hdl.handle.net/11449/315643
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso abertopt
dc.subjectGeração aumentada por recuperaçãopt
dc.subjectModelos de linguagempt
dc.subjectRetrieval-Enhanced Generation (RAG)pt
dc.subjectLanguage modelsen
dc.subjectFlashcardsen
dc.subjectRetrieval practiceen
dc.subjectRetrieval practiceen
dc.titleQuestion-answering com modelos de linguagem baseada na abordagem de estudo com flashcardspt
dc.title.alternativeQuestion-answering with language models based on the flashcard study approachen
dc.typeTrabalho de conclusão de cursopt
dspace.entity.typePublication
relation.isOrgUnitOfPublicationaef1f5df-a00f-45f4-b366-6926b097829b
relation.isOrgUnitOfPublication.latestForDiscoveryaef1f5df-a00f-45f4-b366-6926b097829b
relation.isUndergradCourseOfPublication0ad27f2d-0ce4-45ac-9ab9-d719bb888d0c
relation.isUndergradCourseOfPublication.latestForDiscovery0ad27f2d-0ce4-45ac-9ab9-d719bb888d0c
unesp.campusUniversidade Estadual Paulista (UNESP), Faculdade de Ciências, Baurupt
unesp.examinationboard.typeBanca públicapt
unesp.undergraduateBauru - FC - Ciência da Computaçãopt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
silveira_vc_tcc_bauru.pdf
Tamanho:
2.01 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 2 de 2
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.14 KB
Formato:
Item-specific license agreed upon to submission
Descrição:
Carregando...
Imagem de Miniatura
Nome:
silveira_vc_autorizacao_bauru.pdf
Tamanho:
225.55 KB
Formato:
Adobe Portable Document Format
Descrição: