Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem

Candido, Daniel Gomes [UNESP]

Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem

Arquivos

Primário candido_dg_tcc_bauru.pdf (818.03 KB)

Primário candido_dg_tcc_bauru.pdf

Data

2025-11-11

Autores

Candido, Daniel Gomes

Orientador

Passos Junior, Leandro Aparecido

Coorientador

Paiola, Pedro Henrique

Curso de graduação

Bauru - FC - Ciência da Computação

Editor

Universidade Estadual Paulista (Unesp)

Tipo

Trabalho de conclusão de curso

Direito de acesso

Acesso aberto

Arquivos

Primário candido_dg_tcc_bauru.pdf (818.03 KB)

Primário candido_dg_tcc_bauru.pdf

Resumo

Resumo (português)

Este trabalho apresenta estudo experimental comparativo que avalia uma simplificação arquitetural no GPT-2 - remoção de LayerNorm (LN-Free) - combinada a métodos de adaptação parametricamente eficiente (PEFT) para acelerar a inferência preservando a qualidade. Adota o GPT-2 small oficial como baseline e uma variante LN-Free pública; executa experimentos no wikitext-2-raw-v1 (blocos de 1024 tokens) medindo perplexity (PPL) e vazão em tokens por segundo. O baseline oficial alcança PPL = 30,88; a variante LN-Free sem ajuste obtém PPL = 36,54 e aumento de throughput de cerca de 23,5% em seq = 896 e batch = 1, com ganhos consistentes em outras configurações. Sob um orçamento de treino unificado (300 passos), LoRA (r = 8) atinge a menor PPL (26,64) no modelo vanilla e 28,46 na variante LN-Free (0,94% de parâmetros treináveis); BitFit obtém PPL = 28,18 (no vanilla) e 30,48 (no LN-Free) com 0,082% de parâmetros; IA³ alcança PPL = 30,29 (no vanilla) com 0,044% de parâmetros; e AdaLoRA, sob o mesmo regime de treino, diverge (PPL > 50,0), mostrando-se inadequado para este orçamento curto. Conclui-se que a remoção de normalizações reduz o custo da inferência, e que PEFT (especialmente LoRA e BitFit) recupera e supera a qualidade do baseline. A combinação LN-Free + LoRA (PPL 28,46) apresenta o melhor balanço, sendo mais rápida e mais precisa que o baseline original (PPL 30,88). Discute limitações (horizonte de treino e variabilidade de runtime) e propõe extensões (agendamento mais longo, latência p95 e generalização a outros modelos e tarefas).

Resumo (inglês)

This paper reports a comparative experimental study that evaluates an architectural simplification in GPT-2 - removing LayerNorm (LN-Free) - combined with parameter-efficient fine-tuning (PEFT) methods to accelerate inference while preserving quality. It adopts the official GPT-2 small as the baseline and a public LN-Free variant; experiments on wikitext-2-raw-v1 (1024-token blocks) measure perplexity (PPL) and token-per-second throughput. The official baseline reaches PPL = 30.88; the unadjusted LN-Free variant yields PPL = 36.54 and about 23.5% higher throughput at seq = 896 and batch = 1, with consistent gains elsewhere. Under a unified training budget (300 steps), LoRA (r = 8) achieves the best PPL (26.64) on the vanilla model and 28.46 on the LN-Free variant (0.94% trainable parameters); BitFit attains PPL = 28.18 (vanilla) and 30.48 (LN-Free) with 0.082% parameters; IA³ reaches PPL = 30.29 (vanilla) with 0.044% parameters; and AdaLoRA, under the same regime, diverged (PPL > 50.0), proving unsuitable for this short budget. The study concludes that removing normalizations reduces inference cost, while PEFT (notably LoRA and BitFit) recovers and surpasses baseline quality. The LN-Free + LoRA combination (PPL 28.46) offers the best balance, being both faster and more accurate than the original baseline (PPL 30.88). It discusses limitations (short training horizon and runtime variability) and outlines extensions (longer scheduling, p95 latency, and generalization to other models and tasks).

Palavras-chave

Ciência da computação, Inteligência artificial, Aprendizado do computador, Redes neurais (Computação), Processamento de linguagem natural (Computação), Aprendizagem profunda (Aprendizado do computador), Large language models, Inference, LayerNorm

Idioma

Português

Citação

CANDIDO, Daniel Gomes. Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem. Orientador: Leandro Aparecido Passos Junior. 2025. 62 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.

URI

https://hdl.handle.net/11449/315520

Coleções

Bauru - FC - Faculdade de Ciências

Unidades

Unidade

Faculdade de Ciências

FC

Campus: Bauru

Cursos de graduação

Curso de graduação

Ciência da Computação

GCC

Estatísticas de acesso

Página do item completo

Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem

Arquivos

Data

Autores

Orientador

Coorientador

Pós-graduação

Curso de graduação

Título da Revista

ISSN da Revista

Título de Volume

Editor

Tipo

Direito de acesso

PlumX

Arquivos

Resumo

Resumo (português)

Resumo (inglês)

Descrição

Palavras-chave

Idioma

Citação

URI

Itens relacionados

Financiadores

Coleções

Unidades

Departamentos

Cursos de graduação

Programas de pós-graduação