Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem
Carregando...
Data
Autores
Orientador
Passos Junior, Leandro Aparecido 

Coorientador
Paiola, Pedro Henrique 

Pós-graduação
Curso de graduação
Bauru - FC - Ciência da Computação
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual Paulista (Unesp)
Tipo
Trabalho de conclusão de curso
Direito de acesso
Acesso aberto

Resumo
Resumo (português)
Este trabalho apresenta estudo experimental comparativo que avalia uma simplificação arquitetural no GPT-2 - remoção de LayerNorm (LN-Free) - combinada a métodos de adaptação parametricamente eficiente (PEFT) para acelerar a inferência preservando a qualidade. Adota o GPT-2 small oficial como baseline e uma variante LN-Free pública; executa experimentos no wikitext-2-raw-v1 (blocos de 1024 tokens) medindo perplexity (PPL) e vazão em tokens por segundo. O baseline oficial alcança PPL = 30,88; a variante LN-Free sem ajuste obtém PPL = 36,54 e aumento de throughput de cerca de 23,5% em seq = 896 e batch = 1, com ganhos consistentes em outras configurações. Sob um orçamento de treino unificado (300 passos), LoRA (r = 8) atinge a menor PPL (26,64) no modelo vanilla e 28,46 na variante LN-Free (0,94% de parâmetros treináveis); BitFit obtém PPL = 28,18 (no vanilla) e 30,48 (no LN-Free) com 0,082% de parâmetros; IA³ alcança PPL = 30,29 (no vanilla) com 0,044% de parâmetros; e AdaLoRA, sob o mesmo regime de treino, diverge (PPL > 50,0), mostrando-se inadequado para este orçamento curto. Conclui-se que a remoção de normalizações reduz o custo da inferência, e que PEFT (especialmente LoRA e BitFit) recupera e supera a qualidade do baseline. A combinação LN-Free + LoRA (PPL 28,46) apresenta o melhor balanço, sendo mais rápida e mais precisa que o baseline original (PPL 30,88). Discute limitações (horizonte de treino e variabilidade de runtime) e propõe extensões (agendamento mais longo, latência p95 e generalização a outros modelos e tarefas).
Resumo (inglês)
This paper reports a comparative experimental study that evaluates an architectural simplification in GPT-2 - removing LayerNorm (LN-Free) - combined with parameter-efficient fine-tuning (PEFT) methods to accelerate inference while preserving quality. It adopts the official GPT-2 small as the baseline and a public LN-Free variant; experiments on wikitext-2-raw-v1 (1024-token blocks) measure perplexity (PPL) and token-per-second throughput. The official baseline reaches PPL = 30.88; the unadjusted LN-Free variant yields PPL = 36.54 and about 23.5% higher throughput at seq = 896 and batch = 1, with consistent gains elsewhere. Under a unified training budget (300 steps), LoRA (r = 8) achieves the best PPL (26.64) on the vanilla model and 28.46 on the LN-Free variant (0.94% trainable parameters); BitFit attains PPL = 28.18 (vanilla) and 30.48 (LN-Free) with 0.082% parameters; IA³ reaches PPL = 30.29 (vanilla) with 0.044% parameters; and AdaLoRA, under the same regime, diverged (PPL > 50.0), proving unsuitable for this short budget. The study concludes that removing normalizations reduces inference cost, while PEFT (notably LoRA and BitFit) recovers and surpasses baseline quality. The LN-Free + LoRA combination (PPL 28.46) offers the best balance, being both faster and more accurate than the original baseline (PPL 30.88). It discusses limitations (short training horizon and runtime variability) and outlines extensions (longer scheduling, p95 latency, and generalization to other models and tasks).
Descrição
Palavras-chave
Ciência da computação, Inteligência artificial, Aprendizado do computador, Redes neurais (Computação), Processamento de linguagem natural (Computação), Aprendizagem profunda (Aprendizado do computador), Large language models, Inference, LayerNorm
Idioma
Português
Citação
CANDIDO, Daniel Gomes. Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem. Orientador: Leandro Aparecido Passos Junior. 2025. 62 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.

