Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem

Candido, Daniel Gomes [UNESP]

Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem

dc.contributor.advisor	Passos Junior, Leandro Aparecido [UNESP]
dc.contributor.author	Candido, Daniel Gomes [UNESP]
dc.contributor.coadvisor	Paiola, Pedro Henrique [UNESP]
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2025-11-25T13:06:55Z
dc.date.issued	2025-11-11
dc.description.abstract	Este trabalho apresenta estudo experimental comparativo que avalia uma simplificação arquitetural no GPT-2 - remoção de LayerNorm (LN-Free) - combinada a métodos de adaptação parametricamente eficiente (PEFT) para acelerar a inferência preservando a qualidade. Adota o GPT-2 small oficial como baseline e uma variante LN-Free pública; executa experimentos no wikitext-2-raw-v1 (blocos de 1024 tokens) medindo perplexity (PPL) e vazão em tokens por segundo. O baseline oficial alcança PPL = 30,88; a variante LN-Free sem ajuste obtém PPL = 36,54 e aumento de throughput de cerca de 23,5% em seq = 896 e batch = 1, com ganhos consistentes em outras configurações. Sob um orçamento de treino unificado (300 passos), LoRA (r = 8) atinge a menor PPL (26,64) no modelo vanilla e 28,46 na variante LN-Free (0,94% de parâmetros treináveis); BitFit obtém PPL = 28,18 (no vanilla) e 30,48 (no LN-Free) com 0,082% de parâmetros; IA³ alcança PPL = 30,29 (no vanilla) com 0,044% de parâmetros; e AdaLoRA, sob o mesmo regime de treino, diverge (PPL > 50,0), mostrando-se inadequado para este orçamento curto. Conclui-se que a remoção de normalizações reduz o custo da inferência, e que PEFT (especialmente LoRA e BitFit) recupera e supera a qualidade do baseline. A combinação LN-Free + LoRA (PPL 28,46) apresenta o melhor balanço, sendo mais rápida e mais precisa que o baseline original (PPL 30,88). Discute limitações (horizonte de treino e variabilidade de runtime) e propõe extensões (agendamento mais longo, latência p95 e generalização a outros modelos e tarefas).	pt
dc.description.abstract	This paper reports a comparative experimental study that evaluates an architectural simplification in GPT-2 - removing LayerNorm (LN-Free) - combined with parameter-efficient fine-tuning (PEFT) methods to accelerate inference while preserving quality. It adopts the official GPT-2 small as the baseline and a public LN-Free variant; experiments on wikitext-2-raw-v1 (1024-token blocks) measure perplexity (PPL) and token-per-second throughput. The official baseline reaches PPL = 30.88; the unadjusted LN-Free variant yields PPL = 36.54 and about 23.5% higher throughput at seq = 896 and batch = 1, with consistent gains elsewhere. Under a unified training budget (300 steps), LoRA (r = 8) achieves the best PPL (26.64) on the vanilla model and 28.46 on the LN-Free variant (0.94% trainable parameters); BitFit attains PPL = 28.18 (vanilla) and 30.48 (LN-Free) with 0.082% parameters; IA³ reaches PPL = 30.29 (vanilla) with 0.044% parameters; and AdaLoRA, under the same regime, diverged (PPL > 50.0), proving unsuitable for this short budget. The study concludes that removing normalizations reduces inference cost, while PEFT (notably LoRA and BitFit) recovers and surpasses baseline quality. The LN-Free + LoRA combination (PPL 28.46) offers the best balance, being both faster and more accurate than the original baseline (PPL 30.88). It discusses limitations (short training horizon and runtime variability) and outlines extensions (longer scheduling, p95 latency, and generalization to other models and tasks).	en
dc.identifier.citation	CANDIDO, Daniel Gomes. Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem. Orientador: Leandro Aparecido Passos Junior. 2025. 62 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.
dc.identifier.lattes	0108483786604609
dc.identifier.orcid	0009-0001-3391-5456
dc.identifier.uri	https://hdl.handle.net/11449/315520
dc.language.iso	por
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto	pt
dc.subject	Ciência da computação	pt
dc.subject	Inteligência artificial	pt
dc.subject	Aprendizado do computador	pt
dc.subject	Redes neurais (Computação)	pt
dc.subject	Processamento de linguagem natural (Computação)	pt
dc.subject	Aprendizagem profunda (Aprendizado do computador)	pt
dc.subject	Large language models	en
dc.subject	Inference	en
dc.subject	LayerNorm	en
dc.title	Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem	pt
dc.title.alternative	Exploring normalization-free approaches for efficient inference in large language models	en
dc.type	Trabalho de conclusão de curso	pt
dspace.entity.type	Publication
relation.isAuthorOfPublication	41547823-2410-4faf-ada3-6e4a907ae02b
relation.isAuthorOfPublication.latestForDiscovery	41547823-2410-4faf-ada3-6e4a907ae02b
relation.isOrgUnitOfPublication	aef1f5df-a00f-45f4-b366-6926b097829b
relation.isOrgUnitOfPublication.latestForDiscovery	aef1f5df-a00f-45f4-b366-6926b097829b
relation.isUndergradCourseOfPublication	0ad27f2d-0ce4-45ac-9ab9-d719bb888d0c
relation.isUndergradCourseOfPublication.latestForDiscovery	0ad27f2d-0ce4-45ac-9ab9-d719bb888d0c
unesp.campus	Universidade Estadual Paulista (UNESP), Faculdade de Ciências, Bauru	pt
unesp.examinationboard.type	Banca pública	pt
unesp.undergraduate	Bauru - FC - Ciência da Computação	pt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: candido_dg_tcc_bauru.pdf
Tamanho:: 818.03 KB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 2 de 2

Nome:: license.txt
Tamanho:: 2.14 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Nome:: candido_dg_autorizacao_bauru.pdf
Tamanho:: 134.45 KB
Formato:: Adobe Portable Document Format
Descrição:

Coleções

Bauru - FC - Faculdade de Ciências