Logo do repositório

Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem

dc.contributor.advisorPassos Junior, Leandro Aparecido [UNESP]
dc.contributor.authorCandido, Daniel Gomes [UNESP]
dc.contributor.coadvisorPaiola, Pedro Henrique [UNESP]
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2025-11-25T13:06:55Z
dc.date.issued2025-11-11
dc.description.abstractEste trabalho apresenta estudo experimental comparativo que avalia uma simplificação arquitetural no GPT-2 - remoção de LayerNorm (LN-Free) - combinada a métodos de adaptação parametricamente eficiente (PEFT) para acelerar a inferência preservando a qualidade. Adota o GPT-2 small oficial como baseline e uma variante LN-Free pública; executa experimentos no wikitext-2-raw-v1 (blocos de 1024 tokens) medindo perplexity (PPL) e vazão em tokens por segundo. O baseline oficial alcança PPL = 30,88; a variante LN-Free sem ajuste obtém PPL = 36,54 e aumento de throughput de cerca de 23,5% em seq = 896 e batch = 1, com ganhos consistentes em outras configurações. Sob um orçamento de treino unificado (300 passos), LoRA (r = 8) atinge a menor PPL (26,64) no modelo vanilla e 28,46 na variante LN-Free (0,94% de parâmetros treináveis); BitFit obtém PPL = 28,18 (no vanilla) e 30,48 (no LN-Free) com 0,082% de parâmetros; IA³ alcança PPL = 30,29 (no vanilla) com 0,044% de parâmetros; e AdaLoRA, sob o mesmo regime de treino, diverge (PPL > 50,0), mostrando-se inadequado para este orçamento curto. Conclui-se que a remoção de normalizações reduz o custo da inferência, e que PEFT (especialmente LoRA e BitFit) recupera e supera a qualidade do baseline. A combinação LN-Free + LoRA (PPL 28,46) apresenta o melhor balanço, sendo mais rápida e mais precisa que o baseline original (PPL 30,88). Discute limitações (horizonte de treino e variabilidade de runtime) e propõe extensões (agendamento mais longo, latência p95 e generalização a outros modelos e tarefas).pt
dc.description.abstractThis paper reports a comparative experimental study that evaluates an architectural simplification in GPT-2 - removing LayerNorm (LN-Free) - combined with parameter-efficient fine-tuning (PEFT) methods to accelerate inference while preserving quality. It adopts the official GPT-2 small as the baseline and a public LN-Free variant; experiments on wikitext-2-raw-v1 (1024-token blocks) measure perplexity (PPL) and token-per-second throughput. The official baseline reaches PPL = 30.88; the unadjusted LN-Free variant yields PPL = 36.54 and about 23.5% higher throughput at seq = 896 and batch = 1, with consistent gains elsewhere. Under a unified training budget (300 steps), LoRA (r = 8) achieves the best PPL (26.64) on the vanilla model and 28.46 on the LN-Free variant (0.94% trainable parameters); BitFit attains PPL = 28.18 (vanilla) and 30.48 (LN-Free) with 0.082% parameters; IA³ reaches PPL = 30.29 (vanilla) with 0.044% parameters; and AdaLoRA, under the same regime, diverged (PPL > 50.0), proving unsuitable for this short budget. The study concludes that removing normalizations reduces inference cost, while PEFT (notably LoRA and BitFit) recovers and surpasses baseline quality. The LN-Free + LoRA combination (PPL 28.46) offers the best balance, being both faster and more accurate than the original baseline (PPL 30.88). It discusses limitations (short training horizon and runtime variability) and outlines extensions (longer scheduling, p95 latency, and generalization to other models and tasks).en
dc.identifier.citationCANDIDO, Daniel Gomes. Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem. Orientador: Leandro Aparecido Passos Junior. 2025. 62 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025.
dc.identifier.lattes0108483786604609
dc.identifier.orcid0009-0001-3391-5456
dc.identifier.urihttps://hdl.handle.net/11449/315520
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso abertopt
dc.subjectCiência da computaçãopt
dc.subjectInteligência artificialpt
dc.subjectAprendizado do computadorpt
dc.subjectRedes neurais (Computação)pt
dc.subjectProcessamento de linguagem natural (Computação)pt
dc.subjectAprendizagem profunda (Aprendizado do computador)pt
dc.subjectLarge language modelsen
dc.subjectInferenceen
dc.subjectLayerNormen
dc.titleExplorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagempt
dc.title.alternativeExploring normalization-free approaches for efficient inference in large language modelsen
dc.typeTrabalho de conclusão de cursopt
dspace.entity.typePublication
relation.isAuthorOfPublication41547823-2410-4faf-ada3-6e4a907ae02b
relation.isAuthorOfPublication.latestForDiscovery41547823-2410-4faf-ada3-6e4a907ae02b
relation.isOrgUnitOfPublicationaef1f5df-a00f-45f4-b366-6926b097829b
relation.isOrgUnitOfPublication.latestForDiscoveryaef1f5df-a00f-45f4-b366-6926b097829b
relation.isUndergradCourseOfPublication0ad27f2d-0ce4-45ac-9ab9-d719bb888d0c
relation.isUndergradCourseOfPublication.latestForDiscovery0ad27f2d-0ce4-45ac-9ab9-d719bb888d0c
unesp.campusUniversidade Estadual Paulista (UNESP), Faculdade de Ciências, Baurupt
unesp.examinationboard.typeBanca públicapt
unesp.undergraduateBauru - FC - Ciência da Computaçãopt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
candido_dg_tcc_bauru.pdf
Tamanho:
818.03 KB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 2 de 2
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.14 KB
Formato:
Item-specific license agreed upon to submission
Descrição:
Carregando...
Imagem de Miniatura
Nome:
candido_dg_autorizacao_bauru.pdf
Tamanho:
134.45 KB
Formato:
Adobe Portable Document Format
Descrição: