Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem
| dc.contributor.advisor | Passos Junior, Leandro Aparecido [UNESP] | |
| dc.contributor.author | Candido, Daniel Gomes [UNESP] | |
| dc.contributor.coadvisor | Paiola, Pedro Henrique [UNESP] | |
| dc.contributor.institution | Universidade Estadual Paulista (Unesp) | |
| dc.date.accessioned | 2025-11-25T13:06:55Z | |
| dc.date.issued | 2025-11-11 | |
| dc.description.abstract | Este trabalho apresenta estudo experimental comparativo que avalia uma simplificação arquitetural no GPT-2 - remoção de LayerNorm (LN-Free) - combinada a métodos de adaptação parametricamente eficiente (PEFT) para acelerar a inferência preservando a qualidade. Adota o GPT-2 small oficial como baseline e uma variante LN-Free pública; executa experimentos no wikitext-2-raw-v1 (blocos de 1024 tokens) medindo perplexity (PPL) e vazão em tokens por segundo. O baseline oficial alcança PPL = 30,88; a variante LN-Free sem ajuste obtém PPL = 36,54 e aumento de throughput de cerca de 23,5% em seq = 896 e batch = 1, com ganhos consistentes em outras configurações. Sob um orçamento de treino unificado (300 passos), LoRA (r = 8) atinge a menor PPL (26,64) no modelo vanilla e 28,46 na variante LN-Free (0,94% de parâmetros treináveis); BitFit obtém PPL = 28,18 (no vanilla) e 30,48 (no LN-Free) com 0,082% de parâmetros; IA³ alcança PPL = 30,29 (no vanilla) com 0,044% de parâmetros; e AdaLoRA, sob o mesmo regime de treino, diverge (PPL > 50,0), mostrando-se inadequado para este orçamento curto. Conclui-se que a remoção de normalizações reduz o custo da inferência, e que PEFT (especialmente LoRA e BitFit) recupera e supera a qualidade do baseline. A combinação LN-Free + LoRA (PPL 28,46) apresenta o melhor balanço, sendo mais rápida e mais precisa que o baseline original (PPL 30,88). Discute limitações (horizonte de treino e variabilidade de runtime) e propõe extensões (agendamento mais longo, latência p95 e generalização a outros modelos e tarefas). | pt |
| dc.description.abstract | This paper reports a comparative experimental study that evaluates an architectural simplification in GPT-2 - removing LayerNorm (LN-Free) - combined with parameter-efficient fine-tuning (PEFT) methods to accelerate inference while preserving quality. It adopts the official GPT-2 small as the baseline and a public LN-Free variant; experiments on wikitext-2-raw-v1 (1024-token blocks) measure perplexity (PPL) and token-per-second throughput. The official baseline reaches PPL = 30.88; the unadjusted LN-Free variant yields PPL = 36.54 and about 23.5% higher throughput at seq = 896 and batch = 1, with consistent gains elsewhere. Under a unified training budget (300 steps), LoRA (r = 8) achieves the best PPL (26.64) on the vanilla model and 28.46 on the LN-Free variant (0.94% trainable parameters); BitFit attains PPL = 28.18 (vanilla) and 30.48 (LN-Free) with 0.082% parameters; IA³ reaches PPL = 30.29 (vanilla) with 0.044% parameters; and AdaLoRA, under the same regime, diverged (PPL > 50.0), proving unsuitable for this short budget. The study concludes that removing normalizations reduces inference cost, while PEFT (notably LoRA and BitFit) recovers and surpasses baseline quality. The LN-Free + LoRA combination (PPL 28.46) offers the best balance, being both faster and more accurate than the original baseline (PPL 30.88). It discusses limitations (short training horizon and runtime variability) and outlines extensions (longer scheduling, p95 latency, and generalization to other models and tasks). | en |
| dc.identifier.citation | CANDIDO, Daniel Gomes. Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem. Orientador: Leandro Aparecido Passos Junior. 2025. 62 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Faculdade de Ciências, Universidade Estadual Paulista (UNESP), Bauru, 2025. | |
| dc.identifier.lattes | 0108483786604609 | |
| dc.identifier.orcid | 0009-0001-3391-5456 | |
| dc.identifier.uri | https://hdl.handle.net/11449/315520 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Estadual Paulista (Unesp) | |
| dc.rights.accessRights | Acesso aberto | pt |
| dc.subject | Ciência da computação | pt |
| dc.subject | Inteligência artificial | pt |
| dc.subject | Aprendizado do computador | pt |
| dc.subject | Redes neurais (Computação) | pt |
| dc.subject | Processamento de linguagem natural (Computação) | pt |
| dc.subject | Aprendizagem profunda (Aprendizado do computador) | pt |
| dc.subject | Large language models | en |
| dc.subject | Inference | en |
| dc.subject | LayerNorm | en |
| dc.title | Explorando abordagens sem normalização para inferência eficiente em grandes modelos de linguagem | pt |
| dc.title.alternative | Exploring normalization-free approaches for efficient inference in large language models | en |
| dc.type | Trabalho de conclusão de curso | pt |
| dspace.entity.type | Publication | |
| relation.isAuthorOfPublication | 41547823-2410-4faf-ada3-6e4a907ae02b | |
| relation.isAuthorOfPublication.latestForDiscovery | 41547823-2410-4faf-ada3-6e4a907ae02b | |
| relation.isOrgUnitOfPublication | aef1f5df-a00f-45f4-b366-6926b097829b | |
| relation.isOrgUnitOfPublication.latestForDiscovery | aef1f5df-a00f-45f4-b366-6926b097829b | |
| relation.isUndergradCourseOfPublication | 0ad27f2d-0ce4-45ac-9ab9-d719bb888d0c | |
| relation.isUndergradCourseOfPublication.latestForDiscovery | 0ad27f2d-0ce4-45ac-9ab9-d719bb888d0c | |
| unesp.campus | Universidade Estadual Paulista (UNESP), Faculdade de Ciências, Bauru | pt |
| unesp.examinationboard.type | Banca pública | pt |
| unesp.undergraduate | Bauru - FC - Ciência da Computação | pt |
Arquivos
Pacote original
1 - 1 de 1
Carregando...
- Nome:
- candido_dg_tcc_bauru.pdf
- Tamanho:
- 818.03 KB
- Formato:
- Adobe Portable Document Format
Licença do pacote
1 - 2 de 2
Carregando...
- Nome:
- license.txt
- Tamanho:
- 2.14 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição:
Carregando...
- Nome:
- candido_dg_autorizacao_bauru.pdf
- Tamanho:
- 134.45 KB
- Formato:
- Adobe Portable Document Format
- Descrição:

