Logo do repositório
 

Mineração de dados exploratória com Python: análise de plataformas de sequenciamento e ferramentas de bioinformática para pré-processamento de dados transcriptômicos

dc.contributor.advisorFerro, Milene [UNESP]
dc.contributor.authorSantos, Nicolle Naves de Araujo [UNESP]
dc.contributor.institutionUniversidade Estadual Paulista (Unesp)
dc.date.accessioned2025-07-28T12:06:29Z
dc.date.issued2025-07-18
dc.description.abstractO crescente aumento no volume de dados gerados pelos sequenciamentos demonstra a importância e a evolução ao longo dos anos de ferramentas de Bioinformática e plataformas de sequenciamento. A transcriptômica é capaz de identificar transcritos (genes), principalmente RNAs que codificam proteínas, para um organismo e estes estudos estão envolvidos com a análise de expressão gênica em condições distintas. A primeira etapa a ser realizada na análise de transcriptomas é o pré-processamento das reads brutas, onde é feito o controle de qualidade e limpeza de dados e que incluem filtros e cortes de sequências para posterior montagem de transcritos visando obter os genes completos ou parciais. Considerando a importância desses estudos, foi realizado o levantamento descritivo observacional com abordagem qualitativa para montar o banco de dados, com as plataformas de sequenciamento de larga escala e ferramentas de pré-processamento mais utilizadas baseado nos artigos científicos publicados nos últimos 5 anos disponíveis no PubMed/NCBI. E também uma mineração de dados exploratória para categorizar e identificar os dados. Os resultados obtidos mostraram que a ferramentas de pré-processamento mais utilizadas é a Trimmomatic, com predominância em estudos humanos e em animais. E Cutadapt para estudos humanos. E para as plataformas de sequenciamento, a Illumina foi a predominante, com seus modelos HiSeq 2500 e NextSeq 500.pt
dc.description.abstractThe growing increase in the volume of data generated by sequencing demonstrates the importance and evolution of Bioinformatics tools and sequencing platforms over the years. Transcriptomics is capable of identifying transcripts (genes), mainly protein-coding RNAs, for an organism, and these studies are involved with the analysis of gene expression under different conditions. The first step to be performed in the analysis of transcriptomes is the preprocessing of raw reads, where quality control and data cleaning are carried out, which include filters and trimming of sequences for subsequent transcript assembly aiming to obtain complete or partial genes. Considering the importance of these studies, an observational descriptive survey with a qualitative approach was carried out to assemble the database, with the most used large-scale sequencing platforms and preprocessing tools based on scientific articles published in the last 5 years available on PubMed/NCBI. And an exploratory data mining to categorize and identify the data. The results obtained showed that the most used preprocessing tool is Trimmomatic, with a predominance in human and animal studies. And Cutadapt for human studies. And for sequencing platforms, Illumina was the predominant one, with its HiSeq 2500 and NextSeq 500 models.en
dc.identifier.lattes8532084770167293
dc.identifier.urihttps://hdl.handle.net/11449/312472
dc.language.isopor
dc.publisherUniversidade Estadual Paulista (Unesp)
dc.rights.accessRightsAcesso abertopt
dc.subjectPré-processamentopt
dc.subjectSequenciamentopt
dc.subjectTranscriptômicapt
dc.subjectMineração de dados (Computação)pt
dc.subjectPreprocessingen
dc.subjectSequencingen
dc.subjectTranscriptomicsen
dc.subjectData miningen
dc.titleMineração de dados exploratória com Python: análise de plataformas de sequenciamento e ferramentas de bioinformática para pré-processamento de dados transcriptômicospt
dc.title.alternativeExploratory data mining using Python: a comparative analysis of sequencing platforms and bioinformatics tools for transcriptomic data preprocessingen
dc.typeTrabalho de conclusão de cursopt
dspace.entity.typePublication
relation.isAuthorOfPublicationebbfba4f-9214-4a31-81d4-b5e58a7fb1a0
relation.isAuthorOfPublication.latestForDiscoveryebbfba4f-9214-4a31-81d4-b5e58a7fb1a0
unesp.campusUniversidade Estadual Paulista (UNESP), Instituto de Biociências, Rio Claropt
unesp.examinationboard.typeMeu trabalho não apresentou defesapt
unesp.undergraduateRio Claro - IB - Ciências Biológicaspt

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
santos_nna_tcc_rcla.pdf
Tamanho:
1.71 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 2 de 2
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.14 KB
Formato:
Item-specific license agreed upon to submission
Descrição:
Carregando...
Imagem de Miniatura
Nome:
santos_nna_autorizacao_rcla.pdf
Tamanho:
124.49 KB
Formato:
Adobe Portable Document Format
Descrição: