Análise do método suvrel na expressão diferencial a partir da matriz de contagens gerada com dados de RNA-SEQ

Carregando...
Imagem de Miniatura

Data

2014-05-19

Autores

Tambonis, Tiago [UNESP]

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

We are living in a time where advances in areas related to biology are routine, taking us to accustom to experiments with large number of variables. The RNA sequencing technology (RNA-Seq) is part of this framework and computational approaches applied in this context are not fully established and require more detailed analysis. Generally, in a experiment of analysis of di erential expression, total RNA samples or messengers (mRNA) is extracted, puri ed, fragmented, sequenced, mapped, and nally counted, generating an count table that relates how many reads was aligned to a given gene in a experimental condition. From this stage, it is proposed to use a variational method, called Suvrel (Supervised Variational Relevance), based on the minimization of a cost function that penalizes large distances between the same class of elements and favors small distances between di erent classes of elements to make the inference of relevance of each gene. The application of the method was performed on count table produced after of sequencing, alignment and summarization of 5 technical replicates containing Strategene Universal Human Reference RNA (UHRR) (part of Sequencing Quality Control Consortium, SEQC) together with ERCC 1 mix, and 5 technical replicates containing Ambion's Human Brain Reference RNA (HBRR) (part of SEQC also) together with the ERCC 2 mix. Using the ROC (Receiver Operating characteristic) curves generating from data of MAC-II project, setting the transcripts with log of fold-change greater than a cuto (from 0.5 to 2.0) as true positive and the others as true negative, the curves 6.2 and 6.4 were generated. From these graphs it is possible to conclude that the Suvrel method has higher AUCs in most of cuto s. It is appropriate to note that conclusions were obtained using a method that does not make any assumption about the distribution associated with the reads, using a simple normalization (divide the counts of a gene by its standard ...
Estamos vivendo uma época onde os avanços das áreas ligadas a biologia são rotineiros, nos levando cada vez mais a nos habituar a experimentos com um grande número de variáveis. A tecnologia de sequenciamento de RNA (RNA-Seq) e parte deste quadro e as abordagens computacionais aplicadas neste âmbito não estão totalmente estabelecidas e necessitam de análises mais detalhadas. A partir da tabela de contagens, que sumariza cada biblioteca em uma condição experimental, propõe-se a utilização de um método variacional chamado de Suvrel, baseado na minimização de uma função custo que penaliza grandes distâncias entre elementos de mesma classe e favorece pequenas distâncias entre elementos de classes diferentes, para inferência de expressão diferencial. A aplicação do método foi realizada em uma tabela de contagens produzida após o sequenciamento, alinhamento e sumarização de 5 replicatas técnicas de RNA de referência humano juntamente com a mistura ERCC 1 e 5 replicatas técnicas de RNA de referência do cérebro humano juntamente com a mistura ERCC 2. Utilizando curvas ROC produzidas com os dados do projeto do MAQC-II, de nindo os transcritos analisados pelo projeto com log2 do fold-change maior que um limiar que varia de 0,5 a 2,0 como os verdadeiros positivos e os restantes como verdadeiros negativos, e poss vel concluir que o m etodo Suvrel tem maiores valores abaixo das curvas ROC na maior parte dos limiares. Utilizando curvas ROC produzidas com os dados do ERCC, geradas utilizando o logs das mudan cas das propor c~oes prede nidas das misturas ERCC 1 e 2 de 92 oligonucleot dios, e poss vel concluir que o m etodo Suvrel tem a maior area abaixo da curva ROC. Embora as a reas abaixo das curvas ROC sejam compar aveis as de outros pacotes (como por exemplo o edgeR), e importante ressaltar que elas foram produzidas usando um m etodo que não faz nenhum tipo de suposição quanto a distribuição associada aos reads...

Descrição

Palavras-chave

Biologia molecular, Biofísica, Expressão gênica, Seqüenciamento de nucleotídeo, Pesquisa quantitativa

Como citar

TAMBONIS, Tiago. Análise do método suvrel na expressão diferencial a partir da matriz de contagens gerada com dados de RNA-SEQ. 2015. 69 f. Dissertação (mestrado) - Universidade Estadual Paulista Julio de Mesquita Filho, Instituto de Biociências, Letras e Ciências Exatas, 2015.