UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO"

INSTITUTO DE BIOCIÊNCIAS DE BOTUCATU

PROGRAMA DE PÓS-GRADUAÇÃO EM BIOTECNOLOGIA

José Rafael Pilan

Desenvolvimento de ferramentas de biologia de sistemas para
avaliação de dados transcriptômicos

Botucatu, setembro de 2022


UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO"

INSTITUTO DE BIOCIÊNCIAS DE BOTUCATU

PROGRAMA DE PÓS-GRADUAÇÃO EM BIOTECNOLOGIA

José Rafael Pilan

Desenvolvimento de ferramentas de biologia de sistemas para
avaliação de dados de transcriptômicos

Tese de Doutorado apresentada ao Insti-

tuto de Biociências, Campus de Botucatu,

UNESP, em preenchimento dos requisitos

para a obtenção do título de Doutor no Pro-

grama de Pós-Graduação em Biotecnologia

Área de Concentração: Biotecnologia

Orientador: Prof. Dr. José Luiz Rybarczyk

Filho

Botucatu, setembro de 2022


Palavras-chave: Biotecnologia; Computação; Dados de

expressão; Proteínas; Redes.

Pilan, José Rafael.

   Desenvolvimento de ferramentas de biologia de sistemas

para avaliação de dados de transcriptômicos / José Rafael

Pilan. - Botucatu, 2022

   Tese (doutorado) - Universidade Estadual Paulista

"Júlio de Mesquita Filho", Instituto de Biociências de

Botucatu

   Orientador: José Luiz Rybarczyk Filho

   Capes: 90400003

   1. Biotecnologia. 2. Computação. 3. Proteínas. 4. Dados

de expressão. 5. Biologia.

DIVISÃO TÉCNICA DE BIBLIOTECA E DOCUMENTAÇÃO - CÂMPUS DE BOTUCATU - UNESP

BIBLIOTECÁRIA RESPONSÁVEL: ROSEMEIRE APARECIDA VICENTE-CRB 8/5651

FICHA CATALOGRÁFICA ELABORADA PELA SEÇÃO TÉC. AQUIS. TRATAMENTO DA INFORM.


Agradecimentos

• Ao CNPq por utilizarmos os recursos computacionais referentes aos processos 458810/2013-

4 e 473789/2013-2;

• Ao Professor Dr. José Luiz Rybarczyk Filho pela orientação e auxilio;

• À toda minha família, principalmente meu pai José Carlos, minha mãe Maria Aparecida,

meu irmão César e minha irmã Elaine pelo apoio e incentivo que foram fundamentais

para a conclusão desse trabalho;

• Aos meus filhos Miguel e Marina por serem minha motivação diária em sempre buscar

fazer o meu melhor;

• Aos meus amigos André Luiz Molan e Giordano Bruno Sanches Seco por toda a ajuda e

motivação;

• À pós-graduação em Biotecnologia do Instituto de Biociências da Unesp de Botucatu e

ao seu coordenador Prof. Dr. Valber de Albuquerque Pedrosa representando todos os

docentes do programa;

• Aos demais colegas do departamento de Física e Biofísica e do Instituto de Biociências,

professores e funcionários que de alguma forma tenham contribuído para a realização

deste trabalho.


Resumo

A cada dia são desenvolvidos novas metodologias e equipamentos que proporcionam maior fa-

cilidade para a elucidação dos RNAs transcritos em situações específicas nos mais diferentes

organismos. O que essas metodologias e equipamentos possuem em comum é o enorme volume

de dados que podem gerar em cada execução. Devido a grande quantidade de tecnologias que

estão surgindo para geração de dados de sequenciamento e expressão gênica precisamos de fer-

ramentas que permitam o estudo e análise integrada dos diferentes dados advindos dos resultado

desses experimentos. Nesse trabalho propomos a integração das funções do transcriptograma

com uma ferramenta desenvolvida para visualização de dados de expressão sobreposto a uma

rede biológica gerando como resultado final um pacote para execução no layout de dashboard

das ferramentas citadas. O pacote foi desenvolvido utilizando a linguagem de programação R

em conjunto com as linguagens C e C++ e disponibilizado para o ambiente R. Para validar a

ferramenta utilizaremos dados de expressão gênica de amostras de pulmão obtidas das tecno-

logias de sequenciamento microarranjo e Single-Cell RNA. Como resultados a ferramenta levi

(Landscape Expression Visualization Interface) está disponível para download em um dos prin-

cipais repositórios onlines de ferramentas de bioinformática, o Bioconductor. A integraccão das

ferramentas do transcriptograma foram adicionadas ao dashboard e para validarmos a aplicacão

realizamos o workflow do trancriptograma em dados de microarranjo e RNA-seq de amostras de

pessoas com e sem adenocarcinoma de pulmão. Os resultados indicam uma maior acurácia na

utilizacão da ferramenta rTranscriptograma tanto para dados de microarranjo como para dados

de RNA-seq.


Abstract

Every day new equipment are developed that provide greater facility for elucidating the RNAs

transcribed in specific situations in the most different organisms. What these methodologies

and equipment have in common is the large volume of data that they can generate in each exe-

cution. Due to the great amount of technologies that are emerging to generate sequencing and

gene expression data, we need tools that allow the study and integrated analysis of the different

data resulting from the results of these experiments. In this work we propose the integration

of the functions of the transcriptogram with a tool to be developed for visualization of expres-

sion data superimposed on a biological network, resulting in a package for the execution of

the mentioned tools in the final result. The package was developed using the R programming

language together with C and C++ languages and made available to the R environment. To

validade the tool we will use gene expression data from lung samples obtained from microarray

and Single-Cell RNA sequencing Technologies. As a result the levi tool (Landscape Expression

Visualization Interface) is available for download in one of the main online respositories of bi-

oinformatics tools, the Bioconductor. The integration of transcriptogram tools has been added

to the dashboard and to validate the application, we performed the transcriptogram workflow

on microarray data and RNA-seq from samples from people with and without lung adenocarci-

noma. The results indicate a greater accuracy in the use of the rTrancriptogram tool both from

microarray and RNA-seq data.


Lista de Figuras

2.1 6 "V"s do Big Data. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 4

2.2 Biologia de Sistemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5

2.3 Métodos de análises em Biologia de Sistemas . . . . . . . . . . . . . . . . . p. 7

2.4 Affymetrix GeneChip - Microarranjo de oligonucleotídeos. . . . . . . . . . . p. 9

2.5 Roche NimbleGen - Microarranjo de oligonucleotídeos. . . . . . . . . . . . . p. 10

2.6 Agilent - Microarranjo de oligonucleotídeos. . . . . . . . . . . . . . . . . . . p. 11

2.7 Visão geral de um pipeline para RNA-seq . . . . . . . . . . . . . . . . . . . p. 12

2.8 Tecnologia de sequênciamento de Sanger. . . . . . . . . . . . . . . . . . . . p. 14

2.9 Estratégias de imobilização de templates utilizada pela Applied Biosystems. . p. 15

2.10 Estratégia de amplificação por fase sólida usada pelos equipamentos da Ilumina. p. 16

2.11 Estratégia de fixação da polimerase no suporte utilizada pela Pacific Biosci-

ences. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17

2.12 Isolamento de Single Cell e preparação da biblioteca. . . . . . . . . . . . . . p. 19

2.13 Exemplo de rede direcionada e não-direcionada. . . . . . . . . . . . . . . . . p. 23

2.14 Exemplos de tipos de grafos . . . . . . . . . . . . . . . . . . . . . . . . . . p. 23

2.15 Principais modelos de redes . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 26

4.1 Workflow com as etapas do projeto . . . . . . . . . . . . . . . . . . . . . . . p. 31

4.2 Workflow levi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36

4.3 Transformação da rede em matriz de adjacência . . . . . . . . . . . . . . . . p. 38

4.4 Método . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 39

4.5 Proximidade dos vizinhos em relação ao elemento central na matriz de adja-

cência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 40


4.6 Representação de cinco possíveis distâncias do elemento central em relação

a diagonal principal de uma matriz de adjacência. . . . . . . . . . . . . . . . p. 41

4.7 Avaliação da vizinhança do elemento central no modelo “cruz”. . . . . . . . p. 42

4.8 Gráfico de nível de custo energético por configurações possíveis de uma ma-

triz de adjacência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 43

4.9 Avaliação da vizinhança do elemento central no modelo “X”. . . . . . . . . . p. 44

4.10 Avaliação da vizinhança do elemento central no modelo “Anel”. . . . . . . . p. 45

4.11 Modularidade por Janela . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 46

4.12 Resultado da Modularidade por Janela . . . . . . . . . . . . . . . . . . . . . p. 47

5.1 Rede do String para via de sinalização ErbB . . . . . . . . . . . . . . . . . . p. 53

5.2 Network levi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 54

5.3 Objeto Ordering Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56

5.4 Objeto Modularity Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57

5.5 Tela principal de execução do dashboard . . . . . . . . . . . . . . . . . . . . p. 59

5.6 Tela da opção Cluster plot . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 60

5.7 Área de visualização do gráfico gerado a partir dos clusters . . . . . . . . . . p. 60

5.8 Tela inicial da opção do menu Gene expression Level . . . . . . . . . . . . . p. 61

5.9 Aba Biomart and Suavization da opção do menu Gene Expression Level . . . p. 63

5.10 Aba Plot Settings. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 64

5.11 Gráficos de nível de expressão gênica - agrupamento . . . . . . . . . . . . . p. 64

5.12 Gráficos de nível de expressão gênica - unitário . . . . . . . . . . . . . . . . p. 65

5.13 Aba Targets do menu Functional Enrichment . . . . . . . . . . . . . . . . . p. 65

5.14 Aba Ontology and Statistic do menu Functional Enrichment . . . . . . . . . p. 66

5.15 Aba Comparison Results do menu Functional Enrichment . . . . . . . . . . p. 67

5.16 Aba Graph do menu Functional Enrichment . . . . . . . . . . . . . . . . . . p. 67

5.17 Exemplo de visualização do levi dentro do dashboard . . . . . . . . . . . . . p. 68


5.18 Gráfico de perfil de modularidade utilizando as janelas 101, 201, 301, 401 e

501 para o modelo Cruz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 69

5.19 Gráfico de perfil de modularidade utilizando as janelas 101, 201, 301, 401 e

501 para o modelo Anel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 69

5.20 Gráfico de perfil de modularidade utilizando as janelas 101, 201, 301, 401 e

501 para o modelo X. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 70

5.21 Gráfico de Custo Energético em relação a quantidade de passos de Monte Carlo. p. 70

5.22 Gráfico de modularidade por posição relativa das proteínas. . . . . . . . . . . p. 72

5.23 Seleção de clusters para criação de sub-redes. . . . . . . . . . . . . . . . . . p. 72

5.24 Sub-redes criadas a partir da selação dos módulos. . . . . . . . . . . . . . . . p. 74

5.25 Análise da atividade transcricional relativa da série GSE10072 . . . . . . . . p. 76

5.26 Análise da atividade transcricional relativa da série GSE10072 . . . . . . . . p. 76

5.27 Diagrama de Veen para a as comparações da série GSE10072 . . . . . . . . . p. 77

5.28 Aplicação do levi para visualização da sobreposição do cluster AC em dados

de expressão da série GSE10072. . . . . . . . . . . . . . . . . . . . . . . . . p. 78

5.29 Análise da atividade transcricional relativa da série GSE10072 . . . . . . . . p. 79

5.30 Análise da atividade transcricional relativa da série GSE10072 . . . . . . . . p. 79

5.31 Diagrama de Veen para a as comparações da série GSE81089 . . . . . . . . . p. 80

5.32 Aplicação do levi para visualização da sobreposição do cluster AC em dados

de expressão da série GSE81089. . . . . . . . . . . . . . . . . . . . . . . . . p. 81

5.33 Transcriptograma da comparação 1 (fumantes com câncer) para a série GSE10072

com a apresentação de algumas ontologias selecionadas de forma aleatória. . p. 88

5.34 Transcriptograma da comparação 2 (ex-fumantes com câncer) para a série

GSE10072 com a apresentação de algumas ontologias selecionadas de forma

aleatória. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 89

5.35 Transcriptograma da comparação 3 (indivíduos que nunca fumaram com cân-

cer) para a série GSE10072 com a apresentação de algumas ontologias sele-

cionadas de forma aleatória. . . . . . . . . . . . . . . . . . . . . . . . . . . p. 90


5.36 Transcriptograma da comparação 1 (fumantes com câncer) para a série GSE81089

com a apresentação de algumas ontologias selecionadas de forma aleatória. . p. 92

5.37 Transcriptograma da comparação 2 (ex-fumantes com câncer) para a série

GSE81089 com a apresentação de algumas ontologias selecionadas de forma

aleatória. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 93

5.38 Transcriptograma da comparação 3 (indivíduos que nunca fumaram com cân-

cer) para a série GSE81089 com a apresentação de algumas ontologias sele-

cionadas de forma aleatória. . . . . . . . . . . . . . . . . . . . . . . . . . . p. 94


Lista de Tabelas

4.1 Detalhes dos dados de expressão utilizados na análise . . . . . . . . . . . . . p. 30

5.1 Número de downloads por ano e mês do pacote levi no Bioconductor. . . . . p. 55

5.2 Posições relativas das proteínas para formação dos clusters selecionados. . . . p. 73

5.3 Amostra de processos biológicos existentes no cluster 1 com p-valor menor

que 1 x 10 −5 de indivíduos com câncer fumantes da série GSE10072. . . . . p. 82

5.4 Amostra de processos biológicos existentes no cluster 1 com p-valor menor

que 1 x 10 −5 de indivíduos com câncer ex-fumantes da série GSE10072. . . p. 83

5.5 Amostra de processos biológicos existentes no cluster 1 com p-valor menor

que 1 x 10 −5 de indivíduos com câncer que nunca fumaram da série GSE10072. p. 84

5.6 Amostra de processos biológicos existentes no cluster 1 com p-valor menor

que 1 x 10 −5 de indivíduos com câncer fumantes da série GSE81089. . . . . p. 85

5.7 Amostra de processos biológicos existentes no cluster 1 com p-valor menor

que 1 x 10 −5 de indivíduoscom câncer ex-fumantes da série GSE81089. . . . p. 86

5.8 Amostra de processos biológicos existentes no cluster 1 com p-valor menor

que 1 x 10 −5 de indivíduos com câncer que nunca fumaram da série GSE81089. p. 87


Sumário

Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. iv

Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. v

1 Introdução p. 1

2 Revisão da Literatura p. 3

2.1 Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 3

2.2 Biologia de sistemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5

2.3 Tecnologias para obtenção e análise dos dados de expressão gênica . . . . . . p. 8

2.3.1 Microarranjo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 8

2.4 Tecnologias de Microarranjo . . . . . . . . . . . . . . . . . . . . . . . . . . p. 8

2.4.1 Affymetrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 8

2.4.2 Roche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 9

2.4.3 Agilent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 10

2.4.4 RNA-seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11

2.4.5 Sanger (primeira-geração) . . . . . . . . . . . . . . . . . . . . . . . p. 12

2.4.6 Sequenciamento de nova geração . . . . . . . . . . . . . . . . . . . p. 14

2.4.7 Single Cell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17

2.5 Normalização dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20

2.6 Dados transcriptomicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20

2.6.1 Sequence Read Archive (SRA) . . . . . . . . . . . . . . . . . . . . . p. 20

2.6.2 Gene Expression Omnibus (GEO) . . . . . . . . . . . . . . . . . . . p. 20

2.7 Redes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21


2.7.1 Search Tool for the Retrieval of Interacting Genes (STRING) . . . . . p. 21

2.7.2 STITCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22

2.8 Redes Biológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22

2.8.1 Conectividade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 24

2.8.2 Coeficiente de clusterização para redes não direcionadas . . . . . . . p. 24

2.8.3 Modelos de Redes . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 24

2.8.4 Rede Escala Livre . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 25

2.8.5 Rede Hierárquica . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 26

2.8.6 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27

3 Objetivos p. 29

3.1 Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 29

4 Material e Métodos p. 30

4.1 Workflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 30

4.2 levi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 30

4.2.1 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 32

4.2.2 C++ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33

4.2.3 CSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33

4.2.4 Equações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33

4.3 transcriptograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 37

4.4 Método de ordenamento de redes em uma dimensão . . . . . . . . . . . . . . p. 37

4.4.1 Modelo Cruz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 40

4.4.2 Modelo X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 43

4.4.3 Modelo Anel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44

4.5 Modularidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45

4.6 Análise de Expressão Gênica . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47


4.7 Enriquecimento Funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 48

4.8 Desenvolvimento da ferramenta dashboard . . . . . . . . . . . . . . . . . . p. 48

4.8.1 Método transcriptograma . . . . . . . . . . . . . . . . . . . . . . . . p. 48

5 Resultados e Discussão p. 50

5.1 levi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50

5.1.1 Implementação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50

5.1.2 Instalação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 51

5.1.3 Carregando os arquivos . . . . . . . . . . . . . . . . . . . . . . . . . p. 52

5.1.4 Execução do levi . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 52

5.1.5 Bioconductor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55

5.2 transcriptograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55

5.3 Ferramenta de dashboard . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57

5.4 Aplicação do workflow em dados de Homo sapiens . . . . . . . . . . . . . . p. 67

6 Conclusões p. 96

Referências Bibliográficas p. 97


1

1 Introdução

A tecnologia da informação está cada vez mais presente em todas as áreas e aspectos de

nossas vidas. Segundo (ALHARTHI, 2017), toda a atividade humana gera dados. No nosso dia

a dia geramos dados nas interações que realizamos em redes sociais, com os equipamentos de

GPS de celulares, ao acessar a redes wi-fi ou mesmo enviar mensagens em correios eletrôni-

cos. Na área biológica, dados podem ser gerados de diferentes fontes como, por exemplo, os

provenientes da interação entre proteínas ou os resultados obtidos através de tecnologias para o

sequenciamento dos dados de expressão.

A integração e analise de dados computacionais obtidos de diferentes fontes é chamado

de big data (SAGIROGLU; SINANC, 2013). Com o big data podemos realizar análises mais

robustas incluindo dados que podem complementar resultados oriundos das mais diversas tec-

nologias.

Existem várias características do big data tal como os Vs que estão relacionados a atributos

importantes que devemos levar em consideração para a correta análise dos diferentes conjuntos

(variedade de dados) e a grande quantidade de dados existentes (volume). Para observarmos o

nível de complexidade dos conjuntos, em uma análise de big data podemos exemplificar que a

variedade dos dados podem ser estruturados, semi-estruturados ou não estruturados, um exem-

plo de dados não estruturados são as lojas virtuais que podem vender itens com diferentes carac-

terísticas como tamanho, dimensão, volume, quantidade, cores, funcionalidades, entre outros.

Em relação a característica do volume de dados podem ser medidos em terabytes, pentabytes e

pode chegar até a yottabytes (RISTEVSKI; CHEN, 2018).

Para armazenar essa grande quantidade de dados de diferentes tipos existem repositórios

disponíveis na internet como o IBGE com dados do senso brasileiro, o DATASUS com conjun-

tos de dados sobre o SUS e o Kaggle que posssui dados desde filmes do cinema até desastres

ambientais. Para dados obtidos através de diversas tecnologias ou experimentos biológicos po-

demos citar alguns exemplos como o Gene Expression Omnibus, ArrayExpress e o The Cancer

Genome Atlas.


2

Para que possamos estudar a possibilidade de transferir as análises realizadas utilizando

as técnicas de big data para a área biológica, podemos utilizar a biologia de sistemas. Se-

gundo (SONIS; VILLA, 2019), a biologia de sistemas permite a integração entre áreas como a

biologia, tecnologia e computação. As perguntas biológicas geram a necessidade de novas tec-

nologias, a aplicação das novas tecnologias tem como resultados novos dados e a computação,

através de novos programas, realizam as análises desses dados.

Entre os grandes desafios da análise desses grandes volumes de dados estão as seleções

dos conjuntos, integração e análises dos dados (KADADI et al., 2014). Por trabalhar com um

grande volumes de dados que podem ter sido gerados de difererentes tecnologias, a etapa de

análise de dados de big data apresenta uma grande dificuldade para os profissionais de ambas

as áreas biológicas e/ou computacionais. Uma das principais etapadas da análise de dados são

as criações de visualizações através da filtragem e processamentos dos dados.

Apesar de tabelas possuírem geralmente um grau de detalhamento maior em relação a lei-

tura dos dados, as imagens e gráficos facilitam a visualização e entendimento dos resultados

por todos os usuários. Em 2017 Czauderna e Schreiber citam em seu trabalho a importância da

visualização para apresentar e explorar grandes quantidades de dados biologicos.

Com a quantidade crescente de dados experimentais gerados e disponibilizados em reposi-

tórios na internet, faz-se necessário o acesso a métodos que permitam uma melhor visualização

das potenciais relações entre estes registros.


3

2 Revisão da Literatura

2.1 Big Data

O crescente aumento da quantidade de conjuntos de dados gerados pelo surgimento de

novas tecnologias, tanto de sequenciamento de nova geração quanto para análise de dados de

expressão gênica, mais rápidas e a baixo custo permitiram o advento da era da ciência de Big

Data (COSTA, 2014). O Big Data é a junção de um grande volume de dados, de diferentes tipos

e que podem ser relacionados para gerar informação. Realizar esse tipo de análise, na maioria

das vezes, não é algo trivial. Podem ser utilizados conceitos e técnicas de áreas relacionadas

como inteligência artificial ou aprendizado de máquina para facilitar aos usuários a detecção de

possíveis correlações nessa grande quantidade de dados para geração de informação.

O Big Data pode ser aplicado nas mais difentes áreas de interesse como no âmbito empre-

sarial, instituições de ensino, dados médicos, finanças ou mesmo em dados de mídias sociais.

Segundo (RISTEVSKI; CHEN, 2018) as características do Big Data podem ser definitas por 6

"V"s (figura 2.1):

• Volume: Pode ser medido em terabytes, exabytes ou mesmo yottabytes. É a quantidade

de dados obtidos e que podem ser classificados e comparados para transformar dados em

informação.

• Veracidade: Os dados podem ser avaliados em relação a sua qualidade, incerteza, rele-

vância e confiabilidade.

• Velocidade: É o tempo de criação, processamento e análise dos dados.

• Variedade: Os dados podem estar estruturados, semi-estruturados ou não estruturados. A

variedade leva em consideração a complexidade e heterogeneidade de todos os conjuntos

de dados.

• Variabilidade: Os dados podem ser dinâmicos, estarem em evolução, serem sazonais.

Todas essa variavéis são importante para a análise correta dos dados.


4

• Valor: Procura mensurar a importância e a relevância dos dados.

BIG

DATA
VOLUME

VERACIDADE VALOR

VARIEDADEVELOCIDADE

VARIABILIDADE

Figura 2.1: Características do Big Data: Velocidade, Variedade, Volume, Variabilidade, Veraci-
dade e Valor. Fonte: O Autor, 2022.

Entre as suas diversas utilizações é possível usar uma quantidade massiva de variáveis anali-

sadas em conjunto para obtenção de modelos preditivos (KHOURY; IOANNIDIS, 2014). Esses

modelos permitem prever os possíveis resultados levando em consideração as variáveis que per-

meiam o processo onde os dados estão inseridos. Esses modelos preditivos podem ser utilizados

na área biológica, por exemplo, na fase de testes pré-clínicos da aplicação de drogas no combate

a doenças permitindo analisar suas possíveis consequências.

Diversos estudos utilizaram o Big Data para auxiliar pesquisas médicas. Em 2019 Carbone

e Montecucco realizaram um estudo sobre as oportunidades da utilização do Big Data para

os desafios de doenças cardiovaculares. Brown e colaboradores utilizaram o Big Data para

demonstrar que é possível melhorar o cronograma de projetos de descoberta de novas drogas

além de otimizar as tomadas de decisão ((BROWN et al., 2018)). Sanches-Pinto e colaboradores

realizaram um levamentamento sobre aplicações, conceitos, desafios do Big Data em terapia

intensiva (SANCHEZ-PINTO; LUO; CHURPEK, 2018).


5

2.2 Biologia de sistemas

No final do século XX e início do século XXI, o avanço em diversas áreas como nanotec-

nologia, robótica, processamento de dados e óptica permitiram a evolução das ferramentas de

análise moleculares a um nível mais amplo, possibilitando assim novos estudos dos organismos.

Essa evolução gerou as chamadas "Ciências Ômicas"que buscam analisar ou mesmo comparar

a estrutura e o comportamento de milhares de componentes biológicos em diferentes condições

fisiológicas ou em diferentes espécies. Entre essas áreas podemos ter o estudo da sequência

completa de DNA de um organismo (genoma), o conjunto de transcritos de RNA (transcrip-

toma), o estudo do conjunto de proteínas (proteoma), entre outros. (MOREIRA, 2015)

Os estudos ômicos geram uma vasta quantidade de dados e informações relacionadas ao

comportamento celular em diversas condições fisiológicas. Para elucidar os elos das lacunas

ausentes entre moléculas e fisiologia foi desenvolvida a biologia de sistemas. A biologia de

sistemas busca integrar todos esses dados e informações mapeando e modelando em termos

quantitativos, o comportamento celular ou fisiológico de um organismo (figura 2.2) (BRUGGE-

MAN; WESTERHOFF, 2007).

novas 
ideias

novas 
hipoteses

novos 
programas

novos 
dados

novas 
tecnologias

novas 
perguntas
biológicas

BIOLOGIA

TECNOLOGIACOMPUTAÇÃO

Figura 2.2: Biologia de Sistemas. O presente esquema integra áreas como Biologia, Tecnologia
e Computação para desenvolvimento de novos insumos buscando responder perguntas biológi-
cas. Fonte: Adaptado de (SONIS; VILLA, 2019)


6

Buscando atingir esse objetivo, uma das principais metodologias computacionais que pode

ser utilizada para integrar todos esses dados são conceitos existentes na Teoria dos Grafos, um

ramo da matemática que lida com os fundamentos das chamadas redes de integração. Uma rede

de integração é uma estrutura complexa, que pode ser formada por um elemento chamado nós

(ou vértices), que são unidos por conectores e auxiliam a descrever uma variedade de sistemas

biológicos, de tecnologia ou relações sociais. Por exemplo, a internet é uma complexa rede

de computadores e roteadores (nós), unidos por meios físicos (conectores) (ALBERT; BARA-

BÁSI, 2002).

Segundo (SHAHZAD; LOOR, 2012) existem dois métodos de análises em biologia de sis-

temas que levam em consideração os diferentes tipos de redes biológicas: a biologia de sistemas

"de cima para baixo"(que realiza o estudo do mais complexo ao menos complexo ou "de cima-

para-baixo") e a biologia de sistemas "de baixo para cima"(indo do menos complexo ao mais

complexo ou "de baixo-para-cima"). A análise "de cima para baixo"utiliza os dados experi-

mentais de larga escala obtidos pelas ciências ômicas, utilizando esses dados é possível realizar

análises e integração destes dados para a geração de novas hipóteses. Estas hipóteses podem ser

testadas atráves da verificação experimental do modelo (Fig 2.3 A). A análise "de baixo para

cima"inicia-se utilizando de processos já caracterizados experimentalmente (reações enzimáti-

cas, interações proteicas, etc), a segunda etapa é integrar esses processos computacionalmente

em diferentes contextos biológicos. As hipóteses criadas através dessas análises são verifica-

das experimentalmente e podem fornecer uma visão mais ampla sobre o funcionamento dos

sistemas biológicos (Fig 2.3 B).


7

A B

Figura 2.3: Métodos de análises em Biologia de Sistemas. (A) Análise "de baixo-para-cima".
Este método utiliza os dados experimentais de larga escala obtidos através das ciências ômicas
para elaboração das hipoteses. (B) Análise "de baixo para cima". Este método busca integar de
forma computacional os processos já caracterizados experimentalmente para a geração das suas
hipóteses. Fonte: Adaptado de (MOREIRA, 2015)

Para avaliar se os resultados obtidos em modelos animais podem ser aplicados para o Homo

sapiens podemos utilizar a biologia de sistemas. A biologia de sistemas provê meios para

identificar a que ponto os mecânismos estudados em modelos in vivo são similares. Ela é

uma ciência multidisciplinar que utiliza abordagens matemáticas com percepções biológicas e

médicas com o intuíto de predizer eventos interconectados para análise da rede de interações

utilizando diferentes níveis do sistema (GONZALEZ-ANGULO; HENNESSY; MILLS, 2010).

A biologia de sistemas oferece os meios para os limites de tradução de modelos animais em

diferentes ensaios clínicos às avaliações toxicológicas para a biologia celular. Pois, podemos

integrar os dados contidos em interações entre proteínas, rotas metabólicas, redes, ontologias,

expressão gênica e pequenas moléculas para construir modelos matemáticos preditivos desse

sistema e assim compreender essas informações em diferentes níveis dos sistemas biológicos

individuais (IDEKER; GALITSKI; HOOD, 2001).

Com a utilização do Big Data podemos analisar dados entre interações de RNA longo não-

codificante (Long non-coding RNA - lncRNA), microRNA (miRNA) e proteínas de bancos de

dados online. Os lncRNA são uma classe de RNAs não codificadores de proteínas que possuem

mais de 200 nucleotídeos, estão envolvidos em uma ampla variedade de processos biológicos

como moléculas reguladoras (SZCZEŚNIAK; MAKAŁOWSKA, 2016). Os microRNAs (miR-

NAs) são classes caracterizadas de ncRNAs e são pequenos reguladores de moléculas de RNA

a partir de precursores maiores através de uma via altamente coordenada (JALALI et al., 2013).


8

2.3 Tecnologias para obtenção e análise dos dados de expres-
são gênica

2.3.1 Microarranjo

A tecnologia de microarranjo foi um dos grandes benefícios obtidos durante pesquisas

relizadas no decorrer do Projeto do Genoma Humano (TREVINO; FALCIANI; BARRERA-

SALDANA, 2007). Com a utilização dessa tecnologia, tornou-se possível mensurar, ao mesmo

tempo com rapidez e eficiência, a expressão de vários genes de um determinado organismo. O

principio da técnica de microarranjo in situ consiste na utilização de uma superficie sólida que

possui diversas sequências de nucleotídeos com tamanhos que variam dependendo do chip utili-

zado (entre 20 a 100 pares de bases por sonda) fixadas em sua base, essas sequências podem ser

de dois tipos: cDNA ou oligonucleotídeos (MILLER; TANG, 2009). Os oligonucleotídeos ou

o cDNA são usados como sonda que quando híbrida com uma molécula alvo marcada com flu-

oróforo permite a detecção de DNA complementar ou RNA. Em pouco tempo, o microarranjo

se tornou uma das ferramentas mais utilizadas em meta análises de dados genômicos (TSENG;

GHOSH; FEINGOLD, 2012).

2.4 Tecnologias de Microarranjo

2.4.1 Affymetrix

Na tecnologia de microarranjo da Affymetrix os oligonucleotideos são sintetizados direta-

mente na superfície do microarranjo. É uma superfície de quartzo com proporções de 1,2cm2.

O processo de sintetização in situ cria sondas normalmente curtas, entre 20 a 25 pares de base,

por isso é utilizado várias sondas para se obter melhores valores estatísticos de sensibilidade,

especificidade e precisão. (DALMA-WEISZHAUSZ et al., 2006).

O processo de adição das bases A, C, T ou G na cadeia de oligonucleotídeos é realizada

utilizando uma máscara litográfica e luz UV. A luz UV remove a proteção quimica existente no

microarranjo, permitindo assim a síntese de apenas um nucleotídeo por vez. Padrões diferentes

de utilização de máscaras em cada ciclo liberam sondas diferentes para a adição dos oligonu-

cleotídeos em determinadas cadeias. A execução e repetição desse processo gera o resultado

final com sondas de até 25 pb (figura 2.4).


9

Luz

Fotolitogra�a

Lentes

Máscara litográ�ca Microarranjo (Wafer)

Recursos desprotegidos

Ciclo de síntese química

Microarranjo (Wafer)

Máscara

Luz

Repete

25 - mer

GeneChip Microarranjo

Figura 2.4: O esquema da Affymetrix utiliza uma fotolitografia a luz UV que emite uma luz
incidindo na máscara litográfica que realiza o filtro para transmitir ou bloquear a luz no mi-
croarranjo que está quimicamente protegido. A ordem da síntese da sequência na superfície
do microarranjo é determinada com a aplicação sequencial de máscaras litográficas específicas.
No Ciclo de síntese química a luz UV remove os grupos de proteção (quadrados) da superfície
da matriz, permitindo a adição de um único nucleotídeo protegido à medida que ela é lavada
sobre o microarranjo. A aplicação de sequências de remoção de proteção da luz, alterações nos
padrões de filtragem das máscaras e adições de nucleotídeo único formam o microarranjo com
sondas específicas de tamanho de 25 pb. Adaptado de (MILLER; TANG, 2009).

2.4.2 Roche

A tecnologia de microarranjo da Roche consegue criar sondas de oligonucleotídeos maiores

que a da Affymetrix com tamanhos entre 50 a 100 pb. Outra diferença entre os microarranjos

da Affymetrix e da Roche é a utilização das máscaras. Enquanto a Affymetrix utiliza máscaras

físicas a Roche utiliza máscaras virtuais. Essas máscaras são criadas através de um Dispositivo

Digital de Microespelhos (Digital Micromirror Device - DMD) que é responsável por canalizar

a luz na superfície do microarranjo removendo a proteção para que o possível nucleotídeo seja

adicionado (figura 2.5). (HUANG; HUANG; WANG, 2010)


10

Dispositivo Digital de Microespelhos (DMD)

Fonte de luz

Microespelhos digitais

= grupo protetor fotolábil

Adiciona

Adiciona

Repete

Até 85 mer

Figura 2.5: O esquema da Roche utiliza um sintetizador de matriz que não precisa de máscara
física. Com a utilização de um DMD - Digital Micromirror Device (Dispositivo Digital de
Microespelhos) são criadas máscaras virtuais. O DMD direciona a luz UV permitindo que
seja adicionado apenas os ácidos nucleicos espeficico durante a etapa de síntese. A luz UV
remove o grupo protetor fotolábil da superfície do microarranjo, permitindo a adição de um
único nucleotídeo protegido à cadeia oligonucleotídica. Essa tecnologia permite que sejam
criados de 60 a 100 bp de comprimento no microarranjo. Adaptado de (MILLER; TANG,
2009).

2.4.3 Agilent

As sondas sintetizadas pela tecnologia in situ da Agilent utiliza impressão com jatos de

tinta. Essa tecnologia permite a hibridização com multiplas cores, cada cor correspondente

aos nucleotídeos A, C, T e G. Diferente dos suportes da Affymetrix e da Roche, os suportes


11

da Agilent são feitos de vidro e para a construção do equipamento são utilizadas cabeças de

impressão a jato de tinta comerciais. Para a impressão são usados monômeros de fosforamidita

em carbonato de propileno (figura 2.6). (HUGHES et al., 2001)

Figura 2.6: No esquema da Agilent temos: (A) Usando uma tecnologia de impressão de tinta
não é necessário contato direto, assim é gerada a primeira camada de nucleotídeos na superfí-
cie do microarranjo. (B) Esse procedimento se repete aumentando o comprimento das sondas
oligonucletídicas específicas. (C) Visão aproximada da cadeia oligonucleotídica sendo aumen-
tada base a base. (D) A sonda sintetizada in situ pela Agilent possui comprimento de 60 pb.
Adaptado de (MILLER; TANG, 2009).

2.4.4 RNA-seq

O RNA-seq é uma tecnologia que permite gerar o perfil do transcriptoma. O perfil do

transcriptoma leva em consideração o conjunto e a quantia de transcritos de uma célula em uma

determinada condição fisiológica ou em um estágio de desenvolvimento específico. Usando

tecnologias de sequenciamento o RNA-seq permite mensurar de forma mais precisa o nível dos

transcritos e suas isoformas. Entender o perfil do transcriptoma é fundamental para elucidar os

elementos do genoma, compreender os constituintes moleculares das células e tecidos e assim

permitir o estudo e desenvolvimento de doenças (WANG; GERSTEIN; SNYDER, 2009). O

RNA-seq possui um menor ruído de background do que a tecnologias de microarrays e também

possui uma faixa dinâmica maior para ser realizada a detecção (HRDLICKOVA; TOLOUE;

TIAN, 2017).


12

Biologia experimental

Extração de RNA

Fragmentação do RNA e transcrição reversa

Construção da biblioteca e sequenciamento

Biologia computacional

Milhões de reads pequenos

Controle de qualidade e pré-processamento

Alinhamento a um genoma de referência ou 
montagem de novo

Indexação para as regiões de 
codi�cação / exons / junções

Biologia de sistemas

Análise das DEG Análise da estrutura do transcriptoma

Análise da via metabólica ou 
co-expressão da rede 

Análise integrada com 
epigenomica / dados proteômicos

Teste das categorias enriquecidas

Percepções biológicas

Figura 2.7: Esquema geral de um pipeline para RNA-seq. É dividido em três áreas principais:
biologia experimental, biologia computacional e biologia de sistemas. O pipeline é iniciado
com a extração de DNA na fase da biologia experimental, que é responsável pela preparação
da amostra. Na fase de biologia computacional é realizado o controle de qualidade, alinha-
mento/montagem e indexação das regiões. Por último, temos a biologia de sistema com três
etapas inicias: as análises de genes diferencialmente expressos (DEG), a análise de estrutura do
transcriptoma e as análises integradas. Todas elas levam à percepções biológicas. Adaptado de
(HAN et al., 2015).

O RNA-seq realiza o seu processo baseado nas tecnologias de sequenciamento. Para cada

geração de sequenciamento existem tecnologias e seus respectivos métodos utilizados. Entre as

principais tecnologias temos: Sanger (primeira-geração), Ilumina (segunda-geração) e Pacific

Biosciences (terceira-geração).

2.4.5 Sanger (primeira-geração)

A tecnologia de sequenciamento criada por Sanger e colaboradores (SANGER; NICKLEN;

COULSON, 1977), conhecida também como de “primeira-geração”, utiliza dideoxinucleotí-

deos como bloqueadores de síntese da cadeia de DNA (METZKER, 2010) (figura 2.8). Esse é

um método de sequenciamento, onde ocorre a síntese de uma fita complementar a sequência de

DNA de interesse, para isso são necessários DNA polimerase, o primer que servirá como ini-


13

ciador os deoxinucleotídeos (DNTPs) para a sintese e os dideoxinucleotídeos (ddNTPs) como

finalizadores inibidores. Os dideoxinucleotídeos (dDNTPs) são nucleotídeos modificados que

não possuem um grupo hidroxila na posição 3’ do carbono do anel de sacarose bloqueando

assim a adição de novos nucleotídeos. Durante a síntese, várias cópias da fita complementar

são sintetizadas com a adição de DNTPs. Porém, quando os dDNTPs são incorporados, ocorre

a interrupção da inclusão de novos nucleotídeos. Essa interrupção pode ocorrer em qualquer

etapa da síntese, gerando fragmentos de diferentes tamanhos de dNTPs. Após essa etapa, os

fragmentos de DNA são separados utilizando um gel de poliacrilamida. A sequência é obtida

através da visualizaçaõ das bandas que indicará a sequência de nucleotídeos da fita complemen-

tar e, por complementaridade de bases. Atualmente o método passou a ser automatizado, com

a utilização de computadores para leitura do gel e processamento das sequências e a utilização

de fluorocromos para os nucleotídeos (HEATHER; CHAIN, 2016).

A utilização do método de Sanger permitiu o surgimento de novos tipos de análises onde

o sequenciamento de vários organismos simultaneamente está sendo utilizado e possibilitando

estudos aprofundados que o isolamento de materiais genéticos de um único organismo não

propiciava. Utilizando o sequenciamento de Sanger foi possível, por exemplo, sequenciar o

genoma humano (METZKER, 2010).


14

Fita a ser sequenciadaPrimer para

replicação

Primer

DNA + Primer

Primer

Primer

Figura 2.8: Ilustração do funcionamento da tecnologia de sequênciamento de Sanger. À tem-
peratura de 95ºC a fita dupla sofre uma desnaturação separando-se em duas fitas simples. Cada
uma dessas fita simples possui primer, nucleotídeos e DNA polimerase. A aproximadamente
50ºC ocorre o anelamento do primer e com 72ºC a DNA polimerase entra em ação realização
a extensão da fita complementar. Quando os dideoxinucleotídeos (ddNTPs) são incorporados
à fita de DNA ocorre o bloqueio da adição de novos nucleotídeos, gerando assim fragmentos
de tamanhos diferentes. Ao colocar no gel essas fitas migram por causa da sua massa e carga.
No sequenciamento automatizado os ddNTPs (dideoxinucleotídeos) é utilizando um sistema de
laser e detector sendo possível identificar esses nucleotídeos, que são fluorescentes, no capilar.
Adaptado de (WINNICK, 2004).

2.4.6 Sequenciamento de nova geração

Os métodos de sequenciamento que surgiram após o método de Sanger e que utilizam es-

tratégias como preparação de fitas molde, sequenciamento e imagem, alinhamento de genoma

e métodos de montagem são chamados de sequenciamentos de nova geração next-generation

sequencing (NGS). As empresa de equipamentos de NGS utilizam tecnologias diferentes para a

criação dos templates (modelos), sequenciamento e captura de imagem. Essas tecnologias dife-

rentes e seus métodos estão diretamente relacionadas a qualidade e o custo dos dados gerados.

(METZKER, 2010).

Entre as principais fabricantes de equipamento de sequenciamento temos: Applied Biosys-

tems, Ilumina, Pacific Biosciences, Ion Torrent, Oxford Nanopore e a SOLiD. Para exemplificar

essas tecnologias veremos o funcionamento da metodologia aplicada pelas empresas Applied

Biosystems, Ilumina, Pacific Biosciences.


15

2.4.6.1 Applied Biosystems

A Applied Biosystems utiliza o método de preparação do template onde são fixados os

primers, de forma individual e são distribuídos sobre um suporte sólido, esses suportes em

formato de esferas são fixadas em uma lâmina de vidro (figura 2.9). Na tecnologia da Applied

Biosystems, os tubos possuem uma mistura de primers, templates, dNTPs e polimerase. Ocorre

uma reação de amplificação por PCR, que é quebrada por emulsão ocorrendo assim a separação

do template.

Applied Biosystems
Emulsão por PCR
Uma molécula de DNA por bead. A ampli�cação do clone para milhares de cópias ocorre em microrreatores numa emulsão

Primer, template,
dNTPs e polimerase

Quimicamente reticulado 
a uma lâmina de vidro

Ampli�cação 
por PCR

Quebra 
por emulsão

Dissociação 
do template

100–200 milhões de 
pequenas esferas(beads)

Figura 2.9: Estratégias de imobilização de templates utilizada pela Applied Biosystems. Pri-
meiro ocorre a adição e ligação dos adaptadores em seguida são selecionados os fragmentos que
possuem adaptadores. Em uma segunda etapa, acontece a ligação da fita simples de DNA às
esferas e em seguida a amplificação do DNA por PCR. Por último, temos a eliminação das gotí-
culas. Com a presença de reagentes (sulfurilase) é gerada luz que é captada pelo equipamento.
Adaptado de (METZKER, 2010).


16

2.4.6.2 Ilumina

A Ilumina utiliza um método de fixação de uma única molécula de DNA por cluster (figura

2.10). Nessa técnica, são criados agrupamentos utilizando fragmentos ou mate-paired templates

em uma lâmina de vidro. Cada agrupamento possui primers que durante a fase de amplificação

criarão pontes entre os segmentos foward e reverse da fita de DNA.

Ilumina
Ampli cação por fase sólida
Uma molécula de DNA por cluster. 

Preparação da
amostra de 
DNA (5 �g)

Ampli�cação da ponte

Template

dNTPs
e
polimerase

100–200 milhões de clusters de moléculas

Crescimento dos clusters

Incorporação 
dos quatro tipos 
de nucleotídeos

Lavagem e 
obteção da 
imagem

Clivagem e
nova lavagem

Repetição 
dos ciclos

Topo: CATCGT

Inferior: CCCCCC

Figura 2.10: Estratégia de amplificação por fase sólida usada pelos equipamentos da Ilumina.
Em cada cluster, há a ligação entre os segmentos da fita de DNA foward e reverse. Com isso
os nucleotídeos são incorporados para a criação da fita de DNA complementar. Ocorre uma
lavagem para retirar os nucleotídeos não incorporados, é obtida a imagem pelo equipamento, é
realizada a clivagem para retirar os fluorocromos (responsável pela emissão de luz). Esse ciclo
é repetido até a obtenção de toda a sequência de nucleotídeos da fita complementar. Adaptado
de (METZKER, 2010).


17

2.4.6.3 Pacific Biosciences

O método utilizado pela Pacific Biosciences realiza a detecção dos fragmentos incorporados

em tempo real e é considerado de terceira geração. Nesse método, a polimerase é fixada à

superfície sólida. A detecção dos nucleotídeos incorporados ocorre em tempo real com isso é

possível conseguir tamanhos de reads maiores do que as outras metodologias (figura 2.11)(LIU

et al., 2012; METZKER, 2010).

Vidro

Limite de detecção

Tempo

In
te

n
s
id

a
d
e Pulso de �uorescência 

Figura 2.11: Estratégia de fixação da polimerase no suporte utilizada pela Pacific Biosciences.
A polimerase é fixada em uma superfície solida. O equipamento possui um limite de detecção
para captura da imagem, com isso consegue verificar a intensidade em relação ao tempo do
pulso de fluorescência quando um nucleotídeo é incorporado. Após a captura da imagem, ocorre
a clivagem do fluorocromo. Adaptado de (METZKER, 2010).

2.4.7 Single Cell

Os resultados em uma análise de RNA-seq são obtidos utilizando os cálculos dos valores

de perfis de expressão das médias de um conjunto de células. O víes da utilização de RNA-seq

é a impossibilidade de realizar uma análise minuciosa nos diversos tipos e subtipos de células

usando analises baseadas em população. Desse modo, a técnica de single cell permite entender

a expressão gênica no nível de célula única o que é importante para estudos e análises isoladas

dessas células. (HRDLICKOVA; TOLOUE; TIAN, 2017) (LUN; MCCARTHY; MARIONI,

2016)

O primeiro método de sequenciamento de RNA single cell (scRNA-seq) foi desenvolvido

em 2009 utilizando a premissa que células individuais são únicas e a base para a contrução dos


18

organismos. A execução de um sequenciamento em massa de RNA pode mascarar a singulari-

dade de cada celula além de ocultar possíveis mudanças nessas células (TANG et al., 2009).

Para cada célula, o mRNA é isolado e transcrito reversamente em cDNA para execução

do sequenciamento utilizando as tecnologias de nova geração (NGS - Next Generation Sequen-

cing). Essa tarefa pode ser realizada usando plataformas microfluídicas como o Fluidigm C1,

protocolos baseados em placas de microtitulação como Smart-seq2 ou tecnologias baseadas em

gotículas como inDrop. A quantificação da expressão de cada célula é obtida através do ma-

peamento das suas leituras. Também podem ser utilizados identificadores moleculares únicos

(UMIs) para medir o número de moléculas de transcrição para cada gene. Os dados de conta-

gem são analisados e fornecem informações biológicas para detectar genes altamente variáveis

(HVGs) que demonstram a heterogeneidade entre células em uma população, é possível encon-

trar correlações entre genes e fenótipos celulares assim como identificar novas subpopulações

através da identificação de agrupamentos (figura 2.12) (LUN; MCCARTHY; MARIONI, 2016).


19

Pipeta

Microscópio

Placa de 96 poços

Pipeta capilar

Detector 
multiespectral 

Célula

Micro uídicos

óleo

óleo

Células da 
suspensão

Micropartículas e 
tampão de lise

Gota com 
célula única

Coleta de sangue

Anticorpo anti-EpCAM 
com partícula magnética

Enriquecimento CTC

Transcrição reversa com troca de modelo
Estrutura do barcode do primer

Alça do PCR
Barcode da

 célula Sequência de captura

Gota Célula

Partícula

Lise 
celular

Quebra 
da gota

A B C

D E F

G

Figura 2.12: Isolamento de Single Cell e preparação da biblioteca.(A) O método de diluição
limitante isola células individuais, alavancando a distribuição estatística de células diluídas.
(B) A micromanipulação envolve a coleta de células únicas usando pipetas capilares guiadas
por microscópio. (C) FACS (Fluorescence Activated Cell Sorting) isola as células altamente
purificadas através da marcação com proteínas fluorescentes. (D) A microdissecção de captura
a laser ( Laser capture microscopy - LCM) utiliza um sistema de laser auxiliado por um sistema
de computador para isolar células de amostras sólidas. (E) A tecnologia microfluídica para
isolamento de célula única requer volumes do tamanho de nanolitros. (F) O sistema CellSearch
enumera CTCs (Circulating tumor cells) de amostras de sangue de pacientes usando um ímã
conjugado com anticorpos de ligação à CTC. (G) Um exemplo esquemático de geração de
biblioteca baseada em gotículas. Bibliotecas para scRNA-seq geralmente são geradas via lise
celular, transcrição reversa no cDNA da primeira fita usando barcodes exclusivos, síntese da
segunda fita e amplificação de cDNA. Adaptado de (HWANG; LEE; BANG, 2018).


20

2.5 Normalização dos dados

Os dados de microarranjo precisam ser normalizados com a finalidade de diminuir as va-

riações existentes entre os dados, essas variações ocorrem devido a diferença na eficiência de

marcação dos fluoróforos verde e vermelho no processo de detecção no escaneamento. Com

a normalização é possível realizar comparações apropriadas entre os dados (DUDOIT et al.,

2002).

Para a os dados obtidos por meio de técnicas de RNA-seq podemos utizar dois tipos de

normalizações: RNA-seq Bulk e RNA-seq single cell. O protocolo RNA-seq Bulk é utilizado

para o RNA-seq tradicional enquanto o RNA-seq single cell são utilizados para amostras obtidas

pela técnica de single Cell. (LUN; MCCARTHY; MARIONI, 2016).

Os dados de microarranjo podem ser normalizamos usando um dos dos 3 métodos/protoco-

los:

• Microarray Suite 5 (MAS5);

• Robust Multi-array Average (rma);

• GC Robust Multi-array Average (gcrma);

2.6 Dados transcriptomicos

2.6.1 Sequence Read Archive (SRA)

O Sequence Read Archive (SRA) é um banco de dados público e internacional para armaze-

namento de dados de sequências obtidas de tecnologias de NGS (Next Generation Sequence). É

administrado pelo National Center for Biotechnology Information (NCBI), o Instituto Europeu

de Bioinformática (EBI) e o DNA Data Bank of Japan (DDBJ), tendo como missão preservar os

dados de sequenciamento de domínio público e fornecer acesso livre, irrestrito e permanente a

esses dados (LEINONEN; SUGAWARA; SHUMWAY, 2010). No SRA é possível obter dados

de RNA-Seq.

2.6.2 Gene Expression Omnibus (GEO)

O GEO (Gene Expression Omnibus) possui dados de RNA-Seq e microarranjo. O GEO é

um projeto que iniciou com o aumento exponencial de dados de expressão gênica e a necessi-


21

dade de um repositório público para esses dados (EDGAR; DOMRACHEV; LASH, 2002).

2.7 Redes

2.7.1 Search Tool for the Retrieval of Interacting Genes (STRING)

Para a criação das redes de integração utilizaremos dados obtidos no banco de dados STRING.

O STRING é um banco de dados de interações de proteínas-proteínas que atualmente possui

5090 organismos (o dobro da versão anterior 2031 organismos), 24.6 milhões proteínas e mais

de 2 bilhões de interações cadastradas (STRING, 2017). Segundo Szklarczyk e colaboradores

o STRING objetiva fornecer uma avaliação crítica e integração de interações proteína-proteína,

incluindo associações diretas (físicas) e indiretas (funcionais) ((SZKLARCZYK et al., 2014)).

Na sua versão mais atual (STRING V11), possui melhorias que incluem a possibilidade de

carregar como input um conjunto de dados de genoma inteiro, permitindo assim ao usuário

visualizar, como redes de interação, grupos menores existentes ou realizar uma análise de en-

riquecimento do conjunto de genes de todo o genoma. Além dos sistemas de classificação já

conhecidos como o Gene Ontology e o KEEG agora permite a utilização de outras duas opções:

um sistema de mineração de dados que busca palavras chaves em resumos de artigos do Pub-

Med e um sistema de clusterização hierarquica da própria rede do STRING que retorna clusters

de tamanho entre 5 e 200 levando em consideração módulos que possuem muitas conexões. Na

geração da rede existem configurações importantes que devem ser observadas para garantir a

qualidade e confiança do resultado:

• Minimum required interaction score: utiliza uma escala própria entre zero e um utili-

zando todas as associações verdadeiras nas evidências disponíveis.

• Textmining: realiza uma análise estatística de co-citação em todos os resumos do Pub-

Med assim como outras bases de dados.

• Experiments: todas as interações existentes no banco de dados IMEx são novamente ma-

peadas e processadas retirando os dados duplicados. Os registros resultantes são aferidos

contra o KEGG.

• Databases: é baseado nas intererações dos bancos de dados curados como KEGG, Reac-

tome, BioCyc e Gene Ontology, assim como em bancos de dados legados como o PID e


22

BioCarta.

• Co-expression: a correlação entre genes é testada entre vários bancos de dados de ex-

pressão como por exemplo o NCBI Gene Expression Omnibus.

• Neighborhood: Através de comparação sistemáticas de genomas de procariotos verifica

a semelhança entre os genes vizinhos.

• Gene Fusion: Assim como no neighborhood, utiliza a comparação com genomas de pro-

cariotos para idenficação da fusão dos genes em cada organismo.

• Co-ocurrence: Também utiliza a comparação de genomas de procariotos para verificar a

existência ou falta de proteínas que estão ligadas.

2.7.2 STITCH

STITCH é um banco de dados de interações proteína-pequenas moléculas que integra fontes

experimentais e curadas manualmente com informações de mineração de texto (textmining) e

previsões de interação (KUHN et al., 2013). Atualmente possui cadastradas redes com 2031

organismos, 500 mil drogas, 9,6 milhões de proteínas e 1,6 bilhões de interações.

2.8 Redes Biológicas

Redes complexas de uma forma muito simplificada, corresponde ao conjunto de elementos

que interagem entre si, são representadas por elementos matemáticos como os vértices (nós,

nodos) e as arestas (interações, ligações, associações). No caso de redes sociais, cada pessoa

representa um vértice e a amizade entre duas pessoas, é representada pela aresta. Uma rede

complexa pode ser direcionada, quando existe uma orientação para a aresta, ou não-direcionada

quando não há nenhuma orientação para a aresta.

No caso de redes biológicas (VERLI, 2014), a figura 2.13 (A) apresenta um exemplo de

rede direcionada. O mecanismo de degradação ubiquitina-proteassoma: uma proteína destinada

à degradação é marcada por ligações covalentes de moléculas de ubiquitina que transmitem um

sinal para o proteassoma que, por sua vez, degrada a proteína em peptídeos. Essa representa-

ção é dita direcionada porque não é possível realizar o caminho inverso, partir dos peptídeos

para formar a proteína via proteassoma. A figura 2.13 (B) apresenta um exemplo de rede não

direcionada. A reação reversa de fosforilação e desfosforilação de adenosina difosfato. Te-


23

mos adenosina monofosfato (AMP) que recebe um grupo fosfato (PO4) e se torna adenosina

difosfato (ADP) que sua vez pode receber um grupo fosfato (PO4) que se torna em adenosina

trifosfato (ATP) que pode perder um grupo fosfato por vez até tornar-se AMP (AMP⇐⇒ ADP

⇐⇒ ATP).

Figura 2.13: Exemplo de rede direcionada e não-direcionada. (A) Rede direcionada, a via de de-
gradação de proteína; (B) Rede não-direcionada, a reação reversa de fosforilação de adenosina
difosfato. Adaptado de (VERLI, 2014)

Pode-se definir uma rede complexa por meio de uma matriz de adjacência (A) como uma

representação matricial de uma rede, onde cada elemento da matriz ai,j assume o valor 1(0) no

caso de haver (ou não) uma aresta ligando os vértices identificados por i e j. Essa representação

não traz informação sobre um possível direcionamento (i age sobre j mas j não age sobre i)

nem sobre os pesos destas associações (figura 2.14).

A

B

C

D E

F

A

B

C

D E

F
A B

V = 6

E = 9 

V = 6

E = 9 

Grafo não direcionado Grafo direcionado

Conexão 

fraca

Conexão 

forte

Figura 2.14: Exemplos de tipos de grafos. (A) Grafos não direcionados demonstram apenas
as conexões entre os nós. (B) Grafos direcionados possuem informações sobre as conexões,
direção e força (espessura da linha) em cada conexão. Fonte: O Autor, 2022.


24

2.8.1 Conectividade

A conectividade (ki) de um vértice i de uma rede é definida como o número de arestas do

vértice (i). A partir desta informação, é possível obter a conectividade para cada vértice via

matriz de adjacência (equação 2.1).

ki =
N

∑
j

aij (2.1)

Onde N é o número total de vértices, e aij é o elemento da matriz de adjacência (A). Através

desta medida podemos definir também a conectividade média da rede 〈k〉 (equação 2.2):

〈k〉= 1
N

N

∑
i=1

ki. (2.2)

2.8.2 Coeficiente de clusterização para redes não direcionadas

O coeficiente (Ci) de clusterização mensura a razão existente de arestas n entre os vizinhos

de um dado vértice i e o número máximo possível destas arestas (equação 2.3):

Ci =
2n

ki(ki−1)
=

1
ki(ki−1)

N

∑
j=1

aij

N

∑
m=1

ajmami. (2.3)

Quando Ci é igual a zero, os vizinhos do vértice i não possuem conexão entre si, e no caso de

Ci = 1 todos os vizinhos de i estão conectados entre si.

Assim como na conectividade, podemos ter um valor do coeficiente de clusterização médio

para uma rede (equação 2.4):

〈C〉= 1
N

N

∑
i=1

Ci. (2.4)

2.8.3 Modelos de Redes

2.8.3.1 Rede Aleatória

Em 1960, Erdös-Rényi (ERDŐS; RÉNYI, 1960) criaram um modelo de rede aleatória,

iniciando a partir de uma rede com N vértices e considerando uma probabilidade p que um dado

par de vértices seja conectado. Este processo gera uma rede com aproximadamente pN(N−1)
2

arestas distribuídas aleatóriamente como na figura 2.15 Aa. A distribuição da conectividade

segue uma lei de distribuição binomial, que indica que muitos vértices terão a mesma quantidade


25

de arestas, enquanto que alta e baixa conectividades são raras como se pode observar pelo

gráfico na figura 2.15 Ab. O coeficiente de clusterização é independente da conectividade do

vértice, como é visto pelo gráfico c(k) versus k, onde temos uma linha horizontal (C(k)≈ p),

figura 2.15 Ac.

2.8.4 Rede Escala Livre

A rede escala livre é obtida por meio do modelo de crescimento de redes proposto por Ba-

rabási e colaboradores (BARABASI; OLTVAI, 2004) que, iniciando com um pequeno conjunto

de vértices todos ligados uns aos outros, novos vértices são acrescentados um a um. As ligações

de um novo vértice com os já existentes são criadas com uma probabilidade dada por:

p(ki) =
ki

∑
N
j=1 kj

〈k〉 (2.5)

onde ki é a conectividade do vértice e 〈k〉 a conectividade média desejada. A rede é mos-

trada na figura 2.15 Ba. Esta rede apresenta uma distribuição de conectividade p(k) na forma

de uma lei de potência caracterizada por um expoente γ = −3, mostrada na figura 2.15 Bb. A

probabilidade de existir vértices altamente conectados é estatisticamente mais significativa do

que na rede aleatória e tais vértices são chamados de “hubs".

A figura 2.15 Bc, mostra o comportamento do coeficiente de clusterização com respeito à

conectividade. Vemos que é uma linha reta paralela ao eixo da conectividade. Isto significa

que todos os vértices têm sempre um valor de coeficiente de clusterização muito próximo um

dos outros, não importando a sua conectividade, logo não existe uma formação de módulo. No

caso da 2.15 Cc, vemos que o coeficiente de clusterização tende a ser muito alto para vértices

pouco conectados e baixo para vértices muito conectados (reta decrescente). Se tivéssemos uma

curva gaussiana no lugar da reta decrescente na figura 2.15 Bc, poderíamos dizer que existe um

tamanho preferencial de módulo, dado pela média da gaussiana.


26

Figura 2.15: Principais modelos de redes, figura retirada do artigo do Barabási (BARABASI;
OLTVAI, 2004). Esquemas para a A rede aleatória, B rede de escala livre e C rede hierárquica.
Com as representações para suas redes topológicas (Aa, Ba e Ca), distribuição de conectividade
(Ba, Bb e Bc) e coeficiente de clusterização (Ac, Bc e Cc).

2.8.5 Rede Hierárquica

Uma rede hierárquica (BARABASI; OLTVAI, 2004) pode ser construída partindo um bloco

de N vértices todos ligados entre si, que é replicado m vezes. Uma rede aumentada é gerada

ligando cada vértice central destes m módulos ao vértice central do módulo inicial, formando

um super módulo de (m+1)N vértices. Repetindo este processo ad infinitum obtemos uma rede

hierárquica, como na figura 2.15 Ca que apresenta uma topologia livre de escala mas com uma

estrutura modular. A distribuição de conectividades desta rede é uma de lei de potências com


27

expoente γ = −2,26, como na figura 2.15 Cb. O coeficiente de clusterização escala com uma

lei de potência que segue C(k) ≈kγ , como pode ser visto na figura 2.15 Cc.

A arquitetura hierárquica apresenta vértices pouco conectados fazendo parte de áreas alta-

mente clusterizadas com comunicação entre os vizinhos nos mais variados níveis de cluteriza-

ção sendo mantidos por poucos nós muito conectados: os “hubs”.

2.8.6 Justificativa

A utilização desses métodos permitem uma visão sistêmica de toda a topologia da rede

que, quando integrada às moléculas que fazem parte da estrutura e regulação, torna-se possível

entender como o surgimento de doenças está relacionada a alterações na rede (CHARITOU;

BRYAN; LYNN, 2016).

Rybarczyk e colaboradores desenvolveram uma metodologia e o transformaram em um pa-

cote para a linguagem de programação R chamado transcriptograma, nessa metodologia os ge-

nes são ordenados em uma lista e através de informações geradas a partir de interações proteína-

proteína com dados disponibilizados em bancos de dados públicos os correlaciona com a ex-

pressão gênica, todos os genes são analisados não sendo descartado nenhum, diferencialmente

expressos ou não, pois genes que não são considerados diferencialmente expressos podem ter

um efeito importante no sistema estudado ((RYBARCZYK-FILHO et al., 2011)).

Entre os principais repositórios de pacotes desenvolvidos para a linguagem de programação

R está o Bioconductor (www.bioconductor.org). Ao submetermos um pacote para ser aceito no

Bioconductor são realizadas diversas verificações e controles de qualidade no código e nos

resultados gerados pelo pacote. Ao final das verificações são apresentados notas, avisos ou

erros. Notas permitem que o pacote passe essa etapa e podem estar relacionados, por exemplo,

a quantidade de linhas das funções do pacote. Avisos podem gerar problemas e pode estar

relacionados, por exemplo, a quantidade de caracteres e identação do código. Se o código

possuir erros o pacote não é aceito pelo Biocondutor.

O transcriptograma em sua versão original, ao realizar as etapas de processamento, cria

diretórios e arquivos de texto para organizar e permitir que o usuário acesse os resultados. O

Bioconductor retorna erro durante a etapa de verificação do pacote caso sejam salvos dados em

formato de arquivos nos discos de armazenamento.

Para resolvermos esse problema fizemos alterações no código do transcriptograma para que

todos os resultados sejam salvos em um objeto do R. Salvar os resultados em um objeto do

R facilita a manipulação dos dados pelo usuário, além de padronizar o formato e permitir a


28

construção de outros pacotes que expandam as funcionalidades do transcriptograma.

Além disso, todas as funções e processos foram inseridas em uma interface gráfica do usuá-

rio, em formato de dashboard, visando fornecer visualizações rápidas dos resultados obtidos e

facilitar alterações nos parâmetros de execução.


29

3 Objetivos

Desenvolvimento de uma plataforma que permita a integração de dados (Big Data), tais

como: redes biológicas, expressão gênica, processos biológicos, dentre outros. A plataforma

deve ser de fácil acesso para diferentes níveis de usuários e que permita a integração de outras

ferramentas oriundas de repositórios como o Bioconductor e R-cran.

3.1 Objetivos específicos

• Desenvolvimento de um pacote para projeção de expressão gênica sobre uma rede bioló-

gica.

• Criação de um objeto em R para salvar os dados gerados entre as etapas do processamento

do transcriptograma.

• Integração da técnica de transcriptograma em ambiente R.

• Desenvolvimento de uma interface amigável para acessar as técnicas do transcriptograma.

• Validar o pacote utilizando dados de expressão gênica de amostras de pulmão de indiví-

duos fumantes, ex-fumantes e que nunca furamaram que tenham ou não adenocarcinoma

em uma rede criada a partir de dados de interações proteína-proteína de Homo sapiens .


30

4 Material e Métodos

4.1 Workflow

Nesse trabalho, nós propomos a análise dos dados de expressão gênica de amostras de pul-

mão obtidas das tecnologias de sequenciamento microarranjo e Single-Cell RNA. Estes dados

serão normalizados e avaliados aplicando o workflow SimpleSingleCell elaborado por (LUN;

MCCARTHY; MARIONI, 2016). As amostras foram adquiridas dos estudos PD-L1 amplifi-

cation is associated with an immune cell rich phenotype in squamous cell cancer of the lung

(GOLDMANN et al., 2021) e Gene Expression Signature of Cigarette Smoking and Its Role in

Lung Adenocarcinoma Development and Survival (LANDI et al., 2008). A tabela 4.1 possui

os dados do título do artigo, autores, quantidade de amostras, tecnologia de sequenciamento

utilizado e número de identificação no repositório Gene Expression Omnibus.

Tabela 4.1: Detalhes dos dados de expressão utilizados na análise

Artigo Autores
Quantidade

de
amostras

Tecnologia
de

sequenciamento
GSE

PD-L1 amplification is associated with an
immune cell rich phenotype in squamous cell cancer of the lung. GOLDMANN et al. 218

RNA-seq,
Illumina HiSeq 2500 GSE81089

Gene Expression Signature of Cigarette Smoking
and Its Role in Lung Adenocarcinoma

Development and Survival
LANDI et al. 135

Microarray
(Affymetrix) GSE10072

Fonte: O autor (2022).

Paralelamente iremos adquirir dados para criação da rede biológica utilizando o STRING.

Serão utilizados os seguintes parâmetros: Experimentos e database, com score de 0.80 e será

realizado o download de todas as interações de Homo sapiens (taxon id = 9606). A integração

desses dados serão analisados usando a metodologia do transcriptograma (figura 4.1).

4.2 levi

O levi será desenvolvido utilizando algumas linguagens de programação de forma híbrida.

Abaixo, temos os conceitos das ferramentas utilizadas e as explicações dos cálculos para con-


31

Homo sapiens

GEO (microarranjo/RNA-Seq);

Aquisição de dados 
para criação da rede

transcriptograma

levi

Tecidos sádios/câncer (in vivo):
                * pulmão

Desenvolvimento do 

dashboard usando o Shiny

Normalizações

*Microarranjo
*RNA-seq
*Single Cell

Figura 4.1: Workflow com as etapas do projeto. O projeto será dividido em três etapas, sendo
as duas primeiras executadas paralelamente. (A) Teremos a obtenção dos dados para análise
de expressão gênica de Homo sapiens. (B) Ao mesmo tempo faremos a aquisição de dados em
bancos de dados online para criação das redes de interação. (C) Com a utilização dos métodos
do transcriptograma e o levi iremos desenvolver uma ferramenta em dashboard para facilitar a
utilização das ferramentas de análise de rede.

traste, resolução, zoom e suavização que são responsáveis por alterações na geração de imagem

do landscape.


32

4.2.1 R

R é uma linguagem e um ambiente de desenvolvimento voltado principalmente para compu-

tação estatística (inferência, simulações, data mining, etc) e gráficos, está disponível como um

software livre, atualmente está na versão 4.2.2 (publicada em 31/10/2022) e pode ser executado

em sistemas operacionais Windows, Linux, MacOS (R Core Team, 2018).

Entre as facilidades da utilização da linguagem R, podemos citar:

• Facilita o armazenamento e manipulação de dados;

• Possui variadas funções e pacotes para manipulação de vetores e matrizes;

• Pacotes e ferramentas que permitem a análise dos dados;

• Integração com outras linguagens de programação;

• Possibilidade de criação de pacotes com interface gráfica.

O ambiente de desenvolvimeto integrado (IDE) utilizado foi o RStudio. O RStudio pos-

sui uma interface gráfica do usuário que permite a utilização de botões, navegação entre os

diretórios, leitura da documentação dos pacotes e facilita a codificação de scripts em R.

O R foi usado em 85% do desenvolvimento e é responsável por receber os parâmetros do

usuário como: arquivo com dados dos nodos, arquivo com valores de expressão, nomes das

colunas dos dados de expressão que serão utilizadas para o processamento, coluna com o Gene

Symbol; criação de funções utilizadas internamente no processamento; execução das linhas de

código; desenvolvimento da interface de usuário com o Shiny e geração dos resultados.

Um paradigma de programação bastante utilizado é a programação orientada a objetos

(POO) ela consiste na utilização do conceito de objetos para armazenar atributos (dados) e

métodos (códigos).

A linguagem R propicia a utilização de programação orientada a objetos para a criação

de programas. Para o desenvolvimento do presente trabalho algumas classes de objetos foram

importantes como os vetores, matrizes e listas.

• Vetores - variável unidimensional de tamanho fixo. Ao ser criado um vetor é informado

quantos elementos poderá ter, esse valor não poderá ser alterado posteriormente.

• Listas - variável unidimensional de tamanho dinâmico. É possível aumentar ou dimini-

nuir o seu tamanho conforme novos elementos são incluídos ou excluídos.


33

4.2.2 C++

O C++ é uma das linguagens de programação mais utilizadas no mundo, seu uso vai desde a

criação de sistemas operacionais até o desenvolvimento de programas para serem utilizados em

redes de computadores e aplicações cliente/servidor. Foi criada no ínicio da década de 1980 por

Bjarne Stroustrup e uma das suas principais características é a programação orientada a objetos

(DEITEL; DEITEL, 1999).

A linguagem R possui limitação na velocidade de execução de laços de repetição, para

resolver esse problema foi utilizada a linguagem de programação C++, que faz parte de 14.5%

de todo o código, e é responsável por executar alguns laços de repetição com maior velocidade.

4.2.3 CSS

O Casdading Style Sheets (CSS) permite que o programador defina regras de estilos que são

aplicadas aos elementos das páginas HTML. Essas regras podem ser aplicadas a um elemento

único, a um grupo de elementos ou a um tipo específico de elemento. As regras de estilos

permitem alterar a renderização dos elementos como cores, alinhamentos e bordas facilitando a

execução na maioria dos navegadores (GOODMAN, 2002).

O CSS foi utilizado em 0.5% do código e trabalha em conjunto com o Shiny para seleção

de cores e efeitos na barra de carregamento que aparece quando o programa está em execução

no seu modo gráfico.

4.2.4 Equações

Contraste

Aplica o cálculo para contraste no landscape. O valor de contraste altera a quantia de bits

por pixel.

contraste = 0.1−
(

0.1
( x

100

))
(4.1)

Para um valor de entrada, na formula sendo representado pela variável x, de “1” no contraste

é aplicado o resultado do cálculo de 0.099 na geração da imagem, enquanto um valor de entrada

de contraste de “100” aplica o resultado de 0.001 na geração da imagem.

O valor de contraste está relacionado ao tamanho da visualização de cada vertice na geração


34

do landscape. Um valor alto para esse parâmetro irá aumentar o raio para cada vértice, enquanto

que um valor menor irá diminuir o raio para cada vértice.

Resolução

Altera a dimensão do landscape. Está relacionado ao tamanho da matriz para criação da

imagem. Cada célula da matriz é transformada em um pixel para a geração do landscape.

resolução = inteiro
(( y

100

)
210+30

)
(4.2)

A equação retorna o valor inteiro do cálculo. Um valor de entrada, na formula sendo re-

presentado pela variável y, igual a “1” gera uma matriz de 32x32, da mesma forma um valor de

entrada igual a “100” gera uma matriz de 240x240. Esses valores são respectivamente o menor

e maior valor possível para a resolução no levi.

Uma resolução maior fará com que o landscape possua uma maior quantidade de pixels,

com isso melhora a visualização do resultado gerado, contudo, quanto maior a resolução, pro-

porcionalmente, também é maior o tempo de processamento.

Zoom

Aumenta ou díminui a escala de visualização da rede do landscape. O algoritmo utilizado

para gerar a imagem sempre cria o landscape de forma centralizada a partir da celula existente

no ponto médio dos eixos x e y da matriz. A variável z representa a entrada do usuário e pode

receber valores entre 0 e 100.

zoom = 0.2
( z

100

)
−0.2 (4.3)

Para o zoom temos como exemplo que o valor de entrada “0” aplica o resultado de -0.2 no

landscape. O valor de entrada igual a “100” aplica o resultado de 0 no landscape.

Suavização

Aplica o cálculo de suavização na imagem gerada do landscape.

suavização = inteiro
( w

100

)
18 (4.4)

Se a suavização, na formula sendo representado pela variável w, for menor ou igual a zero

ela recebe 1. Com isso o menor e maior valor resultantes do cálculo são respectivamente 1 e 18.


35

O parâmetro de suavização altera os valores do vértice virtual no ponto médio entre a co-

nexão de dois vértices reais. O que temos na prática é que se o valor de suavização for baixo o

landscape gerado possuirá, na sua visualização, pixels com intensidades de expressão diferen-

tes, se a rede for grande, esse tipo de visualização pode dificultar a leitura de áreas de expressão.

A figura 4.2 exemplifica o workflow para geração do landscape pelo levi. (A) temos uma

rede hipotética criada utilizando o Medusa na sua versão 3.0 essa rede é utilizada como entrada

para o levi. (B) ao executar o levi são verificados os valores para os parâmetros de contraste,

resolução, zoom e suavização e realizado os cálculos para cada uma dessas configurações. (C) a

primeira etapa para geração do landscape é a criação do contorno utilizando os dados dos nodos

e interações, em conjunto com os parâmetros definidos pelo usuário. O tamanho da matriz é

definido pelo valor de resolução. Os valores de constraste e zoom definem se as celulas da

matriz recebem o valor 0 ou 10. Celulas com valor 10 são usadas para definir o contorno do

landscape. (D) em seguida são aplicados os valores de expressão e suavização substituindo os

valores das celulas que estavam com valor 10. (E) por fim, o landscape é gerado.


36

Cria o contorno calculando o ponto médio 
entre os nodos e utilizando os 

parâmetros: resolução, contraste e zoom.

Aplica os valores de expressão e a suavização,
substituindo os valores de contorno existentes.

Rede criada no Medusa Versão 3.0.

Resolução

R
e
so

lu
çã

o

Resolução

R
e
so

lu
çã

o

Resolução

R
e
so

lu
çã

o

Equações

A

B

C

D

E

levi

Figura 4.2: Workflow demonstrando as etapas de geração do landscape pelo levi utilizando o
padrão (= 50) para os valores de resolução, contraste, suavização e zoom.


37

4.3 transcriptograma

O transcriptograma é um programa desenvolvido para o ambiente de programação R que

utiliza como entrada uma rede e realiza análises utilizando o método de Monte Carlo para

identificação de clusters 1. Ele executa três funções principais: ordenamento, modularidade e

análise da expressão gênica.

O transcriptograma salva no computador onde foi executado os resultados dos seus proces-

sos em arquivos no formato de texto. Nesse trabalho modificamos o transcriptograma para que

todos os resultados entre as etapas de processamento sejam salvas em um objeto do R visando

atender as exigências para ser aceito no Bioconductor e principalmente filtrar seu resultado em

variáveis para facilitar a leitura do dashboard criado em Shiny para visualização dos resultados

de forma interativa. Salvar os resultados das etapas em uma objeto do R facilita a manipulação

para geração de novas análises, visualizações ou integração com outros pacotes do R.

Com os genes ordenados pelo transcriptograma é possível utilizar a ferramenta levi para a

geração panorâmica da rede facilitando a visualização das regiões de interesse.

4.4 Método de ordenamento de redes em uma dimensão

Partindo de uma rede de interações proteína-proteína, não direcionadas, sem pesos nas

interações, podemos transformá-la numa matriz de adjacência da seguinte maneira. Seja G uma

rede com N vértices (proteínas) e E arestas (interações), podemos rotular de maneira arbitrária

os vértices com números inteiros no intervalo [1,N], onde a matriz de adjacência A tem N

colunas e N linhas, de tal maneira que cada elemento ai,j pode ter valor lógico FALSO ou

VERDADEIRO. Atribuimos valor VERDADEIRO para o caso dos vértices i e j interagirem

entre si, caso contrário o valor será FALSO (figura 4.3).

1cluster é um neologismo, ele tem sentido de aglomeração, agrupamento.


38

A

B

C

H

I

J

G

D E

F

B

A C

D

0 1 2 3 4 5 6 7 8 9

0
1
2
3
4
5
6
7
8
9

Figura 4.3: Transformação da rede em matriz de adjacência. (A) Rede hipótetica de 10 vértices
e 20 arestas. (B) A rede convertida em forma de lista. (C) Transformação da rede em formato
de lista para o formato númerico para ser convertida em matriz. D Rede no formato de matriz
de adjacência, onde V significa que existe interação entre os elementos e F significa que não
existe interação entre os elementos.

A ordem de numeração dos vértices segue de forma crescente para cada novo vértice iden-

tificado, porém, essa ordem pode ser alterada por meio de permutações de linhas e colunas.

Para cada alteração, uma nova matriz de adjacência é criada, sendo assim, o número possível

de matrizes de adjacência criadas é N! (fatorial de N). Por exemplo, uma rede com 20 vértices

terá 20! (2.43× 1018) matrizes de adjacência para a mesma rede. Neste exemplo, sabemos

que todas as matrizes representam a rede, algumas dessas matrizes podem evidenciar possíveis

agrupamentos de vértices que podem ser relevantes.

Uma maneira de encontrar as matrizes que possam ser relevantes é arranjar os vértices apro-

ximando os elementos VERDADEIROS da diagonal da matriz e afastar os elementos FALSOS,


39

como apresentado na figura 4.4.

0 1 2 3 5 4 6 7 8 9

0
1
2
3
5
4
6
7
8
9

0 1 2 3 4 5 6 7 8 9

0
1
2
3
4
5
6
7
8
9

Figura 4.4: (A) Matriz de adjacência com 10 vértices numerados de 0 até 9. (B) Trata-se da
mesma matriz apresentada em (A), porém foram realizadas duas trocas de linhas e colunas da
mesma (coluna 4 foi trocada pela coluna 5, o mesmo foi realizado para as linhas).

A matriz B apresenta mais elementos próximos da diagonal do que a matriz A, logo a matriz

B é o resultado desejado. Para alcançar este objetivo são necessárias duas condições:

• Condição 1: A melhor distribuição a ser atingida é aquela onde teremos menos inter-

faces VERDADEIRO/FALSO, ou seja, o melhor resultado é ter um grande número de

elementos VERDADEIRO próximos (figura 4.5).

• Condição 2: A distância dos elementos VERDADEIROS em relação à diagonal da ma-

triz de adjacência é um importante fator de aproximação dos elementos. Quanto mais

elementos próximos da diagonal, menos elementos estarão presentes nas extremidades da

matriz, assim facilitando a visualização de agrupamentos (figura 4.6).


40

Distribuição 1 Distribuição 2 Distribuição 3

Distribuição 4 Distribuição 5 Distribuição 6

Figura 4.5: Proximidade dos vizinhos em relação ao elemento central na matriz de adjacência.
A figura mostra seis possibilidades de vizinhos do elemento central. A melhor distribuição é
aquela que apresenta maior número de VERDADEIROS em torno do elemento central, no caso
a distribuição nº 6 é a melhor distribuição dentre todas as possibilidades.

4.4.1 Modelo Cruz

No artigo de Rybarczyk-Filho e colaboradores (RYBARCZYK-FILHO et al., 2011) foi

apresentado um modelo que atende a condição 1 e 2 da seção 4.4. O modelo avalia os vizinhos

acima, abaixo, à esquerda e à direita de um elemento VERDADEIRO na matriz de adjacência

(figura 4.7) multiplica pela distância euclidiana do elemento em relação a diagonal da matriz de

adjacência (Equação 4.5).

ε =
V

∑
j=1

V

∑
i=1

di, j{|ai, j−ai+1, j|+ |ai, j−ai−1, j|+ |ai, j−ai, j+1|+ |ai, j−ai, j−1|} (4.5)

Este cálculo é realizado para todos os elementos VERDADEIROS da matriz e somam-se

seus resultados. O resultado final é chamado de “custo energético” (ε) da matriz de adjacência.

Aplica-se o método de Monte Carlo para minimizar o ε da matriz.


41

0 1 2 3 4 5 6 7 8 9

0
1
2
3
4
5
6
7
8
9

Figura 4.6: Representação de quatro possíveis distâncias do elemento central em relação a
diagonal principal de uma matriz de adjacência. A diagonal principal é representada pela linha
vermelha na matriz. A distância até o elemento A é a distância menos favorável, pois o elemento
central está muito afastado em relação a diagonal. A até o elemento D pode ser considerada a
distância mais favorável em relação elemento central e diagonal. O caso ideal é que a distância
entre o elemento central e a diagonal seja o menor possível.

A metodologia se baseia na aleatorização dos vértices da matriz A. Realizam-se permuta-

ções de linhas e as respectivas colunas, ou seja, nenhuma interação é perdida ou criada durante

o processo, a cada permutação é calculada a função “custo energético” (ε). Comparam-se os

valores de εi antes e depois da permutação ε f . Verifica-se ε f < εi, caso seja, a nova distribuição

da matriz de adjacência é aceita e realiza-se novas permutações. Caso ε f > εi, a distribuição

poderá ser aceita com uma probabilidade de exp− (ε f−εi)
T , onde T é um parâmetro análogo a

temperatura no Método de Monte Carlo. Caso ε f não seja aceito, então a matriz de adjacência

retorna para o estado de εi.

Para a simulação, T inicia com um valor T0 que é um valor igual ao “custo energético”

inicial da matriz de adjacência ε0. Esse valor de T é diminuído gradativamente ao longo da


42

0 1 2 3 4 5 6 7 8 9

0
1
2
3
4
5
6
7
8
9

Figura 4.7: Avaliação da vizinhança do elemento central no modelo “cruz”, onde o elemento
central é representado pelo simbolo de confirmação verde e branco e os vizinhos avaliados são
representados por quadrados amarelos com setas nas direções que são avaliados os elementos
em seu entorno (conforme equação 4.5).

simulação, espera-se um tempo suficiente para que o sistema atinja o equilíbrio termodinâmico

para a temperatura em questão. A temperatura é reajustada por meio de uma razão de arrefei-

cimento µ , tal que T ∗ = µT , sendo 0 < µ < 1, onde T ∗ é a nova temperatura. Este processo

é repetido até a temperatura seja próxima de zero. Esta técnica é conhecida como simulated

annealing, muito empregada em simulações para minimização de energia (figura 4.8).


43

Figura 4.8: Gráfico de nível de custo energético por configurações possíveis de uma matriz de
adjacência. Este gráfico representa a aplicação do simulated annealing em uma matriz hipoté-
tica para todas as suas possíveisinon configurações. O objetivo da técnica é atingir o Minímo
Absoluto passando pelos Máximos Locais sem que a simulação termine em algum Minímo
Local.

4.4.2 Modelo X

Este modelo foi proposto por Molan-Rybarczyk-Filho (MOLAN; RYBARCZYK-FILHO,

2014) a partir de uma alteração na equação do modelo cruz para o cálculo de proximidade dos

elementos vizinhos em relação ao elemento central (equação 4.6). O Modelo X consiste numa

avaliação de vizinhos às diagonais do elemento central: superior direito, superior esquerdo,

inferior direito e inferior esquerdo (figura 4.9).

ε =
V

∑
j=1

V

∑
i=1

di, j{|ai, j−ai−1, j+1|+ |ai, j−ai−1, j−1|+ |ai, j−ai+1, j+1|+ |ai, j−ai+1, j−1|} (4.6)


44

0 1 2 3 4 5 6 7 8 9

0
1
2
3
4
5
6
7
8
9

Figura 4.9: Avaliação da vizinhança do elemento central no modelo “X”, onde o elemento
central é representado pelo simbolo de confirmação verde e branco e os vizinhos avaliados são
representados por quadrados amarelos com setas nas direções que são avaliados os elementos
em seu entorno (conforme equação 4.6).

4.4.3 Modelo Anel

Este modelo foi proposto por Molan-Rybarczyk-Filho (MOLAN; RYBARCZYK-FILHO,

2014) a partir da união dos modelos cruz e X para o cálculo de proximidade dos elementos

vizinhos em relação ao elemento central (equação 4.7). O Modelo Anel consiste numa avaliação

de todos os vizinhos do elemento central (figura 4.10).

ε =
V

∑
j=1

V

∑
i=1

di, j{|ai, j−ai−1, j−1|+ |ai, j−ai−1, j|+ |ai, j−ai−1, j+1|+ |ai, j−ai, j+1|

+|ai, j−ai+1, j+1|+ |ai, j−ai+1, j|+ |ai, j−ai+1, j−1|+ |ai, j−ai, j−1|}

(4.7)


45

0 1 2 3 4 5 6 7 8 9

0
1
2
3
4
5
6
7
8
9

Figura 4.10: Avaliação da vizinhança do elemento central no modelo “Anel”, onde o elemento
central é representado pelo simbolo de confirmação verde e branco e os vizinhos avaliados são
representados por quadrados amarelos com setas nas direções que são avaliados os elementos
em seu entorno (conforme equação 4.7).

4.5 Modularidade

A definição de um módulo funcional é um conjunto de elementos (proteínas, genes, etc)

que interagem entre si de alguma forma (FRASER, 2005; VINOGRADOV, 2008) e realizam

alguma função específica, como, por exemplo, o ciclo do ácido tricarboxílico ou ciclo de Krebs,

que possui uma série reações catabólicas e anabólicas com a função de oxidar a acetil-CoA

(NELSON; COX, 2004). Para o cálculo da modularidade, não consideramos as classificações

de natureza biológica (ontologias, rotas metabólicas, etc) para evidenciar os módulos. Basica-

mente, os módulos são o resultado do rearranjo da matriz de adjacência.

Para a visualização dos módulos de uma maneira mais simples, utiliza-se uma função que

mensura o número de interações entre os vértices contidos em uma janela de largura w dividido

pela quantidade de conexões que cada vértice possui dentro e fora da janela w e atribui-se o valor

para o vértice central da janela. A janela percorre todos os vértices da rede com condições de


46

contorno periódica. A figura 4.11 apresenta um exemplo do cálculo da modularidade para uma

rede com dez vértices previamente ordenado pelo método (CFM), onde aplica-se uma janela de

largura igual a três (w = 3).

Figura 4.11: A figura apresenta 10 janelas para calcular a modularidade de uma rede com
10 vértices. Para calcular a modularidade utiliza-se uma função que mensura o número de
interações entre os vértices contidos em uma janela de largura w dividido pela quantidade de
conexões que cada vértice possui dentro e fora da janela w e atribui-se o valor para o vértice
central da janela. A janela percorre toda a rede com condições de contorno periódicas. Fonte:
(BIAZOTTI, 2016)

A figura 4.12 mostra a formação dos agrupamentos dos vértices baseada no cálculo de mo-

dularidade. Vemos dois grandes agrupamentos, um aproximadamente 0.33 de modularidade e

outro com no máximo 0.40 de modularidade. Entre estes grupos o nível máximo de modulari-

dade é aproximadamente 0.1. Podemos interpretrar da seguinte maneira: No agrupamento com

modularidade 0.4, os vértices dentro da janela compartilham no máximo 40% de suas intera-

ções dentro da janela e os mesmos vértices têm 60% de suas interações fora com vértices fora

da janela. O ideal seria atingir o valor 1.0, que significa que todos os vértices dentro da janela

compartilham entre si todas as suas interações.


47

Figura 4.12: A figura mostra os agrupamentos formados pela modularidade de janela. Um
primeiro agrupamento possui 0.33 de modularidade e segundo 0.4 de modularidade. Entre os
dois agrupamentos temos uma máximo de 0.1 de modularidade. Isto significa que os vértices
entre estes dois agrupamentos compartilham entre si apenas 10% de suas interações, lembrando
que isto somente é valido para uma janela de largura w = 3. Fonte: (BIAZOTTI, 2016)

4.6 Análise de Expressão Gênica

Os dados de expressão gênica podem ser gerados de tecnologias de RNA-seq ou micro-

arranjo. Após a aquisição deve-se normalizar os dados, permitindo que seja possível realizar

comparações entre os resultados. Com os dados normalizados, é aplicado um filtro que remove

as sondas que não estão presentes na rede proteíca, caso haja referência a mais de uma sonda é

aplicado um cálculo de média para a expressão das sondas. A aplicação de suavização é similar

a utilizada na etapa de modularidade, distinguindo somente de não utilizar a razão no cálculo

e sim a média entre os valores das expressões das sondas. A última etapa desse processo é o

cálculo do p-valor que utiliza uma função beta incompleta (equação 4.8) verificando a proba-

bilidade de ocorrência em um intervalo finito. Para o cálculo do p-valor utiliza-se os dados dos


48

módulos de expressão antes da suavização retornando assim o p-valor para cada sonda.

Bx(a,b) =
∫ x

0
ta−1(1− t)b−1dt (4.8)

4.7 Enriquecimento Funcional

Após a aplicação da modularidade e separação dos agrupamentos, é necessário verificar

a significância biológica de cada módulo. Para isto podemos utilizar bancos de dados como

o Gene Ontology (GO) (ASHBURNER et al., 2000), Kyoto Encyclopedia of Genes and Ge-

nomes (KEGG) (KANEHISA et al., 2012), Reactome (FABREGAT et al., 2018), entre outros.

Sabemos que cada agrupamento é formato por uma coleção de vértices, os quais podem ser pro-

teínas. Podemos utilizar ferramentas de enriquecimento funcional da plataforma Bioconductor

(HUBER et al., 2015) e analisar cada agrupamento separadamente para encontrar os possíveis

processos biológicos. Além dos processos biológicos essas ferramentas permitem a obtenção

dos componentes celulares e funções moleculares.

4.8 Desenvolvimento da ferramenta dashboard

A ferramenta de dashboard visa agrupar as ferramentas do transcriptograma e do levi per-

mitindo uma utilização mais intuitiva pelo usuário final.

Seu desenvolvimento foi realizado utilizando principalmente a linguagem de programação

R. Outras linguagens como C e C++ foram utilizadas em algumas funções por realizarem mais

rapidamente alguns processos que são custosos computacionamente para a linguagem R, assim

otimizando a velocidade de execução das tarefas. Como, por exemplo, utilizamos a linguagem

C++ em algumas funções que buscam percorrer todas as celulas da matriz utilizando um laço

de repetição.

Para facilitar o acesso a comunidade científica a ferramenta será disponibilizada no reposi-

tório do Bioconductor.

4.8.1 Método transcriptograma

O transcriptograma (RYBARCZYK-FILHO et al., 2011) é um pacote desenvolvido para o

ambiente R. Esse pacote consegue analisar uma quantidade massiva de dados (Big Data). Fo-

ram realizadas alterações no código original do método para que os cálculos intermediários não


49

salvem informações temporárias necessárias para a geração do resultado final em unidades de

armazenamento. Os modulos utilizados no presente trabalho são ordenamento e modularidade.

Com isso as etapas realizadas pelo método são as seguintes:

1. É fornecida pelo usuário uma rede de interação, podendo ser proteína-proteína, regulação,

etc;

2. O pacote do transcriptograma analisa a rede utilizando o método de Monte Carlo para en-

contrar clusters na rede em que foi fornecida pelo usuário;

3. Por fim, a ferramenta apresenta todos os clusters em um gráfico interativo que permite a

seleção das proteínas para geração de sub-redes e apresenta métricas para análise de redes com-

plexas.


50

5 Resultados e Discussão

5.1 levi

O levi é um pacote de código aberto, desenvolvido para o ambiente R com o propósito de

visualização concomitante da projeção de expressão gênica utilizando métricas de centralida-

des sobre uma rede biológica. A criação do levi foi concebida utilizando como base dois outros

softwares. O primeiro é o ViaComplex, um software que utilizada o compilador FORTRAN

para criar gráficos de expressão gênica de redes (CASTRO et al., 2009) . O segundo é o GA-

LANT (GrAph LANscape VisualizaTion), um plugin para o Cytoscape que realiza as mesmas

funções do ViaComplex mas com a facilidade de integração com as ferramentas já existentes

do Cytoscape (CAMILO et al., 2013).

5.1.1 Implementação

Para a utilização do levi é necessário um arquivo contendo dados de expressão dos genes

de interesse. Esses arquivos podem ser obtidos de bases de dados online (Gene Expression

Omnibus (GEO), ArrayExpress, The Cancer Genome Atlas (TCGA), etc). A seleção dos genes

e sua respectiva normalização dos dados de expressão devem ser realizadas pelo usuário.

O arquivo de expressão deve possuir uma coluna com dados do Gene Symbol, contendo

a nomenclatura dos genes e pelo menos uma coluna com os valores de expressão. Também é

possível realizar a comparação entre duas colunas de valores de expressão (Teste/Controle). Os

dados dentro desse arquivo não podem estar entre aspas simples ou duplas.

Caso o arquivo de expressão não possua valores para todos os genes da rede, uma men-

sagem será exibida mostrando o caminho para um arquivo de log em um diretório temporário

com os nomes dos genes. Na geração do landscape os genes sem valor de expressão serão exi-

bidos com valores próximos a 0.5 demonstrando que não houveram alterações (subexpressos

ou superexpressos).


51

Dados de rede podem ser obtidos de repositórios online (starBase, miRBase, lncRNAdb,

HTRIdb, STRING, STITCH, etc). Também podem ser gerados utilizando programas específi-

cos (Cytoscape, RedeR, Medusa, etc). O levi reconhece arquivos de rede nos formatos Medusa

(DAT), RedeR (DYN), Pajek (NET) e do STRING / STITCH. Os gráficos gerados podem ser

salvos nos formatos TIFF, BMP, JPEG e PNG.

O levi foi projetado levando em consideração usuários com diferentes níveis de conhe-

cimento em informática e programação e, visando atender necessidades distintas. Por conta

disso, possui dois modos de visualização: Interface de usuário (GUI) e script. O modo GUI

foi implementado utilizando o pacote Shiny com o intuíto de facilitar a criação de páginas web

interativas e se destina principalmente a usuários com qualquer nível de conhecimento em in-

formática. O modo script utiliza linhas de comando e permite a execução em lote para a criação

de gráficos com diferentes comparações entre valores de expressão. Por utilizar o console do

R, é voltado para usuários com maior experiência em programação. A versão script, por não

executar o ambiente gráfico, realiza o processo de geração do gráfico um pouco mais rápido do

que a versão GUI. Ambos os modos de visualização permitem alterar parâmetros relacionados

ao zoom, dimensão, suavização e contraste. Os dois modos também permitem a utilização de

escala logaritmica que, mantendo as proporções, melhora a visualizão das expressões nas àreas

da rede. Utilizando o modo de visualização GUI é possível escolher entre seis conjuntos de

cores para a criação do gráfico.

5.1.2 Instalação

O pacote levi está disponível no Bioconductor atráves desse link. Após a instalação ele

pode ser carregado utilizando o modo script ou a interface gráfica do usuário, esse último modo

permite a visualização de duas formas diferentes: no navegador padrão ou com a própria engine

do R. Abaixo temos as linhas de código para o carregamento e execução dos diferente modos

do pacote levi após instalação do arquivo binário.

1 # I n s t a l a ç ã o do l e v i u t i l i z a n d o o r e p o s i t ó r i o do B i o c o n d u c t o r

2 i f ( ! r e q u i r e ( " BiocManager " , q u i e t l y = TRUE) )

3 i n s t a l l . p a c k a g e s ( " BiocManager " )

4

5 BiocManager : : i n s t a l l ( " l e v i " )

6

7 l i b r a r y ( l e v i )

8 # Execu ta o l e v i no navegado r pa d r a o .

https://www.bioconductor.org/packages/release/bioc/html/levi.html


52

9 l e v i _ u i (TRUE)

10

11 # Execu ta o l e v i no R .

12 l e v i _ u i (FALSE)

13

14 # Execu ta o l e v i em modo s c r i p t s e l e c i o n a n d o os p a r a m e t r o s por

l i n h a de comando .

15 l e v i ( e x p r e s s i o n I n p u t , f i l e T y p e I n p u t , ne tworkNodes Inpu t ,

ne tworkEdges Inpu t , geneSymbolnput , readExpColumn ,

c o n t r a s t V a l u e I n p u t , zoomValueInput , r e s o l u t i o n V a l u e I n p u t ,

s m o o t h V a l u e I n p u t )

5.1.3 Carregando os arquivos

O levi reconhece arquivos de rede nos formatos Medusa (DAT), RedeR (DYN), Pajek

(NET) e do STRING / STITCH. O arquivo de expressão gênica deve possuir uma coluna com

dados do Gene Symbol, contendo a nomenclatura dos genes e pelo menos uma coluna com os

valores de expressão. Também é possível realizar a comparação entre duas colunas de valores

de expressão (Teste/Controle).

A rede (nodos e interações) foi criada utilizando como base os componentes biomoleculares

da via de sinalização ErbB (hsa04012) obtidos no repositório online KEGG PATHWAY que

foram exportados para o STRING.

Para a representação gráfica da rede gerada, importamos os dados do STRING para o Me-

dusa 1.5 (figura 5.1).

5.1.4 Execução do levi

Para a primeira análise realizamos duas comparações. A primeira foi com dados de expres-

são gênica de pessoas que não possuem adenocarcinoma mas que são fumantes em relação à

pessoas que nunca fumaram e não possuem adenocarcinoma. A segunda comparação é entre

pessoas que fumam e não possuem adenocarcinoma em relação à pessoas que nunca fumaram

e não possuem adenocarcinoma. Para a execução do levi e geração do resultado com as compa-

rações utilizadas nesse estudo de caso, o usuário deve digitar os seguintes comandos no console

do R:


53

CAMK2G

CAMK2DCAMK2B

ELK1
ARAF

CAMK2A

AREG

STAT5B
JUN

BRAF PRKCB

STAT5A