UNIVERSIDADE ESTADUAL PAULISTA “Júlio de Mesquita Filho” INSTITUTO DE QUÍMICA DE ARARAQUARA Programa de Pós-Graduação em Biotecnologia MARIANA MARCHI SANTONI BIASIOLI Perfil transcricional comparativo de folha e raiz de Monteverdia ilicifolia para a biossíntese de terpenos Araraquara Dez/2022 MARIANA MARCHI SANTONI BIASIOLI Perfil transcricional comparativo de folha e raiz de Monteverdia ilicifolia para a biossíntese de terpenos Tese apresentada ao Instituto de Química da Universidade Estadual Paulista, como parte dos requisitos para obtenção do título de Doutora em Biotecnologia. Orientadora: Prof°. Dr° Cleslei Fernando Zanelli Co-orientadora: Profª. Drª. Maysa Furlan B579p Biasioli, Mariana Marchi Santoni Perfil transcricional comparativo de folha e raiz de Monteverdia ilicifolia para a biossíntese de terpenos / Mariana Marchi Santoni Biasioli. -- Araraquara, 2022 72 f. : il., tabs. Tese (doutorado) - Universidade Estadual Paulista (Unesp), Instituto de Química, Araraquara Orientador: Cleslei Fernando Zanelli Coorientadora: Maysa Furlan 1. Sequenciamento de nucleotídeo. 2. Metabólitos. 3. Maytenus. 4. Biossíntese. 5. Transcrição gênica. I. Título. Sistema de geração automática de fichas catalográficas da Unesp. Biblioteca do Instituto de Química, Araraquara. Dados fornecidos pelo autor(a). Essa ficha não pode ser modificada. UNIVERSIDADE ESTADUAL PAULISTA Câmpus de Araraquara CERTIFICADO DE APROVAÇÃO TÍTULO DA TESE: "Biossíntese de metabólitos secundários de Monteverdea ilicifolia por meio de perfil transcricional órgão-comparativo" AUTORA: MARIANA MARCHI SANTONI BIASIOLI ORIENTADOR: CLESLEI FERNANDO ZANELLI COORIENTADORA: MAYSA FURLAN Aprovada como parte das exigências para obtenção do Título de Doutora em Biotecnologia, pela Comissão Examinadora: Profa. Dra. CINTIA DUARTE DE FREITAS MILAGRE (Participaçao Virtual) Departamento de Bioquimica e Quimica Organica / Instituto de Quimica - UNESP - Araraquara Prof. Dr DANILO TRABUCO DO AMARAL (Participaçao Virtual) Universidade Federal do ABC - UFABC - Santo André Prof. Dr. CAIO CESAR DE MELO FREIRE (Participaçao Virtual) Departamento de Genética e Evolução / Universidade Federal de São Carlos - UFSCar - São Carlos Drª. TATIANA MARIA DE SOUZA MOREIRA (Participaçao Virtual) Departamento de Ciências Biológicas / Faculdade de Ciências Farmacêuticas - UNESP - Araraquara Dra. BIANCA BACCILI ZANOTTO VIGNA (Participaçao Virtual) Embrapa Pecuária Sudeste - EMBRAPA - São Carlos Araraquara, 20 de dezembro de 2022 Instituto de Química - Câmpus de Araraquara - Rua Prof. Francisco Degni, 55, 14800060, Araraquara - São Paulo http://www.iq.unesp.br/#!/pos-graduacao/biotecnologia/CNPJ: 48.031.918/0027-63. Dados Curriculares Endereço Profissional Laboratório de Biologia Molecular de Microrganismos, Departamento de Ciências Biológicas da FCF-UNESP. Rodovia Araraquara-Jaú, Km 01, Campus Ville, S/N, Araraquara SP. CEP: 14800-903 e-mail: mariana.santoni@unesp.br Formação Acadêmica: 2002 – 2006: Graduação Licenciatura e Bacharel em Ciências Biológicas. Universidade Federal de São Carlos – SP. 2006 – 2008: Mestrado Genética e evolução. Universidade Federal de São Carlos – SP Dissertação: Biologia de nidificação e estrutura sociogenética intranidal em espécies de Trypoxylon (Hymenoptera:Crabronidae) 2019 – 2022: Doutorado Biotecnologia. Área de concentração: Bioinformática. Instituto de Química (IQ) - Universidade Estadual Paulista “Júlio de Mesquita Tese: Biossíntese de metabólitos secundários de Monteverdia ilicifolia por meio de perfil transcricional órgão-comparativo Produção Bibliográfica (trabalhos relacionados à presente tese): Bicalho, Keylla U ; Santoni, Mariana M ; Arendt, Philipp ; Zanelli, Cleslei F; Furlan, Maysa ; Goossens, Alain ; Pollier, Jacob . CYP712K4 Catalyzes the C-29 Oxidation of Friedelin in the Maytenus ilicifolia Quinone Methide Triterpenoid Biosynthesis Pathway. Plant and Cell Physiology, v. 60, p. 2510-2522, 2019. Santoni, Mariana Marchi; Lima, João Vitor Félix de; Bicalho, Keylla Utherdyany; Moreira, Tatiana Maria de Souza Moreira; Valentini, Sandro Roberto; Zanelli, Cleslei Fernando. Comparative Transcriptome Profiling of Maytenus ilicifolia Root and Leaf. Lecture Notes in Computer Science, 2021, v. 13063, p. 3-14 Participação em eventos (durante o período de doutoramento): I Escola Latino-Americana de bioinformática para as ciências “ômicas”, LNCC, 2019. Brazilian Symposium on Bioinformatics, 2021. mailto:mariana.santoni@unesp.br Dedicatória Dedico esse trabalho aos que me mostram as várias formas de viver, que me levam para outros lugares (físicos ou imagináveis) e me tiram do meu lugar comum, José Eduardo e Vitor. Sabemos agora que muito do rico repertório comportamental de uma planta é difícil de observar porque é reproduzido numa arena química. As plantas superam as limitações da imobilidade aproveitando as suas proezas em sintetizar compostos orgânicos (Baldwin, 2015) Agradecimentos Ao meu orientador, Cleslei, e à minha co-orientadora, Maysa, pela oportunidade de realização desse trabalho e por dedicarem parte de seu tempo para a minha formação. Aos meus familiares, pelo imenso apoio e ajuda. Aos colegas e responsáveis do laboratório de Biologia Molecular e Celular de Microrganismos. Aos funcionários e professores da faculdade de ciências farmacêuticas e do instituto de química da Unesp de Araraquara, que direta e indiretamente possibilitam a estrutura da pós-graduação. Aos colaboradores dos trabalhos publicados. Aos demais amigos e colegas que encontrei nessa trajetória. Às agências de fomento, FAPESP, CAPES, INCT e PADC. Resumo As plantas produzem uma grande diversidade de compostos denominados metabólitos secundários (MS), importantes para a sua sobrevivência. Evolutivamente, originam-se como resposta ecológica a competição, defesa ou sinalização e sua biossíntese é um processo altamente regulado por enzimas específicas. Devido ao seu amplo espectro de bioatividades, os MS apresentam aplicações medicinais, mas, como a síntese química não é economicamente viável, a extração das plantas é única opção. Diferentes estratégias biotecnológicas são aplicadas para melhorar o rendimento da bioprodução desses compostos, no entanto, este processo limitado é pelo pouco conhecimento sobre vias biossintéticas e regulatórias. A espécie Maytenus ilicifolia, atualmente, Monteverdia ilicifolia, uma planta medicinal tradicional, é brasileira e pertence à família Celastraceae. Conhecida como "espinheira santa", apresenta três classes principais de MS: sesquiterpênicos, flavonóides e quinonametídeos, que são produzindo tanto em folhas como raízes. O objetivo deste trabalho foi identificar os genes responsáveis pela biossíntese dos MS de M. ilicifolia e fatores de regulação destas rotas, pelo sequenciamento de novo do transcriptoma desta espécie. Quatro bibliotecas de cDNA foram preparadas a partir de folhas e raízes. O transcriptoma de novo incluiu 109.982 sequências que capturou 92% dos ortólogos da base “BUSCO”. Os transcritos apresentaram um comprimento médio de 737pb e um conteúdo GC de aproximadamente 42%. As análises de anotação funcional identificaram homologia para 44,8% dos transcritos. Em termos de expressão comparativa, 67.625 sequencias foram expressas em ambos os órgãos, mas 1.044 e 1.717 sequências foram diferencialmente expressas na raiz e na folha, respectivamente. Quanto aos MS, genes codificadores para enzimas envolvidas na biossíntese de monoterpenos, isoflavonoides foram identificadas nas raízes e para as folhas, biossíntese de flavanoides e biossíntese de alcaloides. Em termos de regulação das vias, 191 transcritos foram anotados como fatores de transcrição, sendo 12 diferencialmente nas folhas e três nas raízes. Foram identificadas enzimas envolvidas na biossíntese de terpenos, incluindo as vias do mevalonato (8) e do metileritritol-fosfato (9). Adicionalmente, 126 transcritos foram atribuídos como codificadores para enzimas CYP450. Por fim, a escolha da raiz e da folha para a análise comparativa do transcriptoma facilitou a identificação dos genes envolvidos na biossíntese de MS, uma abordagem amplamente utilizada em plantas. Palavras-chave: RNA-Seq, metabólitos secundários, Maytenus sp, transcritos Abstract Plants produce a wide variety of compounds called secondary metabolites (SMs), which are extremely important for their survival. SMs have also medicinal applications, but as chemical synthesis is not economically viable, plant extraction is the mainly option. Different biotechnology strategies are applied to improve the yield of bioproduction of these compounds, but commonly without the desired results due the limited knowledge of biosynthetic and regulatory pathways. Maytenus ilicifolia, a traditional Brazilian medicinal plant from Celastraceae family, produces in both root and leaves three main classes of SMs: sesquiterpenics, flavonoids and quinonemethides. In this study, four cDNA libraries were prepared from root and leaf tissues. The de novo transcriptome included 109,982 sequences that capture 92% of BUSCO orthologs, presented an average length of 737bp and a GC content about 42% of. Function annotation analysis identified homology for 44.8% of the transcripts. Moreover, 67,625 sequences were commonly expressed in both tissues, while 1,044 and 1,171 were differentially expressed in root and leaf, respectively. In terms of SM, enzymes involved in “monoterpenoid biosynthesis” and “isoflavonoid biosynthesis" were identified in root while “flavonoid biosynthesis” and “Biosynthesis of alkaloids” in leaf. In terms of pathway regulation, 191 transcripts were annotated as transcription factors, with 12 differentially in leaves and three in roots. Enzymes involved in terpene biosynthesis were identified, including the mevalonate (8) and methylerythritol-phosphate (9) pathways. Additionally, 126 transcripts were assigned as coding for CYP450 enzymes. Finally, the choice of root and leaf for comparative transcriptome analysis facilitated the identification of genes involved in MS biosynthesis, an approach widely used in plants. Key-words: RNA-Seq, secundary metabolites, Maytenus sp, transcripts Sumário 1. Introdução............................................................................................................ 10 2. Objetivos ............................................................................................................. 13 3. Material e Métodos .............................................................................................. 13 3.1 Aquisição de exemplares e extração de RNA ................................................ 13 3.2 Preparo da biblioteca para sequenciamento de RNA ...................................... 13 3.3 Análise de dados de sequenciamento ............................................................. 14 3.4 Montagem dos transcriptomas ....................................................................... 14 3.5 Avaliação de qualidade da montagem do transcriptoma ................................ 15 3.6 Anotação funcional ....................................................................................... 15 3.7 Análise de diferença de expressão ................................................................. 15 3.8 Enriquecimento ontológico e análise de vias ................................................. 16 3.9 Identificação de potenciais Fatores de Transcrição ........................................ 16 3.10 Perfil dos genes relacionados à biossíntese de terpenos .............................. 16 3.11 Perfil de genes de P450 ............................................................................. 16 4. Resultados e Discussão ........................................................................................ 17 4.1 Sequenciamento dos transcriptomas .............................................................. 17 4.2 Avaliação de qualidade da montagem do transcriptoma ................................ 18 4.3 Anotação funcional ....................................................................................... 20 4.4 Identificação de transcritos diferencialmente expressos ................................. 24 4.5 Identificação de potenciais Fatores de Transcrição ........................................ 28 4.6 Identificação de genes relacionados à biossíntese do esqueleto de terpenoides 29 5 Conclusões .......................................................................................................... 34 6 Material Suplementar ........................................................................................... 35 7 Anexos - Trabalhos completos publicados ou aceitos para publicação .................. 41 7.1 SANTONI, M. M.; DE LIMA, J. V. F.; BICALHO, K. U.; DE SOUZA MOREIRA, T. M.; VALENTINI, S. R.; FURLAN, M.; ZANELLI, C. F. Comparative Transcriptome Profiling of Maytenus ilicifolia Root and Leaf. Lecture Notes in Computer Science [s. l.], p. 3–14, 2021. ...................................................................... 41 7.2 BICALHO, K. U.; SANTONI, M. M.; ARENDT, P.; ZANELLI, C. F.; FURLAN, M.; GOOSSENS, A.; POLLIER, J. CYP712K4 Catalyzes the C-29 Oxidation of Friedelin in the Maytenus ilicifolia Quinone Methide Triterpenoid Biosynthesis Pathway. Plant and Cell Physiology, [s. l.], v. 60, n. 11, p. 2510–2522, 2019. 54 8 Referências Bibliográficas ................................................................................... 68 10 1. Introdução Uma característica de plantas e outros organismos sésseis é a capacidade de biossintetizar uma variedade de compostos de baixo peso molecular, chamados metabólitos secundários (MS) (WINK, 2010a) . Estes compostos são componentes chave para a interação destes organismos com o ambiente e para a adaptação às condições de estresse biótico e abiótico (YANG et al., 2018). Sua biossíntese é um processo altamente regulado, catalisado por enzimas específicas (WINK, 2010a) que foram selecionadas para esta finalidade, sendo derivadas de ancestral comum a outras enzimas do metabolismo primário ou de genes importados pelos cloroplastos e mitocôndrias (WINK, 2010a). Evolutivamente, o metabolismo secundário das plantas pode ser visto como um comportamento para sua adaptação e sobrevivência em resposta aos estímulos ambientais (METLEN; ASCHEHOUG; CALLAWAY, 2009). Origina-se como resposta ecológica da planta frente à competição por recursos como luz, água e nutrientes, defesa contra herbívoros ou agentes infectantes ou até mesmo atuam como compostos antioxidantes, protetores de UV ou de armazenamento de nitrogênio (DZIGGEL; SCHÃFER; WINK, 2017). Algumas plantas fizeram uso de MS para estabelecer relações entre outros organismos (MUSILOVA et al., 2016), como sinais de comunicação entre plantas e microrganismos simbióticos ou na atração polinizadores e dispersores de sementes (WINK, 2010a). Com esta alta variedade de funções biológicas, os compostos secundários apresentam grande diversidade estrutural (DZIGGEL; SCHÃFER; WINK, 2017; YANG et al., 2018), apesar de serem provenientes de vias metabólicas básicas, como a glicólise e o ciclo ácido cítrico, também denominados de blocos construtores (GIWELI et al., 2013). Embora apenas 20-30% das plantas tenham sido investigadas, aponta-se que dezenas de milhares de MS foram isolados, sendo os mais abundantes os alcaloides - grupo estruturalmente amplo, que contém nitrogênio e são derivados de aminoácidos -, seguidos pelos terpenos - derivados de unidades C5 – e pelos fenilpropanoides - sintetizados a partir de aminoácidos aromáticos e unidades de acetil-CoA (DZIGGEL; SCHÃFER; WINK, 2017; YANG et al., 2018). Em relação aos terpenos, as plantas empregam esse metabólito para uma variedade de funções no crescimento e desenvolvimento. Contudo, sua participação é majoritariamente desempenhar interações químicas e proteção em ambientes bióticos e abióticos (SILVA et al., 2020). Já o triterpenos, metabolitos secundários pertencentes a 11 classe dos terpenos e caracterizados quimicamente pela presença de seis unidades de isopreno, com um total de 30 átomos de carbono, têm mostrado um grande espectro de atividades biológicas, ais como: anti-inflamatória, antinociceptiva, hepatoprotetor, efeito sedativo, antioxidante, antialérgico, antiangiogênica, antimicrobiana e alta seletividade anticancerígena (SILVA et al., 2020). Os MS são identificados em todos os órgãos e sua formação e regulação gênica é geralmente órgão, tecido, célula e, também, desenvolvimento específicos. Isso significa que uma bateria de fatores de transcrição precisa cooperar para ativar e transcrever genes do metabolismo secundário, controlando a maquinaria geral das vias biossintéticas na produção, transporte e armazenamento (UPADHYAY et al., 2014; WINK, 2010b). Portanto, a biossíntese de MS exibe uma complexidade notável: as enzimas são específicas para cada via e são altamente reguladas em termos de compartimentação, tempo e espaço (WINK, 2010b). Em relação às enzimas envolvidas no metabolismo secundário, destaca-se a superfamília das enzimas citocromo P450 (CYP). Presentes em todos os táxons e apresentando uma particular diversidade em Viridiplantae, grupo que abrange as algas verdes e as plantas terrestres, as P450 constituem uma superfamília de enzimas que catalisam um expressivo arsenal de reações, que estão envolvidas na formação de esteróis de membrana, fito-hormônios, moléculas de sinalização, biopolímeros estruturais e de proteção e diversos compostos orgânicos voláteis e metabólitos especializados envolvidos em interações bióticas e abióticas (HANSEN et al., 2021). Devido ao amplo espectro de bioatividades, os MS derivados de plantas são diversamente aplicados como compostos farmacêuticos, nutracêuticos ou aromatizantes (DZIGGEL; SCHÃFER; WINK, 2017), porém, em muitos casos, a síntese química não é economicamente viável, sendo o isolamento de plantas ainda a única opção (PAZ et al., 2017). Diferentes estratégias biotecnológicas têm sido aplicadas para melhorar o rendimento da produção desses compostos na planta e nas culturas de células vegetais, mas muitas vezes sem os resultados desejados (WINK, 2010b), pois o conhecimento sobre suas vias biossintéticas e de regulação ainda é limitado (PAZ et al., 2017). A utilização de técnicas biotecnológicas como transcriptomas, proteomas, metabolomas e silenciamento de genes em plantas aumenta a busca por genes e sua função nas vias metabólicas das plantas, facilitando gradativamente a produção de MS. Recentemente, caminhos completos foram elucidados e, em alguns casos, foi possível sintetizar compostos secundários em hospedeiros microbianos recombinantes (bactérias 12 ou leveduras biologicamente modificados), a partir de fontes baratas de carbono (DZIGGEL; SCHÃFER; WINK, 2017). O gênero Monteverdia, com aproximadamente 300 espécies, é amplamente distribuído nos trópicos e subtrópicos. Aproximadamente 50 espécies crescem em diferentes regiões do Brasil, incluindo Amazônia, Mata Atlântica, Caatinga e Cerrado (GROPPO et al., 2014). A espécie M. ilicifolia (Mart. ex Reissek) Biral é uma planta brasileira da família Celastraceae e seu uso como planta medicinal tradicional está descrito desde 1922, focada no tratamento da úlcera gástrica (CARLINI, 1988) mas suas propriedades terapêuticas são atualmente amplas, sendo também empregada em tratamentos de diabetes, infecções do trato urinário, problemas intestinais, doenças nervosas, doenças do rim e do sangue (MARIOT; BARBIERI, 2007a) e alguns tipos de tumores (PAZ et al., 2017) sendo, por esta razão, popularmente conhecida como “espinheira-santa” (PÉRICO et al., 2018). M. ilicifolia contém três classes principais de compostos bioativos: alcaloides piridínicos sesquiterpênicos, flavonoides e triterpenos quinonametídeos. Suas folhas contêm variados MS como flavonoides, terpenos, triterpenos, glicosídeos e alcaloides, enquanto que sua raiz contém terpenos, triterpenos, alcaloides e especialmente os triterpenos quinonametídeos (PÉRICO et al., 2018). Os principais produtos são maitenina, friedelina, fridelanol, pristimerina, terpenos que exibem uma gama de atividade biológica, caracterizando a espécie como bioprodutora de MS (PÉRICO et al., 2018). Com relação à localização da produção de metabólitos secundários em espinheira- santa, estudos identificaram que as folhas produzem 3b-friedelanol e friedelina (friedelano) e raízes acumulam maitenina e pristimerina (quinonametídicos) (FILHO et al., 2002). Os triterpenos derivados de friedelano, uma vez biossintetizados nas folhas, são translocados para as raízes e posteriormente transformados nos triterpenóides quinonametídicos, que apresentam ação antitumor. Estes triterpenóides não foram encontrados em folhas, somente em raízes. Os flavonóides são encontrados em todos os órgãos das plantas (MARIOT; BARBIERI, 2007b). Atualmente, um estudo em proteômica desta espécie detectou muitas enzimas envolvidas no metabolismo secundário, incluindo as monooxigenases dependentes do citocromo P450, que potencialmente catalisam as etapas finais na biossíntese de triterpenos quinonemetídeos (PAZ et al., 2017), mas os genes que codificam as principais enzimas dessas vias, juntamente com sua regulação, devem ser entendidos com precisão. 13 2. Objetivos Considerando que a biossíntese, o acúmulo e a regulação da expressão de metabólitos secundários (MS) apresentam padrão de expressão órgão-específicos e, baseando-se na hipótese de que genes diferencialmente expressos entre dois órgãos distintos pode fornecer informações sobre os transcritos e seus reguladores envolvidos em vias metabólicas, o objetivo do trabalho foi identificar os genes e fatores de transcrição responsáveis pela biossíntese dos MS em especial na via de terpenos de M. ilicifolia pela análise do sequenciamento do transcriptoma de órgãos foliares e radiculares desta espécie. 3. Material e Métodos 3.1 Aquisição de exemplares e extração de RNA Para este estudo, foram utilizadas folhas de exemplar adulto de M. ilicifolia proveniente do horto de plantas medicinais da Faculdade de Ciências Farmacêuticas, e folhas e raízes de mudas adquiridas e identificadas, com aproximadamente 6 meses de plantio. O RNA total de 2 exemplares de raízes (2 mudas) e 2 exemplares de folhas (1 folha de muda, coincidente com um dos exemplares utilizado para a extração da raiz e 1 folha de indivíduo adulto) foi isolado de 500mg de material. Os órgãos foram homogeneizados em nitrogênio líquido e o isolamento do RNA foi realizado utilizando- se o kit RNeasy Plant mini kit (Qiagen,USA), seguindo as recomendações do fabricante e quantificados pelo espectrofotômetro NanoDrop 2000 (ThermoFisher Scientific, USA). A qualidade do RNA extraído foi avaliada por eletroforese em 2100 Bioanalyzer (Agilent Technologies, USA), por meio da identificação de bandas 18S e 28S intactas e pelo valor de RIN (RNA Integrity Number). 3.2 Preparo da biblioteca para sequenciamento de RNA O preparo de biblioteca de transcritos seguiu o protocolo TruSeq RNA v3 kit (Illumina, USA) de acordo com as recomendações do fabricante. Resumidamente, depois da extração total, o RNA total é submetido à purificação dos RNAs mensageiros (mRNAs) por meio de partículas magnéticas contendo Oligo(dT) e, posteriormente, são 14 quimicamente fragmentados. Estes fragmentos de mRNAs são transcritos para cDNA de dupla fita e recebem em suas extremidades oligonucleotídeos adaptadores à lâmina de sequenciamento. Finalmente, as bibliotecas de cDNA são amplificadas e avaliadas quanto à qualidade, utilizando um chip de DNA de alta sensibilidade em 2100 bioanalyzer, e quanto à quantidade, por PCR quantitativa com o kit Kapa (Roche, USA). 20 pmol das bibliotecas foram submetidos a sequenciamento “single-read” em equipamento HiSeq 2000 (folha do indivíduo adulto) e sequenciamento "paired-end" em equipamento MiSeq (folha e raízes de mudas). 3.3 Análise de dados de sequenciamento Os dados gerados pelo sequenciamento, arquivos FASTQ, foram avaliados pelo software FastQC (0.11.9) (https://www.bioinformatics.babraham.ac.uk/projects/fastqc/) quanto à qualidade antes e depois da filtragem. Estas sequências, denominadas reads, foram filtradas pelo software TrimGalore! (0.6.7) (https://github.com/FelixKrueger/TrimGalore), removendo aquelas que se classificaram como sequências de adaptador e de baixa qualidade (qualidade média abaixo de 25). Também foram removidas bases iniciais e finais das sequências com valores de q menor que 25 e, finalmente, no arquivo FASTQ final de reads filtradas permaneceram aquelas com tamanho maior que 50 pares de base. 3.4 Montagem dos transcriptomas Uma vez que M. ilicifolia não possui genoma sequenciado e depositado, a abordagem da montagem das reads seguiu uma abordagem do tipo de novo ou ab initio, utilizada quando não se há informação sobre o genoma da espécie. A partir de todos os arquivos de dados filtrados, as reads foram agrupadas e alinhadas pelo software Trinity (2.9.1) (GRABHERR et al., 2011) a fim de se obter os transcritos. Para esta montagem, foram considerados os parâmetros de alinhamento das reads como taxa de não correspondência de nucleotídeos (mismatch cost) e taxa de inserção e deleção de bases. Ao final deste processo, o arquivo gerado apresentou os possíveis transcritos da espécie, quantificados nos diferentes órgãos e em cada exemplar. 15 3.5 Avaliação de qualidade da montagem do transcriptoma Aspectos do transcriptoma como conteúdo CG e N50 foram analisados pelo software fasta-stats (1.0.1) (https://github.com/raymondkiu/sequence-stats). A integridade da montagem do transcriptoma foi avaliada usando o software BUSCO (4.1.2) (SIMAO et al., 2015) para 57 espécies com 425 ortólogos do banco de dados viridiplantae_odb10 e a validação dos transcritos foi avaliada pelo mapeamento do transcriptoma às reads filtradas. A partir da ferramenta Salmon (1.5.1) (PATRO et al., 2017), as reads filtradas por qualidade e utilizadas na montagem do transcriptoma foram remapeadas contra o transcriptoma montado a fim de se obter uma matriz de expressão em unidade de transcritos por milhões de kilobase (TPM) que foi utilizada para a análise de componentes principais (PCA). Esta matriz permitiu remoção de transcritos com baixa expressão, considerando apenas aqueles com no mínimo 1% de expressão da isoforma dominante, gerando, por fim, um transcriptoma filtrado. 3.6 Anotação funcional A ferramenta TransDecoder (5.5.0) (HAAS et al., 2013) foi utilizada para encontrar possíveis regiões codificadoras dos transcritos e janelas abertas de leitura (ORFs) com tamanho mínimo de 100 aminoácidos. Posteriormente, a anotação funcional dos transcritos foi realizada utilizando o BLASTX pelo software Diamond (2.0.15) (BUCHFINK; XIE; HUSON, 2014) contra os bancos de dados da UniProtKB/SwissProt e Uniprot trEMBL plants (E-value < 1e-5). Além disso, a homologia também foi realizada a partir da busca com BLASTP com o mesmo software, utilizando as proteínas preditas contra a base de dados da UniProtKB/SwissProt (E-value < 1e-5). Termos de ontologia genética (GO) aos transcritos foram realizados com base no banco de dados do UniProtKB/SwissProt para atribuir categorias funcionais aos transcritos. Além disso, as proteínas com números da Comissão de Enzimas (EC) foram mapeadas no Banco de Dados de Via da Enciclopédia de Genes e Genomas de Kyoto (KEGG) usando o Servidor de Anotação Automática KEGG online (www.genome.jp/kegg/kaas) para atribuir informações de via aos transcritos. 3.7 Análise de diferença de expressão A ferramenta Salmon (1.5.1) (PATRO et al., 2017) foi aplicada para estimar o nível de expressão dos transcritos. Cada arquivo FASTQ filtrado foi alinhado 16 separadamente ao transcriptoma filtrado. Em seguida, o nível de expressão de cada transcrição foi normalizado e reportado em TPM. Para resumir os resultados e fornecer testes estatísticos para comparação de órgãos, a análise de expressão diferencial foi realizada usando o pacote do R DESeq2 (1.34.0) (LOVE; HUBER; ANDERS, 2014) e a diferença de expressão dos transcritos foi considerada significativa quando o valor de p ajustado apresentava-se menor que 0,05. 3.8 Enriquecimento ontológico e análise de vias A análise de enriquecimento de ontologia genética (GO) para o processo biológico (BP) e função molecular (MF) para os transcritos diferencialmente expressos em cada órgão foi conduzida usando o pacote do R topGO (2.50.0) (https://bioconductor.org/packages/release/bioc/html/topGO.html). Os termos GO significativos (valor de p do teste exato de Fisher <0,01) foram visualizados usando REViGO (revigo.irb.hr) para redução do espaço semântico. As transcrições associadas aos números da Enzyme Commission (EC) foram mapeadas no banco de dados da via KEGG. 3.9 Identificação de potenciais Fatores de Transcrição O método de análise dos fatores de transcrição (TF) seguiu o descrito por (YANG et al., 2018). Resumidamente, todos os genes diferencialmente expressos foram alinhados à base de dados de fatores de transcrição de plantas (Plant TFDB5.0: http://planttfdb.gao- lab.org/) para identificar potenciais TFs (valor E ≤ 1e-6). 3.10 Perfil dos genes relacionados à biossíntese de terpenos Os dados de anotação funcional do transcriptoma de M. ilicifolia foram utilizados para identificar sequências de genes mapeados na via de biossíntese de terpenos. Adicionalmente, foram utilizados os valores de TPM para caracterizar a abundância de cada transcrito nos diferentes órgãos. 3.11 Perfil de genes de P450 Os dados de anotação funcional do transcriptoma de M. ilicifolia foram utilizados para identificar sequências de genes candidatos à transcritos de CYP450. Foram 17 utilizados os valores de TPM, calculados como descrito acima, para caracterizar a abundância de cada transcrito nas diferentes amostras. 4. Resultados e Discussão 4.1 Sequenciamento dos transcriptomas A biblioteca single-read da folha e as bibliotecas paired-end de folha e raízes submetidas a sequenciamento do transcriptoma completo geraram cerca de 115 milhões de transcritos (Figura 1). Figura 1. Características do sequenciamento e número total de sequências geradas por amostra de Monteverdia ilicifolia submetidas à análise do transcriptoma (*mesmo indivíduo). Os dados originais de sequenciamento foram filtrados, mantendo apenas sequências com alta qualidade (valores de q iguais ou superiores a 25), resultando em 108.945.849 reads que foram utilizadas para a montagem. Uma vez que M. ilicifolia não apresenta genoma de referência, foi utilizada a montagem de transcriptomas de novo, originando 163.780 transcritos, com tamanho variando de 200 a 16.289 pares de bases e média de 737 pb (Figura 2). 18 Figura 2. Distribuição do tamanho dos transcritos de Monteverdia ilicifolia montados por método de novo. 4.2 Avaliação de qualidade da montagem do transcriptoma Em uma análise comparativa entre dados de folhas e raízes desta espécie, foi possível a identificação de transcritos exclusivos de cada órgão (Figura 3) e 67.625 (41,3%) isoformas foram e encontrados nos dois órgãos. Figura 3. Diagrama de Venn apresentado o número de transcritos para cada situação experimental, folha e raíz, do transcriptoma de Monteverdia Ilicifolia. Um dos aspectos qualitativos da arquitetura genômica é a composição de nucleotídeos, expressa pela proporção das bases guanina e citosina (conteúdo de GC) (ŠMARDA et al., 2014). Esta característica fornece uma visão sobre aspectos relacionados ao genoma de um organismo, incluindo evolução, estrutura do gene, estabilidade térmica e regulação do gene (DEVI et al., 2016). Valores altos de conteúdo GC podem estar associados à capacidade de as plantas crescerem em condições ambientais extremas (como climas frios e secos, e na presença de estresse de dessecação) 19 (ŠMARDA et al., 2014). Para M. ilicifolia, ambos transcriptomas apresentaram conteúdo GC próximos a 40% (Figura 4), valores similares aos reportados para arabidopsis (42.5%), soja (40.9%) e grão-de-bico (40.3%) (DEVI et al., 2016). Figura 4. Características dos transcriptomas de folha e raiz de Monteverdia Ilicifolia. Uma métrica estatística frequentemente usada para descrever a integridade de um genoma montado é a N50, a qual fornece informações sobre a distribuição de comprimentos de contigs. Este parâmetro é definido como o comprimento N para o qual 50% de todas as bases nas sequências estão em uma sequência de comprimento L