Quim. Nova, Vol. 43, No. 3, 329-354, 2020 http://dx.doi.org/10.21577/0100-4042.20170499 *e-mail: npelopes@fcfrp.usp.br #Alan C. Pilon e Denise M. Selegato contribuiram igualmente para o trabalho e são co-autores. METABOLÔMICA DE PLANTAS: MÉTODOS E DESAFIOS Alan C. Pilona,b,c,#, Denise M. Selegatob,d,#, Richard P. Fernandesb, Paula C. P. Buenoa,e, Danielle R. Pinhoa, Fausto Carnevale Netof, Rafael T. Freireg, Ian Castro-Gamboab, Vanderlan S. Bolzanib e Norberto P. Lopesa,*, aNúcleo de Apoio à Pesquisa em Produtos Naturais e Sintéticos, Faculdade de Ciências Farmacêuticas de Ribeirão Preto, Universidade de São Paulo, Ribeirão Preto – SP, Brasil bNúcleo de Bioensaios, Biossíntese e Ecofisiologia de Produtos Naturais, Universidade Estadual Paulista, Araraquara – SP, Brasil cDepartment of Life Sciences, Imperial College London, Silwood Park, Ascot, Reino Unido dCenter of Magnetic Resonance, University of Florence, Florença, Itália eMax-Planck Institute of Plant Molecular Physiology, Potsdam-Golm, Alemanha fNorthwest Metabolomics Research Center, Department of Anesthesiology and Pain Medicine, University of Washington, Seattle, Estados Unidos gSignal and Information Processing for Sensing Systems, Institute for Bioengineering of Catalonia, Barcelona, Espanha Recebido em 01/11/2019; aceito em 16/01/2020; publicado na web em 26/03/2020 PLANT METABOLOMICS: METHODS AND CHALLENGES. Metabolomics has played a central role in various areas of plant sciences, offering new perspectives for the advancement of agriculture, drug discovery, chemical ecology and taxonomy. Plant metabolomics (identification and quantification) aims to understand the relationship between biological systems and genetic, pathological and or environmental stimuli in terms of differential expression of the metabolism. Owing to the unique challenges, such studies require multidisciplinary skills involving biology, chemistry, statistics, and computer science for the extraction and complete understanding of information. In this sense, this review summarizes the main procedures that involve the steps of plant metabolomic study (design of experiments, sample preparation, analytical methods and data analysis), providing a comprehensive overview, showing the main challenges and limitations and possible solutions for the different approaches used. Keywords: plant metabolomics; methods; challenges. INTRODUÇÃO O conhecimento e a compreensão do valor e dos riscos das subs- tâncias encontradas em plantas, sejam elas in natura ou processadas, foi fundamental para a sobrevivência e evolução da humanidade. Se as antigas civilizações já tinham um vasto conhecimento sobre o uso e aplicação de plantas, é nos tempos modernos que tivemos as tecnologias capazes de extrair, separar e identificar as substâncias responsáveis por propriedades medicinais e nutricionais.1-3 Em geral, o produto final dos eventos bioquímicos dos orga- nismos resulta no que denominamos de metabolismo. Em plantas, microorganismos e animais, ele ainda pode ser subdivido em duas categorias. O metabolismo primário, relacionado à síntese e polime- rização de monômeros (blocos construtores) em biopolímeros através de reações de redução e condensação por vias enzimáticas altamente especializadas e eficientes (baixa plasticidade enzimática em relação aos substratos),4 e o metabolismo secundário ou especial, que está diretamente envolvido na produção de metabólitos responsáveis pela adaptação e sobrevivência à míriade de interações entre organismos e o seu meio ambiente. Ao contrário dos primários, esses metabólitos são expressos por enzimas com grande plasticidade dos seus sítios.5-7 Ao longo dos últimos dois séculos, diferentes áreas da Bioquímica e Química de Produtos Naturais têm buscado compreender a função específica desses metabólitos (primários e secundários) tanto nos organismos de origem, como também para uso e bem-estar da hu- manidade. Os avanços tecnológicos das plataformas analíticas bem como a capacidade de processamento dos dados gerados permitiram romper com a visão reducionista sobre a função metabólica para uma visão integrativa sobre o funcionamento dos organismos. Entretanto, os conceitos de reducionismo e o holismo não são excludentes, mas representam a totalidade do funcionamento dos seres vivos. É a partir dessa mudança de paradigma, que as ciências “ômicas” floresceram nas diferentes comunidades científicas.8 A metabolômica foi concebida no final dos anos de 1990 a partir dos trabalhos com genômica funcional de leveduras por Oliver e Ferenci.9 Em 2000, Fiehn e colaboradores do Max-Planck Institute of Plant Physiology publicaram os primeiros trabalhos sobre a aplicação da metabolômica em plantas.10 Ao longo dos anos, várias definições foram elaboradas sobre a metabolômica, considerando tanto o tamanho molecular das substâncias (< 1500 Da), quanto a classe estrutural.1-3,11 Talvez a definição mais difundida seja a ciência que investiga a totalidade da expressão qualitativa e quantitativa do metabolismo primário e secundário dos organismos. Contudo, a metabolômica estabelece que o entendimento dos organismos ocorre através da análise comparativa de perfis metabólicos entre indivíduos e/ou populações sujeitos às diferentes condições genéticas, ambientais ou patológicas. Os estudos metabolômicos eram inicialmente divididos em duas categorias: estudos alvo (do inglês, targeted), nos quais metabólitos ou classes metabólicas são investigados como resposta a um dado estímulo e, os estudos não-alvo (do inglês, untargeted) nos quais se avalia todo o conjunto de substâncias de modo indiscriminado. Atualmente, existem outras subcategorias que visam refletir os dife- rentes objetivos e especificidades dos estudos metabolômicos, como mostrado na Tabela 1. A anotação e/ou elucidação e quantificação de “todo” o conjun- to de metabólitos presentes em um sistema biológico é uma tarefa complexa em termos analíticos. Atualmente, não existe qualquer METABOLÔMICA DE PLANTAS: MÉTODOS E DESAFIOS Alan C. Pilona,b,c,#, Denise M. Selegatob,d,#, Richard P. Fernandesb, Paula C. P. Buenoa,e, Danielle R. Pinhoa, Fausto Carnevale Netof, Rafael T. Freireg, Ian Castro-Gamboab, Vanderlan S. Bolzanib e Norberto P. Lopesa,*, aNúcleo de Apoio à Pesquisa em Produtos Naturais e Sintéticos, Faculdade de Ciências Farmacêuticas de Ribeirão Preto, Universidade de São Paulo, Ribeirão Preto – SP, Brasil bNúcleo de Bioensaios, Biossíntese e Ecofisiologia de Produtos Naturais, Universidade Estadual Paulista, Araraquara – SP, Brasil cDepartment of Life Sciences, Imperial College London, Silwood Park, Ascot, Reino Unido dCenter of Magnetic Resonance, University of Florence, Florença, Itália eMax-Planck Institute of Plant Molecular Physiology, Potsdam-Golm, Alemanha fNorthwest Metabolomics Research Center, Department of Anesthesiology and Pain Medicine, University of Washington, Seattle, Estados Unidos gSignal and Information Processing for Sensing Systems, Institute for Bioengineering of Catalonia, Barcelona, Espanha Re vi sã o https://orcid.org/0000-0002-8159-3658 Pilon et al.330 Quim. Nova técnica analítica que seja capaz de medir todos os metabólitos em um único experimento é necessário o acoplamento de técnicas analíticas ortogonais afim de suprir as deficiências individuais. Em plantas, essa situação é agravada pela diversidade estrutural das substâncias oriundas do metabolismo secundário.14 O Quadro 1 mostra alguns dos desafios analíticos para a realização de estudos metabolômicos em plantas. A maioria dos experimentos em metabolômica de plantas são realizados utilizando da combinação de ferramentas analíticas de separação e detecção, conhecidas como abordagens hifenadas ou acopladas. Dentre as combinações mais comuns estão as técnicas de separação cromatográfica (cromatografia líquida e gasosa) acopladas a detectores de ultravioleta ou espectrometria de massas, como por exemplo a CLAE-UV-DAD, CLAE-EM ou CG-EM.15 A ressonância magnética nuclear (RMN), inicialmente aplicada aos estudos de metaboloma humano, também vem sendo empregada em estudos de plantas, tanto para a elucidação estrutural de moléculas previamente isoladas e purificadas, quanto para o estudo de frações enriquecidas ou mesmo extratos brutos de alta complexidade.16,17 A literatura está repleta de estudos metabolômicos de plantas aplicados à caracterização de amostras18-24 ou substâncias,25 no controle de qualidade,26-29 no melhoramento genético/transgênico de plantações,30-33 no desenvolvimento de medicamentos,34-37 em ecologia-química,38-40 no entendimento de funções bioquímicas14,33,41,42 e na distribuição e evolução taxonômica.43,44 Talvez a tarefa mais desafiadora para um cientista que al- meja utilizar a metabolômica seja entender todas as múltiplas e interdisciplinares etapas, assim como as metodologias analíticas mais adequadas considerando as vantagens e limitações do objeto de estudo. Nesse sentido, as comunidades de metabolômica têm-se mobilizado para a criação de protocolos que auxiliem a execução, validação e a troca de informações inter- ou intra-laboratoriais. Iniciativas como COordination of Standards In MetabOlomicS (COSMOS - http://www.cosmos-fp7.eu), Metabolomics Workbench (http://www.metabolomicsworkbench.org), ArMet (Architecture for Metabolomics) e MSI (Metabolomics Standard Initiative) represen- tam alguns desses esforços para a criação de repositórios públicos para análise, monitoramento e disseminação de dados.8 Em geral, essas plataformas exigem informações sobre as diretrizes do planejamento experimental, tais como, coleta, preparação de amostra e extração de metabólitos; dados sobre a(s) plataforma(s) analíticas utilizadas, instrumentos e configurações de análise; os tipos de normalização e escalonamento dos dados pós-análise e os tratamentos quimiométricos e estatísticos utilizados para redução da complexidade dos dados.8 A Figura 1 demonstra, através de um fluxo de informações (etapas), os requerimentos básicos exigidos pelas comunidades científicas para o desenvolvimento de um experimento em meta- bolômica de plantas. A primeira etapa consiste na aplicação de um planejamento experimental criterioso, considerando a população a ser estudada (viabilidade), os procedimentos de preparação de amostra, seguido pela aquisição dos dados (associação com metadados) seu pré-processamento e finalmente a análise dos dados (estatística e quimiometria) e a interpretação dos resultados.45 Cada etapa envolve inúmeras escolhas em termos das metodolo- gias e abordagens analíticas disponíveis, que por sua vez, delimitam as etapas subsequentes. Assim, o propósito desta revisão é descrever os principais protocolos, métodos e softwares utilizados em cada uma das etapas (Figura 1) apontando limitações, desafios e possí- veis soluções. Delineamos um manuscrito que agrega de princípios básicos a estratégias específicas visando auxiliar no planejamento e na execução experimental em estudos promovidos por diferentes públicos da comunidade científica. PLANEJAMENTO EXPERIMENTAL Os planejamentos experimentais (PE) constituem o primeiro passo que concerne à experimentação científica.46 Em metabolômi- ca, os PE devem ser elaborados contextualizando todo o conjunto de etapas uma vez que cada escolha interfere nos resultados e suas interpretações.47 A maioria dos planejamentos experimentais aplicados em metabolômica iniciam pela determinação do tamanho amostral, o número de variáveis importantes e seus respectivos níveis.48 Como os dados metabolômicos são tipicamente multidimensionais e Tabela 1. Subcategorias de estudos metabolômicos alvo e não alvo12,13 Tipo Abordagem Descrição Metabolic Fingerprint Não-Alvo Análise da composição metabólica de um organismo. A quantificação é usualmente relativa entre amostras controle e tratada visando comparação e análise discriminatória. Classifica e/ou agrupa in- formações relativas aos metabólitos (que podem ou não ser identificados) como resposta às diferentes condições experimentais aplicadas ao conjunto amostral. Plant Metabolomics Não-Alvo Contempla a tentativa não enviesada de identificar e quantificar o maior número possível de metabólicos presente em tecidos, órgãos vegetais ou na planta como um todo. Metabolic Profiling Alvo Em oposição ao metabolic fingerprint, o metabolic profiling visa identificar e quantificar metabólitos/ classes responsáveis pela discriminação entre grupos tratados e controle. Estas substâncias (identificadas) podem formar então as bases para as hipóteses entre diferenças genéticas e fenotípicas. Target Analysis Alvo Visa a detecção ou descrição de substâncias/grupos específicos que compartilham propriedades quími- cas similares (e.g., aminoácidos) ou uma rota metabólica em comum (e.g., alcaloides). Os métodos usualmente consideram dados quantitativos e qualitativos. Quadro 1. Desafios encontrados em estudos metabolômicos de plantas (1) Dinâmica metabólica: o metabolismo está continuamente sendo absorvido, reciclado e degradado decorrente de interações celulares ou através de efeitos ambientais. Isto dificulta a padronização experimental; (2) Diversidade química: a variedade de classes metabólicas relativas ao metabolismo primário e, particularmente, a diversidade química decorrente do metabolismo secundário propiciam grandes desafios na compreensão das funções biológicas e na caracterização das estruturas; (3) Gradiente de concentração: Dependendo da classe ou da função no organismo, a concentração de uma substância pode variar três ou mais ordens de magnitude. Os hormônios, por exemplo, são detectados na ordem de µmol L-1 enquanto os carboidratos em mmol L-1. Esta variação dificulta a configuração experimental e o tratamento de dados; (4) Efeitos cíclicos, ambientais ou ontogenéticos: A vida é baseada em ciclos biológicos e qualquer análise deve considerar os ciclos temporais e evolutivos. A flutuação metabólica traz um desafio maior no processo de reconhecimento de padrão, seja na identificação de metabólitos ou no efeito de um dado estímulo. Metabolômica de plantas: métodos e desafios 331Vol. 43, No. 3 correlacionados, a determinação do número de amostras por fer- ramentas estatísticas pode não ser abrangente. Para contornar esse problema, Nyamundanda e colaboradores desenvolveram um software capaz de determinar o tamanho amostral com base nos objetivos e nas técnicas analíticas, descartando a necessidade de experimentos piloto.49 Estudos similares podem ser encontrados nos trabalhos de Müller et al.,48 Tibshirani,50 Liu & Wang51 e Lin et al.52 Para a investigação sobre como os fatores ambientais ou fatores experimentais, tais como o uso de solventes orgânicos no processo de extração e/ou separação cromatográfica, podem afetar os perfis metabolômicos de plantas, é necessário realizar experimentos de uma forma sistematizada. Os planejamentos experimentais (do inglês, Design of Experiments – DoE) arranjam sistematicamente o conjunto de variáveis dentro de um espaço amostral delimitado, diminuindo o número de experimentos e maximizando a extração de informações, como interações entre variáveis e a distribuição dos efeitos.53 Vejamos um exemplo: estamos interessados em identificar quais dentre as variáveis temperatura, nutrição e estresse hídrico (por exem- plo, 25-35 oC, 1-10 mmol N L-1, 100-1000 mL dia-1, respectivamente) afetam a produtividade de frutos e consequentemente a dinâmica do perfil metabólico. Assim, a primeira etapa do PE consiste na escolha das variáveis com maior efeito na produção de frutos. Essa seleção pode ser feita através de dados de literatura incluindo os diferentes níveis. Quando não existe informação sobre o impacto das variáveis na resposta (por exemplo, o efeito do estresse hídrico sobre a fruti- ficação), aplica-se um modelo que possibilite a triagem de variáveis dominantes, isso é, avalia-se um grande número de variáveis. No geral, modelos baseados em planejamentos fatoriais completos ou fracionários são os mais utilizados para esse fim, uma vez que o número de experimentos é relativamente reduzido.54-57 Nos casos em que as variáveis dominantes são conhecidas, é possível aplicar um modelo de otimização das variáveis. Dentre os modelos mais utilizados, o planejamento composto central arranja as variáveis dentro de um espaço amostral com cinco diferentes níveis (5 variações). Suponhamos que, para o nosso estudo da frutificação, tempera- tura, nutrição e estresse hídrico sejam as três variáveis dominantes e que desejamos aplicar um planejamento fatorial completo de dois níveis para determinar a melhor condição de crescimento de frutos. Inicialmente, as variáveis são codificadas (-1 para o nível inferior e +1 para o nível superior) e arranjadas de modo sistemático para que todos níveis possam ser analisados (Figura 2). O número de experi- mentos é calculado pela potenciação NV (em que N é o número de níveis e V é o número de variáveis) totalizando oito experimentos Figura 1. Tópicos que envolvem a aplicação de um estudo metabolômico em plantas Figura 2. Planejamento fatorial 23 aplicado ao estudo de otimização dos fatores de crescimento de frutos. A tabela corresponde ao número de experimentos 23 (8 experimentos) e o respectivo arranjo sistemático das variáveis (codificado e real). Foram considerados dois níveis, sendo os inferiores codificados com os valores de -1 (Nutrientes: 1 mmol N L-1; Temperatura: 25 oC e Stress hídrico: 100 mL dia-1) e os superiores com +1 (Nutrientes: 10 mmol N L-1; Temperatura: 35 oC e Stress hídrico: 1000 mL dia-1). O gráfico representa a disposição de cada experimento (conjunto de variáveis) dentro do espaço amostral. O experi- mento em destaque na tabela é representado no gráfico. Mais informações sobre a forma e a distribuição de planejamentos em estudos metabolômicos podem ser encontradas em Pereira Filho (2015)58 Pilon et al.332 Quim. Nova (Figura 2). Para esse exemplo, o peso ou o número de frutos poderiam ser considerados como resposta para o modelo. Uma vez realizados os experimentos, a resposta do sistema em estudo (peso/número de frutos) pode ser correlacionada com dados cromatográficos, espectrométricos ou espectroscópicos, possibilitan- do determinar os sinais (metabólitos) associados, bem como modelar as respostas dentro do espaço amostral para encontrar a condição ideal de frutificação (Figura 2). A partir das variáveis e de seus níveis, o planejamento permite a construção de mapas e superfícies de contorno apontando as condições ideais para cada variável. Para o estudo da frutificação, seria possível, inclusive, avaliar temperatura, nutrientes e quantidade de água baseado na relação com possíveis metabólitos associados para produção de frutos nos diferentes experimentos. Até esse momento, estamos considerando apenas os modelos que utilizam de variáveis independentes, isso é, a variação da temperatura não afeta a quantidade de nutrientes fornecidos para o nosso estudo. No entanto, existem casos em que o interesse seja a análise e otimi- zação de variáveis dependentes, como é o caso da escolha da melhor proporção de misturas de solventes para o processo de extração, ou a escolha do melhor e mais adequado gradiente de fase móvel em um sistema cromatográfico (por exemplo, a proporção de MeOH e ACN que compõe a fase orgânica). Para esses casos, recomenda-se modelos baseados em simplex-centroide ou estrela.58 A aplicação desses modelos no uso de diferentes solventes orgânicos no processo de extração e na otimização da separação cromatográfica em estudos de metabolômica de plantas foi explorado por Pilon et al.,59 Bueno et al.,60 Zhang et al.,61 Ramandi et al.,62 Iyadivam et al.,63 Rai et al.64 e Asati et al.65 De forma geral, os planejamentos consistem em uma primei- ra etapa de seleção das variáveis, por exemplo aquelas que mais influenciam no processo extrativo ou no método de análise a ser empregado, seguido de uma etapa de otimização destas variáveis ou fatores. Atualmente, existem diversas ferramentas capazes de orga- nizar os planejamentos experimentais, realizar os cálculos e avaliar a relevância estatística de um estudo. Dentre elas estão os pacotes em Matlab66 da plataforma R (AlgDesign, Conf.design: e Crossdes), assim como os softwares, Minitab67 e Piruette.68 É possível realizar os cálculos em plataformas gratuitas como o Octave, (https://www. gnu.org/software/octave), assim como diretamente no pacote Office Excel. Pereira Filho apresenta um tutorial de aplicação e análise de amostras utilizando de planejamentos experimentais, bem como disponibiliza uma sequência de vídeos explicativos.69,70 AMOSTRAGEM Procedimento de coleta e inibição enzimática O processo de amostragem pode levar, em determinados casos, a resultados tendenciosos, sendo um dos principais fatores de erro em metabolômica de plantas. A contaminação, conversão ou degradação dos compostos pode gerar diferenças no decorrer de segundos, o que torna fundamental os cuidados com a coleta e manuseio de amostra.71 No ato da coleta, alguns fatores devem ser considerados sobre as condições físicas, químicas, biológicas e geográficas do conjunto amostral. Se o material vegetal foi cultivado e coletado em casas de vegetação instaladas em institutos, universidades, herbários ou reser- vas, deve-se levar em conta que mesmo sob condições controladas, pequenas mudanças na intensidade de luz, irrigação, temperatura, gradientes de dióxido de carbono e efeitos sazonais podem alterar o perfil metabólico de plantas geneticamente idênticas. Para evitar esses resultados, denominados “efeitos de borda”, as plantas devem ser periodicamente redistribuídas, de forma aleatória, entre o centro e as bordas da casa de vegetação.72,73 Em coletas de campo, muito comuns quando o estudo contempla variáveis agronômicas ou ecológicas, as condições ambientais são dificilmente controladas. Assim, deve-se demarcar os indivíduos atra- vés de sistemas de posicionamento global (GPS). Ferramentas online como Google Maps ou equipamentos específicos oferecem esse tipo de serviço com alto grau de precisão. Isso garante o monitoramento e o controle de experimentos conduzidos a longo prazo e planejados para a realização de coletas sazonais, semestrais ou anuais.74 Em estudos de campo não se conhece, a priori, o tipo do solo, a incidência de herbivoria e o estado ontogenético dos indivíduos. Isso, invariavelmente, aumenta a complexidade para a interpretação dos resultados referente a um dado estímulo genético ou ambiental. Assim, locais que ofereçam informações adicionais como índices pluviomé- tricos, características do solo, altimetria, irradiação ultravioleta, vento predominante, variação diária de temperatura, entre outros fatores, são de grande importância e devem ser preferencialmente escolhidos. A padronização no ato de coleta é um dos alicerces da metabo- lômica de plantas e requer a consideração de fatores como o tipo de tecido a ser utilizado (folhas, frutos, flores, caule, raiz), os períodos sazonais, os horários de coleta (ciclo circadiano) e os estágios onto- genéticos (crescimento e reprodução).75,76 Em casos em que as coletas são realizadas em diferentes localidades, recomenda-se a padroni- zação de acordo com o estágio de desenvolvimento da planta. Isso pode ser realizado através de referências bibliográficas ou através de bases de dados dedicadas a ontologia, como a Plantontology (www. plantontology.org). É importante também definir a posição do órgão ou parte da planta que foi coletada, e informações acerca da exposição solar (se está localizado no dossel ou sob a sombra).77,78 Uma vez coletado o material vegetal, a atividade enzimática deve ser inibida imediatamente para garantir a integridade metabólica.79 Em pequenos órgãos, tecidos dissecados ou até pequenas plantas inteiras, utiliza-se de choques térmicos para a desnaturação de pro- teínas. O uso de condições ácidas (pH < 2) ou de solventes quentes não fornece garantias de integridade metabólica, como hidrólises e/ ou clivagens glicosídicas, gerando artefatos e possíveis equívocos na interpretação dos resultados.80–82 A imersão em nitrogênio líquido permite o resfriamento imediato a -180 oC, em metanol resfriado a -20 oC, ou em gelo seco (dióxido de carbono solidificado) a -78 oC, garantindo a inibição enzimática e auxiliando a etapa de lise celular.72 Secagem e homogeneização A presença de água em matrizes vegetais afeta negativamente várias etapas dos estudos metabolômicos, pois modifica a eficiência do processo de extração por solventes orgânicos (alterando a proporção de solventes previamente estabelecida), prejudica o armazenamento de amostras e influencia as subsequentes análises instrumentais.82,83 Sinais de água (1H RMN) em extratos brutos são um exemplo dos efeitos de distorção e de sobreposição aos sinais de interesse.72 Dentre os procedimentos para a remoção de água destacam-se o uso de estufa com ar circulante a 40 oC, secagens a temperatura ambiente e a vácuo, e através de processos de sublimação, como é o caso da liofilização.84 A liofilização é a técnica mais utilizada para amostras sensíveis à altas temperaturas e para inibição de hi- drolases e fosfatases.72,82 Contudo, existe uma preocupação quanto a perda de metabólitos devido a adsorção irreversível em paredes celulares e membranas durante o processo de congelamento.84 O processo de liofilização, realizado em duas etapas, é iniciado com o congelamento dos tecidos ou fluídos em tubos ou frascos, e em seguida submetidos ao processo de sublimação (a pressão reduzi- da e baixas temperaturas, aproximadamente ≤ -40 oC). Amostras liofilizadas devem ser armazenadas à -80 oC, em frascos vedados para se evitar a reabsorção de água. Metabolômica de plantas: métodos e desafios 333Vol. 43, No. 3 A amostra deve ser triturada ou moída para reduzir o tamanho dos tecidos. A padronização desse processo (controle granulométrico) é fundamental para estudos metabolômicos uma vez que garante tanto a homogeneidade amostral na extração, quanto a proporcionalidade na área de contato entre a matriz e o solvente extrator. O uso de almofariz e pistilo85 é recorrente em metabolômica, apesar de não ser recomendada para estudos com um grande número de amostras, por ser laboriosa e demandar uma etapa adicional de tamisagem. Moinhos de bolas, criogênicos e homogeneizadores verticais vem sendo empregados com sucesso.72,82 Em geral, eles promovem uma rápida trituração do material mantendo uniformidade do grânulo e contam com acessórios capazes de realizar múltiplas moagens em microescala (como, por exemplo, a moagem simultânea de 10 tubos de 1,5 mL ou 2,0 mL).82,86 Idealmente, o processo de coleta, moagem e secagem deveriam ser imediatamente sucedidos pela extração e análise. Quando isso não é possível recomenda-se o armazenamento das amostras em freezer a -80 ºC. O condicionamento das amostras a temperaturas de -20 ºC e 4 ºC é utilizado em alguns casos, porém, não é recomendado devido a possibilidade de algumas reações bioquímicas e atividades enzi- máticas ocorrerem, até mesmo em temperaturas inferiores a -20 ºC, especialmente em amostras com a presença de sais ou solventes orgânicos.87-89 Processo de extração A etapa de extração determina o intervalo ou cobertura química, considerando aspectos de polaridade e solubilidade dos metabólitos a serem detectados pelas técnicas analíticas. É importante que essa etapa seja realizada de modo simples, rápido e em poucas etapas, uma vez que a metabolômica exige um consideravel número amostras e, portanto, de experimentos. Diferentes técnicas de extração têm sido discutidas a fim de produzir perfis metabólicos representativos, como por exemplo a extração com solventes em procedimentos de maceração, por arraste a vapor, fluído supercrítico, líquidos iônicos e extrações por solvente sob alta temperatura e pressão.90,91 As extrações baseadas em solventes orgânicos ainda constituem a melhor escolha em estudos metabolômicos devido a eficiência e compatibilidade com as principais plataformas analíticas, como CLAE-EM, CG-EM e RMN. Entretanto, novos métodos de extração seletiva, com baixa toxicidade e/ou custo, têm sido propostos, como o uso de NADES (Natural Deep Eutectic Solvents).92–94 A seleção do método extrativo pode ser realizada de duas manei- ras: em análise direcionada de determinado(s) metabólito(s) alvo(s), o que consiste em uma abordagem aplicada em Profiling Analysis e Target Analysis, ou em busca indiscriminada de perfis metabólicos, como Fingerprint Analysis e o Metabolomics. Geralmente, a busca inespecífica exige ensaios, preferencialmente concebidos através de planejamentos experimentais, para a avaliação da capacidade de extração dos solventes assim como a proporção entre solvente e o material vegetal. O trabalho de Pilon et al.,59 por exemplo, explora através de planejamentos experimentais o efeito de quatorze solventes orgânicos sobre o rendimento e o número de substâncias no processo de extração em folhas de Jatropha assim como avalia as propriedades físico-químicas dos solventes associadas aos resultados de extração. O tipo de extração afeta diretamente80,95–97 a escolha das plata- formas instrumentais, assim como as ferramentas de identificação e os tratamentos de dados. Embora as otimizações dos parâmetros de extração sejam importantes, é fundamental estar consciente de que o desenvolvimento de métodos específicos pode, em certos casos, impe- dir a comparação com outros estudos ou mesmo tornar incompatível o uso de plataformas analíticas, ou influenciar as etapas de identificação de compostos, como por exemplo, o uso de bases de dados. A seleção do solvente deve considerar, também, a toxicidade, o poder de solubilização, a seletividade, a taxa de dissolução, a reativi- dade química e o pH, sendo o solvente ideal aquele que apresentar a menor toxicidade com o maior poder de solubilização.82,98 A mistura metanol-água tem sido amplamente utilizada em estudos metabolô- micos devido a sua menor seletividade, sendo capaz de extrair uma ampla gama de metabólitos tais como açúcares, ácidos orgânicos, alcaloides, compostos fenólicos, dentre outros.82 Se possível, a introdução de extratos brutos (devidamente diluí- dos) diretamente no equipamento analítico evita etapas tais como a evaporação e redissolução de amostra. Para a RMN, existe um menor número de limitações na escolha do solvente extrator, embora solven- tes de média polaridade sejam frequentemente escolhidos, a exemplo das misturas de metanol:água. Para CG-EM, a escolha do solvente é limitada às características dos compostos voláteis. Nesse caso, para a análise de metabólitos polares, etapas adicionais de derivatização são imprescindíveis. Para as misturas aquosas, o monitoramento do pH é fundamental para se evitar a formação de artefatos durante o processo de extração. Maltese e colaboradores99 demonstraram os efeitos da água e outros solventes nesse processo. Além disso, o pH está diretamente associado aos resultados de análise, podendo afetar os deslocamentos químicos de hidrogênios lábeis em RMN, tempos de retenção em CLAE e a ionização de compostos em espectrometria de massas, principalmente na ionização por eletrospray (ESI-EM). O uso de tampões possibilita minimizar esses efeitos na RMN, embora para CLAE-EM cuidados adicionais devem ser tomados para se evitar a precipitação de sais metálicos na fonte de ionização. Sistemas bifásicos compostos por clorofórmio:metanol:água na proporção de 2:1:1 (v/v) têm se mostrado eficiente tanto na extração de compostos polares quanto apolares. O trabalho proposto por Lisec e colaboradores100 é um dos mais aplicados em metabolômica de plantas utilizando de CG-EM (Figura 3). Resumidamente, em 100 mg de material fresco é adicionado uma mistura clorofórmio:metanol:água (2:1:1), seguido pela separação da fase polar (contendo açúcares, álcoois, ácidos orgânicos, aminoácidos, aminas e um conjunto com- plexo de compostos oriundos do metabolismo secundário), da fase lipofílica (rica em fosfolípides, triglicerídeos, ácidos graxos, terpenos e outras classes de menor polaridade do metabolismo secundário). A CLAE-EM é o método preferencial para análise de perfis metabólicos semi-polares, tais como glucosinolatos, saponinas, alcaloides, poliaminas, ácidos fenólicos e flavonoides.101 De Vos e colaboradores102 propuseram um protocolo de extração partindo de 500 mg de material vegetal fresco com adição de 1,5 mL de metanol acidificado (99,875% metanol e 0,125% de ácido fórmico), Figura 3. Esse protocolo estabelece uma relação de 3:1 entre a razão do volume de solvente e o material fresco e resulta em uma concentração final de 75% de metanol e 0.1% de ácido fórmico, assumindo que o ma- terial vegetal apresenta um conteúdo de 95% de água. É interessante destacar que o metanol pode ser substituído pela a mesma proporção em acetona. O extrato é diretamente analisado por CLAE-EM em fase reversa, embora ele possa ser concentrado usando de rotaevapo- radores ou speed vacuum. Esse método de extração foi eficiente na análise de plantas incluindo Arabidopsis, tomate, batata e morango, dentre outros.102–105 Por fim, o protocolo desenvolvido por Kim e colaboradores78 explora a análise de metabólitos secundários, como os compostos fenólicos, e primários, como açúcares e aminoácidos, utilizando 1H RMN. Esse método contempla a extração do material vegetal com uso de solvente deuterado (MeOH-d4) em tampão fosfato de sódio pH 6,0, Figura 3. Equipamentos para melhorar a taxa de difusão e adsorção de solventes na matriz vegetal têm aumentado consideravelmente a eficiência de extração.106 A extração assitida por ultrassom tem se Pilon et al.334 Quim. Nova mostrado eficiente e eficaz devido a simplicidade, rapidez e baixa limitação em relação aos tipos de solventes utilizados. Ao contrário da extração assistida por micro-ondas (dependente de solventes sen- síveis à energia da radiação em micro-ondas), o ultrassom não leva a problemas de superaquecimento de amostra, evitando explosões e degradação de compostos voláteis. Em geral, o tempo de extração e o uso de variações da temperatura levam a um maior número de compostos extraídos; no entanto, eles aumentam as chances de reações e aceleram o processo de degradação.82 PRÉ-TRATAMENTO DE AMOSTRAS E AQUISIÇÃO DE DADOS Pré-tratamento das amostras Uma vez que os extratos são obtidos, a próxima fase envolve a seleção do método analítico. Nessa etapa, é fundamental a escolha de uma técnica reprodutível, simples e rápida, permitindo a detecção de analitos em diferentes concentrações. Tanto em cromatografia líquida quanto em cromatografia gasosa, a remoção de interferentes é realizada por cartuchos de extração em fase sólida (SPE – solid-phase extraction). A seleção e preparação dos cartuchos baseia-se em princípios cromatográficos, como solubilidade e adsorção, e podem ser otimizados também no fracionamento seletivo das amostras. A ampla variedade de adsorventes em sílica gel ou resinas sintéticas modificadas (fase reversa: C2, C8, C18, fenil; fase normal: ciano, NH2, diol; troca iônica: sax, scx e wcx; adsortivas: alumina e florisil) permitem a separação de grupos específicos de metabólitos. Partições do tipo líquido-líquido são utilizadas para a separação de substâncias e a obtenção de frações enriquecidas. O uso sequencial de solventes com o aumento de polaridade concentra as diferentes classes metabólicas. Já o aumento da volatilidade de açúcares e outros compostos polares para a análise em CG-EM pode ser realizado por reações de derivatização.107 Muitos protocolos foram desenvolvidos nas últimas décadas,107–110 principalmente reações de acilação, oxi- mação, sililação e esterificação. Tipicamente, as derivatizações ocorrem em duas etapas: a metoxi- mação, na qual a metoxiamina reduz a ciclização de açúcares e protege os grupos carbonila. Em seguida, ocorre a sililação, na qual derivados de trimetilsilano substituem hidrogênios ácidos por grupos silanóis, reduzindo o ponto de ebulição do analitos. Dentre os agentes sililantes mais comuns estão o bis-(trimeltilsilil)trifluoroacetamida (BSTFA) e o N-metil-N-(trimetilsilil) trifluoroacetamida (MSTFA).109,111 Na sililação, os efeitos de BSTFA e MSTFA são similares, embora os derivados de MSTFA possuam um menor ponto de ebulição e, con- sequentemente, um menor tempo de retenção comparado ao BSTFA. Isso é importante no momento da escolha das bases de dados para correspondência espectral e por tempo de retenção.112 Figura 3. Protocolos padrão de preparação de amostra mais utilizados em metabolômica por CLAE-EM, CG-EM e RMN. 1amostragem, pesagem e inibição enzimática; 2uso de moinho de bolas por 2 minutos a 20 Hz, 3consiste das etapas de C a G no protocolo de Lisec e colaboradores (2006); 4centrifugação por 15 minutos a 2000 x g Metabolômica de plantas: métodos e desafios 335Vol. 43, No. 3 A remoção de interferentes dos solventes ou de partículas in- solúveis é outro fator fundamental para a qualidade dos resultados. Independente da técnica de separação utilizada, recomenda-se filtrar todos os reagentes e extratos. Para CLAE, as membranas mais uti- lizadas são de PTFE hidrofílica de 0,45 e 0,22 µm, para solvente e amostra, respectivamente. Em RMN, a presença de interferentes é ainda mais preocupante, uma vez que a maioria dos estudos por essa técnica não utiliza de uma etapa prévia de separação e os sinais dos contaminantes podem interferir na interpretação dos compostos relevantes. A remoção de partículas suspensas (material insolúvel) é essencial para a homoge- neidade de campo, garantindo qualidade do shimming e, consequen- temente, resolução dos deslocamentos químicos. Essas partículas são comumente removidas por centrifugação a 13000 rpm ou por filtração (PTFE). Dentre os interferentes mais comuns, destacam-se os açúcares livres (multipletos entre 3,0 - 5,0 ppm), os ácidos graxos (1,0 - 1,3 ppm) e os ftalatos (7,0 - 8,0 ppm). Instrumentação analítica Devido à falta de uma técnica capaz de analisar todo o conteúdo do metaboloma, diversos métodos analíticos vêm sendo empregados complementarmente, com o objetivo de se minimizar as deficiências individuais das ferramentas analíticas, e assim aumentar o nível de separação, detecção, estabilidade, resolução, sensibilidade, veloci- dade e a amplitude do intervalo dinâmico de detecção.113 Dentre as técnicas mais comuns, destacam-se a cromatografia gasosa e líquida acoplada a espectrometria de massas (CG-EM ou CLAE-EM, respectivamente), a injeção direta em espectrometria de massas (ID-EM) e a ressonância magnética nuclear (RMN). Porém, outras técnicas como a eletroforese capilar acoplada a espectrome- tria de massas (EC-EM),114,115 cromatografia em camada delgada de alta eficiência (HPTLC - High performance thin-layer chromato- graphy)116–118 e a cromatografia líquida com detecção por arranjos de diodos (CLAE-DAD)119,120 também são utilizadas na análise de extratos de plantas, com aplicações metabolômicas significativas. A Tabela 2 mostra algumas das plataformas analíticas em uso nos estudos metabolômicos de plantas. Cromatografia em fase gasosa acoplada a espectrometria de massas (CG-EM) A cromatografia em fase gasosa acoplada à espectrometria de massas foi a primeira técnica analítica utilizada para detecção e quantificação de compostos voláteis e semi-voláteis (< 650 Da)126,127 em estudos metabolômicos. Ácidos orgânicos, álcoois, aminoácidos, ácidos graxos, esteróis, catecolaminas e outros produtos naturais, fármacos e toxinas podem ser analisados por CG-EM, mas necessitam Tabela 2. Exemplos de estudos de metabolômica em plantas Amostra: propósito da análise Tipo Método Tratamento de Dados Ref. Maçã: mudanças na casca induzidas por luz Untargeted CG-EM; CLAE-EM PCA 121 Frutas Vermelhas: composição de polifenóis Targeted CLAE-EM; DIEM Identificação de compostos 121 Brocolis, mostarda e rabanete: composição de glicosinolatos Targeted CLAE-EMn Identificação de compostos 121 Brocolis: diferenciação de variedades Untargeted CLAE-UV-EM; DIEM PCA; ANOVA 121 Ginseng: diferenciação de variedades Untargeted RMN PCA 121 Chá verde: qualidade do chá Untargeted CLUE-EM PCA; PLS 121 Verbascum: diferenciação de espécies Metabolic Profiling RMN PCA 122 Ilex: diferenciação de espécies/adulterantes Metabolic Profiling RMN PCA 122 Lonicera: diferenciação de espécies Metabolic Profiling CLAE-EM PCA; SVM 122 Glycyrrhiza: classificação genética e origem geográfica Metabolic Profiling CG-EM; CLAE-EM; NMR PCA 122 Curcuma: diferenciação de espécies Metabolic Profiling CG-EM PCA; PLS-DA 122 Angelica acutiloba: controle de qualidade Metabolic Fingerprint CG-EM PCA; PLS-DA 122 Hypericum perforatum: controle de qualidade em preparações comerciais Metabolic Profiling CLUE-EM PCA 122 Polygonum: controle de qualidade em preparações comerciais Metabolic Profiling RMN PCA 122 Echinacea: efeito inibitório em Citocromo P450 3A4 Metabolic Profiling RMN PLS 123 Artemisia: atividade anti-plasmoidal Metabolic Profiling RMN PCA 123 Galphimia: Atividade Sedativa Metabolic Profiling RMN PLS-DA 123 Orthosiphon: atividade ligante ao receptor adenosina A1 Metabolic Profiling RMN PLS 123 Arabdopsis thaliana: genes da família sintase alanina Untargeted CG-EM; EC-EM PCA, teste t 124 A. thaliana: ligação entre perfil metabólico e acumulo de biomassa Untargeted CG-EM Correlação de Pearson 125 Protocolos Aplicação Método Tratamento de Dados Ref. De Vos et al., 2007 Untargeted CLAE-EM Correlação de Pearson; Mapas de calor 102 Kim et al., 2010 Classificação, estresse e Discriminação de espécies RMN PCA 72 Lisec et al., 2006 Metabolic Profling CG-EM Identificação de compostos 100 Pilon et al.336 Quim. Nova de uma etapa de derivatização, como já mencionado no tópico de pré-tratamento de amostras.128 A maioria dos trabalhos utilizando CG-EM em metabolômica de plantas utilizam de fonte de ionização por elétrons (para fins de padronização da fragmentação) e poucos têm feito uso de analisadores de massas de alta resolução. Os principais protocolos de GC-EM utilizam de colunas capilares de sílica fundida composta por 5% de grupos fenil ou 100% de polidimetilsiloxano junto com uma pequena coluna de guarda para aumentar a sensibilidade.128,129 Uma das vantagens do uso da CG-EM consiste no processo de identificação molecular baseada na combinação de informações ortogonais, isso é, o uso de tempos ou índices de retenção de com- postos combinados às informações espectrais de massas obtidos sob uma energia padronizada de ionização (usualmente 70 eV).128,129 Essa combinação não é só importante por ser altamente sensível e reprodutível, mas principalmente por possibilitar o desenvolvimento de bibliotecas de compostos (padrões) para identificação estrutural de picos cromatográficos. A biblioteca NIST14 (Mass Spectral Library collection of the U.S. National Institute of Standards and Technology) é composta por mais de 240 mil estruturas moleculares. A GMD, ou Golm Metabolome Database, mantida pelo Max-Planck Institute of Plant Physiology é uma base de dados dedicada à experimentos de metabolic profiling de plantas com mais de 1400 substâncias de referência obtidos in-house. A principal vantagem dessa base é ser de acesso aberto, integrada à outras bases de dados, e desenvolvida para experimentos do metabolismo vegetal.130 As bibliotecas em CLAE- EM/EM são significantemente menores. A mesma NIST14 conta com apenas 8171 compostos em sua biblioteca CLAE-EM/EM enquanto a Metlin131 apresenta aproximadamente 12 mil compostos, sendo que ambas não possuem valores de tempo de retenção.128 Os dados espectrais obtidos por cromatografia gasosa acoplada a espectrometria de massas podem ser processados em ferramentas e softwares livres como o Automated Mass Spectral Deconvolution Software (AMDIS). Esse software pode processar várias extensões de arquivos, abrangendo toda a gama de marcas comerciais de cro- matógrafos, como Bruker, Agilent, Thermo, Shimadzu, etc. AMDIS também possui algoritmos específicos de deconvolução espectral a partir de picos cromatográficos e funções que permitem a comparação dos espectros deconvoluídos com bibliotecas de espectros puros.132 Vale ressaltar que a CG-EM é capaz de analisar compostos com massa até aproximadamente 650 Da e que a metabolômica visa con- templar substâncias com até 1500 Da. Além disso, a CG-EM possui grandes dificuldades para a análise de fosfatos (Bis, Di e Tri, NADH ou ATP), enquanto os monofosfatos podem ainda ser observados via derivatização com trimetilsilano. Outra desvantagem do uso da CG-EM em estudos metabolômicos está na análise de aminas bio- gênicas, principalmente em estudos do metabolismo primário para a avaliação de aminoácidos. Essas funções podem sofrer efeitos de matrizes e afetar a altura e os valores absolutos das intensidades de pico devido as diferentes formas de derivatização dos grupos amino. Para esses casos, é importante avaliar as condições de limpeza do injetor, liner, seringa e os primeiros 15 cm da coluna.128,130 Cromatografia líquida acoplada a espectrometria de massas (CLAE-EM) A Cromatografia Líquida de Alta Eficiência (CLAE) é a téc- nica analítica de separação mais recente para aquisição de perfis cromatográficos, podendo ser acoplada a diferentes analisadores e detectores.133 O processo de separação em CLAE procede através dos diferentes estados de equilíbrio entre analito e as fases móvel (sol- ventes orgânicos e aquosos) e estacionária (coluna cromatográfica).134 Em metabolômica, essa técnica se tornou especialmente impor- tante a partir do início dos anos 90 após o seu acoplamento a fontes de ionização em pressão atmosférica (APCI – atmospheric-pressure chemical ionization, APPI - APCI – atmospheric-pressure photo ionization e ESI – electrospray ionization). Dentre os métodos de ionização em pressão atmosférica “brandos”, a ESI é o método de escolha para a maioria dos estudos metabolômicos, permitindo a formação de espécies protonadas, desprotonadas, adutos e em casos particulares, íons moleculares a partir da remoção de elétrons.135 A ESI possui uma maior extensão de ionização e detecção de compostos polares e moléculas com maior peso molecular quando comparado a APCI e APPI.136–138 No entanto, um problema comum em estudos metabolômicos é a busca pela molécula protonada ou desprotonada. É importante destacar que o balanço entre as espécies formadas pode ser modificado, mas é, antes de mais nada, uma propriedade físico-química do analito. Determinadas estruturas sequer formam o íon protonado, mesmo em condições de pH < 2.139 Com o desenvolvimento dos analisadores do tipo time of flight (ToF), Orbitrap e FT-ICR, foi possível obter espectros em alta resolução e a determinação de fórmulas elementares a partir dos valores de massa/carga dos íons detectados, auxiliando o processo de identificação e quantificação de metabólitos – fundamentais para qualquer estudo metabolômico. Além do poder de resolução, muitas configurações instrumentais permitem a fragmentação de metabóli- tos através de câmaras de colisão, como a dissociação induzida por colisão (CID). A Tabela 3 resume a performance de analisadores de massas utilizados em estudos metabolômicos.136 Diferentes tipos de coluna (dimensões e química da fase ligada) podem ser utilizados. Para análises exploratórias, as colunas de fase reversa C8 e C18 são preferencialmente utilizadas devido ao melhor poder de resolução para os compostos de média polaridade em matri- zes biológicas. A CLAE-EM é adequada para análise de compostos semi-polares (50-1500 Da) sem a necessidade de qualquer tipo de derivatização. Em plantas, a CLAE-EM é utilizada para análise de diversos grupos de metabólitos secundários, como alcaloides, sapo- ninas, ácidos fenólicos, fenilpropanoides, flavonoides, glicosinolatos, poliamidas, terpenos, esteróis e derivados.133 Tabela 3. Parâmetros de eficiência e quantificação dos modernos espectrômetros de massas para pequenas moléculas EM Poder de Resoluçãoa Exatidão de massas (ppm) Taxa de varredura Limite de Detecçãob QqQ Res. Unit.c 50 Moderado fg-pgd (SRM) QIT 10000 50 Moderado fg-pg (SRM) LIT 10000 50 Rápido pg (SRM) IT-ToF/QToF 20000 3 Rápido/Moderado pg (varredura completa) Alta Resolução-ToF 60000 2 Rápido pg (varredura completa) Q-Orbitrap/LTQ-Orbitrap 140000 2 Moderado fg-pg (varredura completa) LTQ-FTICR/Q-FTICR 1000000 0 Lento/Lento fg-pg (varredura completa) a: poder de resolução depende do intervalo de m/z e a taxa de varredura do instrumento. Valores aqui são obtidos em 400.28. b: sensibilidade depende fortemente da eficiência de ionização do composto na fonte de ionização. c: resolução unitária. d: fg e pg refere-se a femtograma e pictograma, e SRM refere ao monitora- mento de reações selecionadas. Metabolômica de plantas: métodos e desafios 337Vol. 43, No. 3 É importante destacar que o número de metabólitos primários disponíveis comercialmente é expressivamente maior que produtos do metabolismo secundário. Consequentemente, a elucidação estru- tural por uso de padrões internos é inviável e limitaria o potencial da CLAE-EM na pesquisa de plantas. Nesse sentido, uma série de softwares e serviços online oferecem ferramentas de extração de pico (métodos de deconvolução), alinhamento, remoção de efeitos indesejados (efeitos de matriz) e principalmente, ferramentas para visualização e tratamento de dados, como é o caso de Mzmine2,140 XCMS141 e o GNPS.140–143 Para o desenvolvimento e a otimização do método cromato- gráfico, diversas variáveis podem ser avaliadas, incluindo o modo cromatográfico (normal, reverso, troca iônica, HILIC, etc.), o tipo de coluna (largura, comprimento, diâmetro do poro, dimensão interna, composição da fase estacionária, etc.), o detector (UV-VIS, CAD, FLU, EM, EM/EM, RMN), parâmetros físico-químicos (temperatu- ra, pressão, vazão do da fase móvel) e a composição da fase móvel (seletividade, classe de solvente, proporção da mistura e presença de modificadores). Estes parâmetros são comumente testados em análise exploratória isocrática ou em gradiente, permitindo a otimização através da variação singular das variáveis. Na análise sistemática, planejamentos fatoriais são aplicados, como descrito no tópico pla- nejamento experimental, objetivando a visualização das interações entre as variáveis testadas. Eletroforese capilar acoplada a espectrometria de massas (EC- EM) A EC, apesar de ser uma técnica menos difundida nos laboratórios de química de produtos naturais, também exerce um papel importante em estudos metabolômicos. A EC-EM se caracteriza pela separação de compostos com o uso de campos eletromagnéticos em fase lí- quida condutiva resultando em um fluxo eletro-osmótico.133,134,136 A EC utiliza colunas capilares de sílica e sua eficiência de separação é comparável aos sistemas de CLUE (cromatografia líquida de ultra eficiência) e CG. A grande vantagem da EC-EM é a possibilidade de análise de ampla faixa de metabólitos de íons inorgânicos (ainda pouco explorado em metabolômica) até grandes proteínas. Como a separação da EC se baseia na relação massa/carga, o poder de reso- lução e separação é muito alto, alcançando a distinção de isômeros e diastereoisômeros.134,136 A EC é uma técnica rápida, de baixo custo, que requer pequeno volume de amostra e pouca ou nenhuma preparação de amostra. Embora possua uma série de vantagens, existem algumas limitações da EC no acoplamento a fontes de ionização à pressão atmosférica. A adição de solventes adicionais e tampões de baixa volatilidade, podem contaminar e aumentar a supressão de ionização dos analitos no acoplamento com ESI.134,136 Dessorção/ionização a laser auxiliada por matriz (MALDI-EM) e Infusão direta a espectrometria de massas (ID) A dessorção/ionização a laser auxiliada por matriz137 (MALDI) é uma técnica que vem ganhando espaço no campo da metabolômica 131,138 principalmente pela alta velocidade de análise144,145 e pela pos- sibilidade de gerar “imagens” de íons em tecidos biológicos,133,146 incialmente em animais e, mais recentemente, em plantas.147,148 Devido à possibilidade de focalização, potência laser e a boa resolução do MALDI (íons), os dados gerados podem ser correlacionados a diferentes escalas de cores e, através da sobreposição com fotogra- fias, é possível gerar mapas e imagens espectrais. De fato, existem outras técnicas de imagem por massas tal como espectrometria de massas por íons secundários (SIMS) e a ionização de dessorção por eletronebulização (DESI). Enquanto a SIMS possui uma resolução numa escala de µm, o MALDI e DESI possuem resoluções piores.133 Embora seja uma técnica de alta sensibilidade, alta velocidade de varredura e uma menor influência de contaminantes, o MALDI apresenta alguns contrapontos como a necessidade de otimização dos parâmetros instrumentais para cada tipo de metabólito, isso é, configuração da intensidade, frequência e foco do laser, número de tiros aplicados por área, composição da matriz, etc. A infusão direta (ID) consiste na técnica de injeção de uma amos- tra diretamente na fonte de ionização. Em metabolômica, essa técnica é utilizada em fontes de ionização a pressão atmosférica (ionização branda) uma vez que causa uma menor taxa de fragmentação dos íons, resultando em espectros menos complexos. Contudo, essa é a abordagem menos utilizada uma vez que se baseia nos valores de mas- sa/carga, sem dados ortogonais (índice de retenção), que permitiria a detecção de isômeros que possuem tempos de retenção distintos, além dos efeitos de supressão de sinal e de matriz.133 Outras considerações sobre o uso da espectrometria de massas em metabolômica Independente da técnica de separação que precede a análise por espectrometria de massas (CLAE, EC ou CG), recomenda-se a adi- ção de uma solução calibrante em cada análise visando ao ajuste da exatidão de massas/cargas dos íons detectados em intervalo de peso molecular.134,136 Esse processo é particularmente importante para ana- lisadores de massas de alta resolução como Orbitrap, FT-ICR e ToF. Os compostos FC-43 (perfluorotributilamina) e ácido trifluoracético sodiado (Na-TFA), estão entre os calibrantes mais utilizados em me- tabolômica. Em alguns casos, um conjunto separado de injetores pode realizar a adição contínua de calibrante nas amostras para correção automática dos desvios de massas/cargas (lock mass). Para análises quantitativas em espectrômetro de alta resolução, além do calibrante, deve-se garantir um tuning adequado do espectrô- metro, bem como adição de padrão interno de concentração conhecida, permitindo cálculo preciso da área relativa e, consequentemente, da concentração metabólica dos sinais em uma amostra. Diversos softwa- res estão disponíveis para o pré-tratamento de amostras para análise quantitativa149 como MS-Dial,150 MarkerView (Sciex, EUA), Compound Discoverer (ThermoFisher Scientific, EUA), Data Analysis (Bruker, Alemanha), XCMS,141 MetaboAnalyst151 e MZmine 2,140 sendo os protocolos de aquisição de validação disponíveis na literatura.152–154 Ressonância magnética nuclear A ressonância magnética nuclear (RMN) é uma técnica quali- tativa e quantitativa altamente reprodutível e não seletiva, ou seja, não depende das características químicas dos compostos observados, como polaridade e acidez (pKa).155 Em metabolômica, experimentos de RMN uni- e bidimensionais vem sendo extensamente empregados devido a sua alta reprodutibilidade e fácil preparo de amostras, forne- cendo informações a respeito da estrutura de diferentes compostos, incluindo metabólitos inéditos, isômeros ou substâncias de difícil ionização ou derivatização para análise por EM.155 Nas últimas décadas, a RMN tem sido aplicada majoritariamente a estudos metabolômicos ao possibilitar a análise simultânea de di- versos grupos de metabólitos secundários (flavonoides, alcaloides, terpenoides, etc) e primários (açúcares, ácidos orgânicos e aminoáci- dos), assim como a comparação direta da concentração dos compostos sem a necessidade de se elaborar curvas de calibração, o que requer o uso de substâncias de referência de alto grau de pureza, muitas vezes raras e de difícil obtenção. Em RMN, o cálculo de quantificação necessita da presença de um sinal de composto de concentração conhecida em todas as amostras analisadas, sendo que esse sinal pode ser obtido por (a) adição de padrão interno; (b) adição artificial de sinal após aqui- sição por método ERETIC (Electronic REference To access In vivo Pilon et al.338 Quim. Nova Concentrations);156 (c) adição artificial de sinal após aquisição por QUANTAS (QUANTification by Artificial Signal);157 ou adição de sinal residual de solvente protonado. No caso da adição de um padrão interno, esse deve ser cuidado- samente selecionado, devendo ser estável no solvente deuterado, não ser reativo ou possuir sinais residuais de água, higroscópio, volátil, e apresentar sinais junto dos sinais das amostras. Esses pré-requisitos são imprescindíveis para garantir a seletividade, precisão e acurácia do método, tornando a quantificação reprodutível e confiável.158 Durante a aquisição de dados para análise quantitativa, diversos parâmetros experimentais devem ser otimizados, incluindo a ca- libração do pulso, homogeneidade do campo, tunning, número de scans (NS) e tempo de relaxamento T1, sendo o último estimado por sequência de pulso inversão-recuperação. Todas as etapas para otimização foram detalhadamente descritas por Giraudeau e colabo- radores e devem ser realizadas em réplicas para garantir uma resposta significativa.159 Diversas revisões relatam os processos de validação e podem ser encontradas nos trabalhos de Pauli et al. (2012, 2014),160,161 Gödecke et al.,162 Maniara et al.163 e Malz & Jancke.164 A aplicação de RMN possui algumas limitações, sendo a maior delas a baixa sensibilidade e a dificuldade de acoplamento com téc- nicas de separação. Entretanto, vários avanços em instrumentação, hardwares e softwares tem aumentado consideravelmente a sensibi- lidade da RMN. A potência de magnetos, aumentando a população da resultante magnética de spins, o advento das criossondas, que diminuem o ruído instrumental aumentando a sensibilidade em até 16 vezes e a miniaturização da amostragem com tubos de até 1,6 mm, tem aumentado consideravelmente a sensibilidade de experimentos, chegando a ordem de microgramas. As amostras de RMN para metabolômica são preparadas em solventes deuterados, como metanol-d4, DMSO-d6, D2O e CDCl3, centrifugadas e transferidas a tubos de 5 mm de diâmetro. Tubos de 1-3 mm também estão disponíveis, sendo utilizados para espectrô- metros com sondas específicas (criossondas).165,166 A presença de macromoléculas e traços de água também limitam a técnica de RMN, sendo fundamental a seleção e otimização de se- quências de pulso e os respectivos parâmetros experimentais para a sua supressão. Sequências que realizam a supressão do solvente ou sinal da água são comumente selecionadas para aumentar o ganho (gain), permitindo, consequentemente, maior e melhor detecção e análise de metabólitos minoritários. A supressão do sinal da água é realizada pelas sequências do tipo WATERGATE (Gradient-tailored excitation for single-quantum NMR),167 pré-saturação e excitation sculpting water suppression.168 Para minimizar a presença de sinais alargados no espectro de ressonância devido ao baixo tempo de relaxação do T2 e difusão rotacional limitada de macromoléculas, sequências como 1D nuclear Overhauser effect spectroscopy com pré-saturação (1D NOESY-presat)169,170 e 1D Carr-Purcell-Meiboom- Gill (CPMG)171 podem ser empregadas. Em 1D NOESY-PRESAT, a sequência de pré-saturação causa supressão do sinal da água en- quanto a CPMG remove sinais alargados de proteínas, diminuindo o alargamento dos sinais. Além dos experimentos realizados para o núcleo de hidrogênio (monodimensionais), existem sequências que ajudam na identificação dos metabólitos e determinação de suas conectividades. J-resolved,172 correlation spectroscopy (COSY), total correlation spectroscopy (TOCSY), heteronuclear multiple bond correlation (HMBC) e heteronuclear single quantum correlation (HSQC)173,174 informam de maneira detalhada a disposição e correlação dos sistemas de spin, sendo atualmente utilizadas para fins de elucidação estrutural em estudos metabolômicos. Ferramentas computacionais e workflows em metabolômica Na última década, um grande número de pacotes vem sendo relatados envolvendo os estudos metabolômicos. Tais ferramentas podem fornecer guias operacionais automatizados e padronizados para o pré-processamento de dados (por exemplo, alinhamento, deconvolução e normalização de dados), análises estatísticas uni e multivariadas, identificação metabólica e ferramentas de visualização, como a modelagem por redes metabólicas. A Sociedade de Metabolômica publicou em 2017, em sua revista (Metabolomics), um trabalho avaliando as principais ferramentas metabolômicas utilizadas pelos grupos de pesquisa que pertencem a sociedade.175 Esses pacotes e serviços são mostradas na Tabela 4. PRÉ-PROCESSAMENTO DOS DADOS O pré-processamento dos dados é uma etapa intermediária entre a aquisição dos dados obtidos através da metodologia analítica esco- lhida e a análise estatística. Ela visa melhorar a qualidade dos sinais e reduzir a interferência de ruídos, tornando os dados comparáveis entre si. A rotina de pré-processamento é necessária para garantir a detecção e a quantificação de picos de alta qualidade, sendo o seu maior objetivo a transformação dos dados em uma matriz robusta, eliminando alterações que acontecem devido às variações na amostra e no equipamento, como diferença na concentração de sais, tempe- ratura e pH.199–202 Algumas funções de pré-processamento são específicas para cada técnica analítica, como é o caso do faseamento e referenciamento nos espectros de RMN. Outras, entretanto, são gerais para todas as matrizes de dados, podendo aplicar diferentes funções e algoritmos para otimização do resultado. A Figura 4 mostra um fluxograma des- crevendo algumas das etapas de processamento que serão discutidas nas próximas seções. Pré-processamento de dados cromatográficos e de espectrometria de massas Os dados de CLAE-EM ou CG-EM são um conjunto de vetores gravados durante pequenos intervalos de tempo sucessivos, em que cada ponto consiste em valores de m/z e intensidade. Uma vez que cada instrumento fornece dados em diferentes formatos, diferentes ferramentas são utilizadas para conversão dos dados brutos.203–205 A rotina de pré-processamento para dados de CLAE-EM ou CG-EM é baseada na detecção de picos e, portanto, requer funções robustas e reprodutivas para as três dimensões dos dados, ou seja, tempo, m/z e intensidade. Os algoritmos devem ser capazes de detectar picos mesmo com baixa razão sinal/ruído (S/N), simultaneamente filtrando qualquer interferência.141 Um pré-processamento inadequado resulta em um conjunto de dados que exibe desvios substanciais, impossibi- litando a conclusão dos dados químicos e biológicos.206 Filtração de ruído (denoiesing) Devido à complexidade do perfil químico e a baixa reprodu- tibilidade dos instrumentos cromatográficos, diversas funções de pré-processamento foram desenvolvidas para garantir o bom ali- nhamento e resolução dos picos em análises de CLAE-EM. Dentre essas, a filtração ou subtração da linha de fundo acontece no domínio cromatográfico e visa diminuir o ruído proveniente de interferências instrumentais,207 Figura 4. As funções mais comumente utilizadas para a diminuição do ruído são a filtração combinada (matched filtration),141 que se baseia na aplicação de um filtro cujo coeficientes são iguais à extensão da forma do sinal, ou a filtração pela mediana em uma janela de tamanho determinado. Independente da função, recomenda-se que a filtração Metabolômica de plantas: métodos e desafios 339Vol. 43, No. 3 Tabela 4. Ferramentas computacionais frequentemente utilizadas em metabolômica Pacotes e Serviços web Conteúdo Tipo Ref. Workflows/ Repositórios Galaxy Estratégias de análise e ferramentas para práticas de rastreamento, troca de informações entre usuários, laboratórios e plataformas Online/Livre 175 Taverna Desenvolvido para combinar e distribuir serviços Web ou ferramentas locais em estratégias de análises complexas Online/Livre 176 KNIME Análises de grandes conjuntos de dados e visualizações de alta qualidade Online/Livre 177 MetaboLights Base de dados para experimentos em metabolômica e informações relacionadas Online/Livre 178 Metabolomics Workbench Repositório público para meta-dados, dados experimentais, padrões metabólicos, protocolos, tutoriais e treinamento Online/Livre 179 Ferramentas e Base de Dados para EM (CLAE e CG) XCMS Alinhamento de tempos de retenção; filtração comparada; detecção de picos; comparação espectral e identificação molecular Online/Livre 137, 165 MzMine 2 Software adequado para o processamento de dados aplicados a análise de metabolômica alvo e não alvo Software/Livre 135, 165 7-Golden Rules Pacote para predição de moleculares a partir de peso molecular padrões isotópicos Software/Livre 180 BinBase Base de dados voltada para identificação estrutural Online/Livre 181 Global Natural Products Network (GNPS) Plataforma para análise e visualização de dados usando redes moleculares aplicados aos produtos naturais e peptídeos Online/Livre 143 LipidBank Base de dados em tecnologia orbitrap para análise de lipídeos Online/Livre 182 MMD database Dados de CLAE e CG-EM de pequenas moléculas Online/Livre 183 Mass Bank Fornece MS e MS/MS de compostos orgânicos para ciências da vida (<3000 Da) Online/Livre 184 MetFrag Plataforma online para identificação de moléculas a partir de espectros de massas (CLAE-EM) e ferramentas in silico Online/Livre 185 METLIN Plataforma para identificação de metabólitos conhecidos e desconhecidos e outras entidades químicas (CLAE-EM e EM/EM) Online/Livre 131 MzCloud Plataforma que disponibiliza dados de ESI-EM, APCI-EM e EM/EM de compostos orgânicos e inorgânicos Online/Livre 48 AMDIS Software utilizado para processamento de dados de CG-EM em conjunto com bases de dados como NIST Software/Livre 132 FiehnLib Base de dados de CG-EM com dados de índice de retenção de mais de 1000 metabólitos Comercial 130 Golm Metabolome (GMD) Plataforma com espectros de CG-EM de metabólitos de plantas e animais Online/Livre 186 NIST MS e retention Index Database Maior base de dados de espectros de IE-EM em valores de índice de retenção de compostos Banco de dados comercial 48 Ferramentas e Bases de Dados para RMN Bruker Topspin Software no qual fornece fácil acesso a bibliotecas de sequencias de pulso assim como executa ações em instrumentos e permite o processamento de dados Software/Comercial 175 MestreNova Software multidisciplinar adequado para análise e processamento de dados de RMN combinados a CLAE-EM e CG-EM Software/Comercial 187 NMRlab/MetaboLab Software de uso geral para tratamentos de dados de RMN (baseado em ambiente MATLAB) Software/Livre 188 rNMR Software de código aberto para análise de dados de RMN Software/Livre 189 ACD labs Aldrich NMR library Biblioteca de espectros de 13C e 1H RMN de compostos (>200.000) Software/Comercial 48 BioMagResBank - BMRB Espectros de 1H e 13C RMN de metabólitos de plantas e animais Online/ Livre 190 Bruker AMIX Espectros 1D e 2D NMR de metabólitos a múltiplos valores de pH Software/Comercial 48 Chenomx Inc. Software para processamento e análise de dados de RMN e conta com biblioteca de dados Software/Comercial 191 MetaboMiner Ferramenta metabolômica para o processamento de pico e rápida identificação metabólica por meio de espectros de TOCSY e HSQC Online/Livre 192 NAPROC-13 Base de dados de espectros de 13C RMN de >6000 produtos naturais Online/Livre 193 NMRShiftDB Base de dados com espectros de NMR de produtos naturais e compostos orgânicos Online/Livre 194 Outras Bases de Dados ChemBank Base de dados de pequenas moléculas com informações associadas à ensaios biológicos Online/Livre 195 Chemical Entities of Biological interest (ChEBI) Base de dados e ontologia molecular focada em pequenas moléculas Online/Livre 196 NuBBEDB Base de dados moleculares e espectrais dos produtos naturais da biodiversidade Brasileira Online/Livre 197 PubChem Base de dados de moléculas com bioensaios e atividades biológicas descritas Online/Livre 198 Pilon et al.340 Quim. Nova seja baseada em um espectro de massa em que não haja sinais de inte- resse (linha de base ou linha somente com ruído), evitando a remoção de sinais relativos às moléculas minoritárias ou fracamente ionizáveis. Alguns softwares disponíveis integram os algoritmos de filtragem e detecção de pico em uma única função, como, por exemplo, o pacote de XCMS, que usa a filtração combinada baseada na segunda derivada da função Gaussiana,141 o pacote de apLCMS, que realiza a filtração dos dados através do padrão de distribuição dos pontos208 e o sof- tware MAVEN.209 MZMine,140 Analyst,151 OpenMS210 e MetAlign,211 oferecem, além da filtração, diferentes funções de redução de ruído e smoothing, incluindo filtro Gaussian, Savitzky Golay e algoritmos de correção da linha de base.212,213 O Matched Filtration with Experimental Noise Determination (MEND)214 é uma função de filtração combinada utilizada em dados de CLAE-EM e explora as razões massa/carga (m/z) de áreas com ruído aleatório para melhorar o algoritmo de filtração. Para tanto, o algoritmo determina o ruído característico em região sem eluição de picos no cromatograma (linha de base) para, em seguida, correlacionar os m/z desse ruído com outras regiões do cromatograma, diminuindo drasticamente o ruído aleatório e a distorção da forma do pico no EM. Alinhamento Durante a aquisição dos dados de CLAE/CG-EM algumas variáveis aleatórias, como pH, mudanças na temperatura, vazão ou concentração da fase móvel, presença de sais, efeito de matrizes, degradação da coluna cromatográfica entre outras, podem levar a variações não-lineares na eluição de um mesmo analito ao longo do tempo. Na prática, essas variações causam alterações indesejadas nas etapas subsequentes de análise dos dados, devendo ser minimizadas por algoritmos de alinhamento,6,141 como pode ser visualizado na Figura 4. De maneira simples, os algoritmos de alinhamento podem ser divididos em duas classes: o alinhamento baseado em uma referência (feature-based approaches), ou seja, valores estabelecidos de tempos de retenção para determinado metabólito presente nas amostras e, o segundo, conhecido como profile-based approaches, em que o alinhamento é realizado durante a detecção dos picos, estimando a variabilidade de sinais semelhantes ao longo dos cromatogramas de todas as amostras de uma matriz.207,215 Existem diversas funções para o processo de alinhamento, destacando a Dynamic Time Warping (DTW),216 Correlation Optimized Warping (COW),217 Recursive Alignment Fast Fourier Transform (RAFFT)218 e o Peak Alignment by Fast Fourier Transform (PAFFT).218 Essas funções estão disponíveis em praticamente todos os softwares de análise de dados de CLAE-EM, como o XCMS,141 SpecAlign,219 RANSAC,220 OpenMS,210,221 msInspect,222 SpecArray,223 XAlign,224 MetAlign211 e MZMine 2.140 O COW é um dos principais métodos de alinhamento em CLAE-EM, pois utiliza programação dinâmica como função alvo.216,217 Nesse algoritmo, os cromatogramas são divididos em segmentos de mesmo tamanho e, baseado em uma referência cromatográfica, os outros cromatogramas são alinhados por funções de estiramento e compressão linear.218,222,225 Detecção de picos (deconvolução, peak picking, deisotoping and gap filling) A finalidade da detecção de um sinal é extrair informações robustas para a elucidação e quantificação dos metabólitos em uma amostra. Idealmente, um método de detecção deve identificar sinais verdadeiros e evitar falsos positivos, reduzindo a complexidade dos dados e tornando a análise viável.212,226 Durante a detecção dos picos, diferentes processos podem ser sistematicamente realizados, incluindo: (i) a determinação automática ou manual de sinais de interesse por algoritmos de peak picking,227,228 (ii) a aplicação de algoritmos de deconvolução em sinais que eluí- ram simultaneamente durante a corrida,229–233 (iii) o deisotoping ou identificação dos sinais isotópicos, removendo informações redun- dantes207,234,235 e o (iv) gap filling ou recuperação de sinais fracos, que refere-se a recuperação de sinais que não foram detectados durante o Figura 4. Fluxograma das possíveis etapas de processamento de matrizes biológicas em estudos metabolômicos Metabolômica de plantas: métodos e desafios 341Vol. 43, No. 3 peak picking devido à baixa intensidade, falta de qualidade da forma do pico ou erro do algoritmo de detecção. A detecção de picos por algoritmos de peak picking permite a identificação de um sinal em determinado tempo de retenção ou valor de m/z, indicando a sua altura, que é a máxima intensidade dos pontos, e sua área, definida como a soma das intensidades dos pontos (Figura 4). As funções para essa identificação utilizam dife- rentes estratégias, destacando o F-score (algoritmo centroidPicker) do MZmine 2,236 análise da largura do pico cromatográfico por cen- tWave237 e binning nos dados por função matched filter,141 podendo ser facilmente realizadas em softwares de processamento de dados como Open MS,210,221 apLCMS,208 MAVEN,209 VIPER,238 MZmine,140 Sirius,239,240 Decon2LS,240,241 e MS-Dial.149,150 Para a identificação dos sinais isotópicos, os softwares mais re- comendados são ApLCMS,208 msInspect,235 XCMS,141 DeconTools,241 e MetaboAnalyst,151 sendo essa etapa especialmente importante para a análise de peptídeos e proteínas. Mais comumente, os algoritmos integram sinais de íons originados da mesma molécula, originando um único sinal de massa monoisotópica.207 Por exemplo, o software DeconTools realiza a identificação dos sinais isotópicos através de três etapas que consistem na (i) identificação do padrão de isotopia, (ii) predição da carga com base na distância entre os picos e (iii) com- paração dos dados experimentais com os padrões teóricos, gerados pela média dos isótopos. MZmine 2 é o software mais utilizado para detecção dos dados espectrais de massas.140 Sua função de detecção de picos é dividida em (i) construção do cromatograma, que cria uma lista de massas em cada ponto tempo de retenção e (ii) deconvolução dos picos por quatro algoritmos distintos. Em ambos os passos, fica disponível um módulo de visualização, que pode ser utilizado para otimizar os parâmetros manualmente a qualquer momento.212 Normalização A normalização remove variações sistemáticas não desejadas entre amostras e permite a comparação quantitativa (absoluta ou proporcional) das amostras. Para estudos em matrizes naturais, como micro-organismos e plantas, essa etapa é particularmente relevante, pois as variações de concentração podem interferir na interpretação química e biológica das análises multivariadas.242 A eliminação do efeito da variabilidade pela normalização permite, por exemplo, a comparação entre sinais de duas amostras preparadas em concentrações distintas. Contudo é necessário o uso de um sinal de referência para a normalização de diferentes amostras.243 A metodologia mais utilizada para normalizar dados de CLAE-EM é através de fatores de escala, como valores de média ou mediana, ajustando as intensidades de acordo com o conjunto de dados. Outros modelos mais rigorosos também podem ser aplicados, como é o caso dos métodos de regressão,243 a utilização de padrões internos244 ou o uso de uma amostra (controle de qualidade), isso é, uma mistura que contém os metabólitos de todas as amostras analisadas.245 Para a metabolômica destacamos as seguintes formas de normalização: (1) Adição de padrão(ões) interno/externo: nessa normalização, um padrão de concentração conhecida é adicionado em cada amostra. Esse procedimento pode ser realizado de duas formas: (a) inclu- são de um padrão interno no solvente extrator para avaliação do processo de amostragem, extração e análise ou (b) na etapa de introdução da amostra no instrumento. Esse último visa apenas corrigir as variações instrumentais; (2) Normalização por área total: o fator de normalização aplicado a cada sinal da amostra (intensidade dos picos em CLAE-EM, CG-EM ou sinais de RMN) é calculado pela soma de todas as informações (sinais) correspondentes daquela amostra; (3) Normalização por quociente probabilístico: esse método leva em consideração a relação probabilística dos sinais de uma amostra frente a uma referência, ou seja, cada sinal de uma amostra é divi- dido pelo correspondente sinal de amostra referência gerando um quociente. Os valores resultantes são arranjados num histograma revelando qual é o quociente com maior frequência nas amostras, sendo esse valor escolhido como fator de normalização; (4) Normalização Quantil: esse método exige que todas as amostras de um conjunto amostral tenham a mesma intensidade/área. A diferença desse método aos demais é que não existe um fator único de normalização. Inicialmente, os dados (tabela de dados – CLAE-EM, CG-EM ou RMN) são ordenados dos menores para os maiores valores. Em seguida é calculado um valor médio ou mediana de cada sinal (de cada coluna de dados) e atribuído aos valores das amostras. Esse processo ocorre para cada sinal da amostra. Os dados são reordenados originalmente e a tabela de dados normalizada. É importante ter em mente que a escolha dos métodos depende da origem dos dados. No pré-processamento, os dados devem ser analisados em diferentes fontes de normalização para definir a melhor opção. O MZmine140 e SuperHirn246 são os softwares mais utilizados para normalização de dados. O SuperHirn utiliza uma versão modificada do método padrão de normalização por tendência central247 e mostra resultados satisfatórios para normalização de conjunto de dados de matrizes de produtos naturais. Pré-processamento de dados de RMN Pré-processamento do decaimento indutivo livre (FID) O decaimento indutivo livre (FID) adquirido durante experimento de RMN contém toda informação espectral da amostra, incluindo sinais dos compostos presentes em solução e ruído instrumental. Esses ruídos, que são aleatoriamente ocasionados pela oscilação térmica das bobinas e interferentes eletrônicos, causam considerável diminuição de sensibilidade, tornando necessária a realização de eta- pas que melhorem a qualidade do espectro e a detecção metabólica. Durante a aquisição de um FID, a informação espectral dos me- tabólitos decai com o tempo, enquanto o ruído permanece na mesma intensidade durante toda a evolução da sequência de pulso. Isso é importante, pois, quando o tempo de aquisição (AQ) é significati- vamente maior do que o tempo de relaxamento (T1), a contribuição do ruído torna-se muito intensa, diminuindo a relação entre o sinal e ruído (