Lívia Maria Gonçalves Rossi Epidemiologia molecular do vírus da Hepatite C: análise comparativa de diferentes regiões subgenômicas aplicadas a estudos de associação genética São José do Rio Preto 2016 Campus de São José do Rio Preto Lívia Maria Gonçalves Rossi Epidemiologia molecular do vírus da Hepatite C: análise comparativa de diferentes regiões subgenômicas aplicadas a estudos de associação genética Tese apresentada como parte dos requisitos para obtenção do título de Doutor em Microbiologia, junto ao Programa de Pós-Graduação em Microbiologia, do Instituto de Biociências, Letras e Ciências Exatas da Universidade Estadual Paulista “Júlio de Mesquita Filho”, Campus de São José do Rio Preto. Orientador: Profª. Drª. Paula Rahal Coorientador: Prof. Dr. Alejandro Escobar-Gutierrez São José do Rio Preto 2016 Rossi, Lívia Maria Gonçalves. Epidemiologia molecular do vírus da Hepatite C : análise comparativa de diferentes regiões subgenômicas aplicadas a estudos de associação genética / Lívia Maria Gonçalves Rossi. -- São José do Rio Preto, 2016 102 f. : il., tabs. Orientador: Paula Rahal Tese (doutorado) – Universidade Estadual Paulista “Júlio de Mesquita Filho”, Instituto de Biociências, Letras e Ciências Exatas 1. Virologia. 2. Hepacivirus. 3. Hepatite C. 4. Vírus de RNA. 5. Epidemiologia molecular. 6. Sequenciamento de nucleotídeos em larga escala. I. Rahal, Paula. II. Universidade Estadual Paulista "Júlio de Mesquita Filho". Instituto de Biociências, Letras e Ciências Exatas. III. Título. CDU – 576.858 Ficha catalográfica elaborada pela Biblioteca do IBILCE UNESP - Câmpus de São José do Rio Preto Lívia Maria Gonçalves Rossi Epidemiologia molecular do vírus da Hepatite C: análise comparativa de diferentes regiões subgenômicas aplicadas a estudos de associação genética Tese apresentada como parte dos requisitos para obtenção do título de Doutor em Microbiologia, junto ao Programa de Pós-Graduação em Microbiologia, do Instituto de Biociências, Letras e Ciências Exatas da Universidade Estadual Paulista “Júlio de Mesquita Filho”, Campus de São José do Rio Preto. Comissão Examinadora Profª. Drª. Paula Rahal UNESP – São José do Rio Preto Orientador Profª. Drª. Ana Carolina Gomes Jardim UNESP – São José do Rio Preto Profª. Drª. Camila Malta Romano USP – São Paulo Profª. Drª. Isabel Maria Vicente Guedes de Carvalho Mello UNIFESP – São Paulo Profª. Drª. Marília de Freitas Calmon UNESP – São José do Rio Preto São José do Rio Preto 18 de janeiro de 2016 Dedicatória Dedico esse trabalho às minhas famílias, a inata e a adquirida, pelo amor incondicional, apoio e motivação. O que sou, é devido à vocês. Agradecimentos  À minha orientadora, Paula Rahal, por sua amizade, ensinamentos e oportunidade de realizar esse trabalho.  Ao Dr. Alejandro Escobar-Gutierrez e toda a sua equipe do InDRE (Karina, Juan Carlos, Carlos e Armando), pela colaboração e por me acolherem no México.  Ao Negrito, pela ajuda intelectual, carinho e apoio nesse período tão demandante.  Aos meus queridos avós, Dona Antônia e Seu Zé, por me acolherem e tornarem minha estadia em Rio Preto tão agradável.  À vó Maria, com a certeza, que mesmo em outro plano zela por mim.  Aos meus pais, por sempre me motivarem e incentivarem a seguir meus sonhos, ainda que estes me levem para tão longe.  À Lenira Bueno, por todo o auxílio na burocracia que faz parte da formação acadêmica.  À banca examinadora, pelo tempo dedicado a melhorar esse trabalho.  À família e aos amigos presentes (e ausentes) que torceram e rezaram por mim. Muito obrigada! SUMÁRIO Resumo..................................................................................................................8 Abstract..................................................................................................................9 Capítulo 1 1.Introdução ............................................................................................11 1.1. A Hepatite C .........................................................................11 1.2. O vírus da Hepatite C ...........................................................12 1.3. Transmissão e epidemiologia ...............................................14 1.4. Variabilidade do genoma viral ..............................................18 1.5. Glicoproteína E2 e a região hipervariável 1 - HVR1 .............20 1.6. A região NS5A ......................................................................21 1.7. Vigilância epidemiológica molecular .....................................23 1.8. Tecnologias de análise de sequências ligadas à virologia e vigilância epidemiológica .........................................23 2. Justificativa ..........................................................................................25 3. Objetivos .............................................................................................28 3.1. Objetivo geral ........................................................................28 3.2. Objetivos específicos ............................................................28 4. Métodos ...............................................................................................29 4.1. Amostras Clínicas .................................................................29 4.2. Extração do RNA viral e síntese do cDNA ...........................30 4.3. Amplificação das regiões HVR1 e NS5A ..............................30 4.4. Sequenciamento de nova geração .......................................33 4.5. Análise filogenética e construção de Median Joining Networks .........................................................................34 5. Referências .........................................................................................35 Capítulo 2 Artigo científico 1 .....................................................................................42 Artigo científico 2 .....................................................................................50 Artigo científico 3 .....................................................................................86 Artigo científico 4 .....................................................................................89 Artigo científico 5 .....................................................................................94 Capítulo 3 Conclusões Gerais ................................................................................102 8 RESUMO O vírus da Hepatite C (HCV) afeta cerca de 3% da população mundial. A cada ano, 3-4 milhões de novos casos são diagnosticados. A identificação de redes transmissão é complexa devido ao longo período de incubação, à falta de sintomas na fase aguda da doença e à heterogeneidade do HCV, que dificulta o estabelecimento de vínculos entre casos relacionados. Uma ampla caracterização das populações intra- hospedeiros pode ser realizada de forma eficiente através do sequenciamento de nova geração (NGS). Com base neste contexto, o sequenciamento de múltiplas regiões subgenômicas é uma solução às limitações impostas pela rápida evolução molecular do HCV. Variantes virais das regiões HVR1 e NS5A de 16 pacientes cronicamente infectados com o HCV, genótipos 1a e 1b, foram sequenciadas com a técnica de NGS. Os pacientes 1-7 compartilhavam fatores de risco, pertencendo ao mesmo grupo de usuários de drogas injetáveis, porém o parentesco genético desses casos não pode ser estabelecido com base apenas no sequenciamento da HVR1 (distância nucleotídica mínima entre 16-23). A amplificação de um fragmento maior (~450 pb), correspondente a um segmento da região NS5A, aprimorou a relação epidemiológica entre os pacientes 1-5, onde as distancias genéticas mínimas foram consideravelmente menores (9-13). Os pacientes 6 e 7 não compartilharam sequências com os outros cinco pacientes dessa rede, apresentando populações virais mais homogêneas. Adicionalmente, Median Joining Networks foram construídas para melhor analisar a variabilidade genética intra-hospedeiro. Em geral, observou-se que as sequências derivadas da NS5A formaram comunidades mais homogêneas e menos divergentes geneticamente. Assim, a tecnologia NGS e o sequenciamento das regiões subgenômicas HVR1 e NS5A podem ajudar a restaurar elos perdidos quando somente a região HVR1 é analisada, aprimorando portanto, a resolução de estudos de associação genética entre populações de HCV. Palavras-chave: Hepatite C, HCV, Epidemiologia Molecular, NGS, Sequenciamento de nova geração, Redes de transmissão 9 ABSTRACT The hepatitis C virus (HCV) affects approximately 3% of the world's population. Each year 3-4 million new cases are diagnosed. The identification of transmission networks is complicated due to the characteristic long incubation period, the lack of symptoms during the acute phase of the disease and the heterogeneity of HCV, making it challenging to link related cases to a common source of infection. Extensive characterization of intra-host populations can be reliably archived using next generation sequencing (NGS) approaches. Sequencing of multiple and longer subgenomic regions has been proposed as an alternative to overcome the limitations imposed by the rapid molecular evolution of the HCV HVR1. Thus, the NS5A and HVR1 regions of 16 chronically infected individuals, genotypes 1a and 1b, were sequenced using a NGS platform. Patients 1-7 shared risk factors and belonged to the same injection drug users network. However, genetic relatedness could not be established based on the HVR1 sequences (minimal nucleotide distance ranging from 16-23). Amplification and sequencing of a larger PCR fragment (~450 bp) targeting the NS5A region reestablished lost epidemiological links between patients 1-5. The minimum genetic distances in those patients were considerable smaller than the HVR1 counterparts (9-13). Patients 6 and 7 displayed a rather homogeneous viral population and were clearly not sharing any sequences with all other five patients in this network. Additionally, Median Joining Networks analysis was carried out to further analyze the intrahost genetic variability of all seven patients. Overall, NS5A sequences were significantly less diverse than their HVR1 equivalents. Thus, NGS technology and use of both HVR1 and NS5A sequences might help restored otherwise lost links when the HVR1 region alone is analyzed, improving the resolution of HCV genetic relatedness studies. Keywords: Hepatitis C, HCV, Pirosequencing, NGS, Molecular epidemiology, Transmission networks 10 Capítulo 1 Revisão Bibliográfica, Justificativa, Objetivos e Métodos 11 1. Introdução e Revisão Bibliográfica 1.1. A Hepatite C A Hepatite C é causada pelo vírus da hepatite C (HCV, por sua sigla em inglês) (Choo, Kuo et al. 1989) e é reconhecida como uma das principais causas de doença hepática crônica associada à inflamação do fígado, necrose, cirrose e carcinoma hepatocelular (HCC, sigla em inglês) (Lauer and Walker 2001). O quadro clínico da infecção pelo HCV é amplo e os sintomas na fase aguda são leves ou moderados em aproximadamente 30 a 40% dos pacientes, dificultando o diagnóstico e retardando o início do tratamento (Te and Jensen 2010; Wilkins, Malcolm et al. 2010; Khudyakov 2012). A mortalidade na fase aguda da infecção pelo HCV é rara, entretanto, aproximadamente 75% dos pacientes desenvolverão um quadro de infecção crônica, sendo esta a causa de quase toda a morbidade e mortalidade relacionadas ao HCV. O risco de morte devido à infecção crônica pelo HCV é estimado em 37%. Após anos de infecção crônica, a cirrose ocorre em 15 a 35% dos pacientes, nos quais a incidência anual de HCC está entre 1 e 3%. Infecção pelo HCV eleva o risco de HCC em 17 vezes, o que explica o fato de 31 a 61% dos casos de HCC serem de pacientes infectados por este vírus. Adicionalmente, aproximadamente 36% das pessoas na lista de espera de transplante de fígado tem uma doença hepática relacionada ao HCV (Ward 2013). Aproximadamente 25% das pessoas infectadas com HIV também têm infecção pelo HCV, e em algumas regiões, como a China, Vietnã e Rússia as taxas de coinfecção são superiores a 75%. Somente nos Estado Unidos, estima-se que 2,7 a 3,9 milhões de pessoas sejam portadoras crônicas do HCV. Nesse mesmo país, mais de 15 mil indivíduos morrem anualmente de doenças relacionadas ao HCV, sendo 12 que um aumento da mortalidade é esperado dentro dos próximos anos (Te and Jensen 2010; Wilkins, Malcolm et al. 2010; Ward 2013). 1.2. O vírus da Hepatite C O HCV é um patógeno humano globalmente prevalente que tem por característica causar infecções hepáticas persistentes na maioria dos indivíduos infectados (Jackowiak, Kuls et al. 2013). Cerca de 180 milhões de pessoas no mundo estão cronicamente infectadas com o HCV, e em torno de 3 a 4 milhões de novas infecções são reportadas a cada ano. Além disso estima-se que 499.000 mortes relacionadas à infecção pelo HCV ocorram anualmente (Lavanchy 2009; Lozano, Naghavi et al. 2012; Mohd Hanafiah, Groeger et al. 2013). HCV é um vírus envelopado, classificado como Hepacivirus dentro da família Flaviviridae (Choo, Kuo et al. 1989; Alter, Hadler et al. 1990; Weiner, Kuo et al. 1990). O genoma é constituído por um RNA de fita simples e polaridade positiva, com aproximadamente 9.600 pares de bases. Contém uma única fase de leitura aberta (ORF) flanqueada pelas regiões não traduzidas 5' e 3' (5’UTR e 3’UTR) (Miller and Purcell 1990; Purcell 1997; Pawlotsky 1998). O genoma codifica uma poliproteína precursora de aproximadamente 3.000 aminoácidos (aa), a qual é processada por proteases virais e do hospedeiro em 10 proteínas virais maduras, sendo três proteínas estruturais (C, E1, E2) e sete proteínas não estruturais (p7, NS2, NS3, NS4A, NS4B, NS5A, NS5B) (Hellen and Pestova 1999; Niepmann 2013) (Fig. 1). As duas regiões não traduzidas (UTRs, sigla em inglês) são altamente estruturadas, e desempenham um papel fundamental na regulação da tradução e replicação do material genético viral. A porção 5’UTR se inicia com uma região de 341 bases que precede o códon de início da tradução da poliproteína, e onde se localiza o sítio de entrada do ribossomo. (Bartenschlager ; Bartenschlager 13 and Lohmann 2000; Moradpour, Penin et al. 2007). De forma semelhante a outros vírus de RNA, o HCV codifica sua própria RNA polimerase RNA- dependente, a qual não possui função de reparo (Jackowiak, Kuls et al. 2013). Fig. 1. Representação esquemática do (a) genoma do HCV e das (b) proteínas virais Adaptado de (Preciado, Valva et al. 2014). O HCV é classificado em sete genótipos filogeneticamente distintos, com diferentes distribuições geográficas e níveis de diversidade genética. As análises filogenéticas e epidemiológicas de HCV isolados ao redor do mundo permitiram o mapeamento da evolução e disseminação viral (Simmonds, Holmes et al. 1993; Mellor, Holmes et al. 1995; Verbeeck, Maes et al. 2006; Jackowiak, Kuls et al. 2013; Smith, Bukh et al. 2014) (Fig. 2). 14 Fig. 2. Genótipos do HCV. Linhagens de HCV representando os sete genótipos e os diferentes subtipos. As sequências da região NS5B foram escolhidas para ilustrar a diversidade máxima dentro de um subtipo. A árvore filogenética foi construída utilizando-se MEGA5 (Rossi, Escobar-Gutierrez et al. 2015). 1.3. Transmissão e epidemiologia A transmissão, seja endêmica ou epidêmica, é o processo viral pelo qual se disseminam a infecção e a doença. Portanto, o rastreamento da transmissão é fundamental para o controle do HCV e da Hepatite C (Khudyakov 2012). A história da epidemia de Hepatite C é muito dinâmica e em meados do século passado, houve um rápido aumento no número total de infecções, sendo os subtipos 1a e 1b prevalentes mundialmente (Magiorkinis, Magiorkinis et al. 2009; Iles, Abby Harrison et al. 2013), o genótipo 2 e o subtipo 5a encontrados na África (Tanaka, Kurbanov et al. 2006; Markov, Pepin et al. 2009) e subtipo 3a localizado no Paquistão e 15 Ásia Central (Tanaka, Kurbanov et al. 2006; Khan, Tanaka et al. 2009). Posteriormente, durante a década de 1980 e início de 1990, observou-se um rápido declínio no número casos de Hepatite C aguda nos EUA (Williams, Bell et al. 2011). Tais variações no tamanho da população do HCV impactaram a diversidade genética do vírus (Tanaka, Kurbanov et al. 2006; Magiorkinis, Magiorkinis et al. 2009; Markov, Pepin et al. 2009). Do mesmo modo, os padrões de transmissão, característicos a grupos de risco específicos, e as variações nas taxas e padrões de transmissão tendem a reconfigurar a composição genética das populações do HCV (Khudyakov 2012). A principal forma de transmissão do HCV é a parenteral, através da exposição à sangue e derivados contaminados (Stockman, Guilfoye et al. 2014; Zibbell, Iqbal et al. 2015). A partir de 1990, a introdução de métodos de triagem para detecção de anticorpos anti-HCV em amostras de sangue mitigou o número de casos de infecção por HCV durante a transfusão sanguínea e hemoderivados (Soldan, Barbara et al. 2003). No entanto, o uso de drogas injetáveis tornou-se o principal fator de risco de infecção pelo HCV (Williams, Bell et al. 2011), e a prevalência da infecção em usuários de drogas injetáveis (UDI) pode ser superior a 80% (Garfein, Vlahov et al. 1996; Amon, Garfein et al. 2008; Zibbell, Iqbal et al. 2015). Globalmente, estima-se que 64% dos UDI estão infectados pelo HCV e a aquisição do vírus é bastante rápida após o início do uso de drogas injetáveis (Ward 2013). Este grupo de alto risco frequentemente apresenta infecção primária e reinfecções com mais frequência do que a população em geral (Khudyakov 2012). Do mesmo modo, as transmissões do tipo nosocomial continuam a ser uma importante fonte de novas infecções pelo HCV. Globalmente, estima-se que esse tipo de transmissão seja responsável por 40% das infecções. Em países com alta prevalência de infecção crônica do HCV (ou seja, maior do que 3%) (Fig. 3), como o Egito, Paquistão e Mongólia, este é o principal modo de transmissão. Nessas localidades, o uso compartilhado de seringas é 16 comum e tais práticas, tão arraigadas culturalmente, são difíceis de mudar. Nos Estados Unidos e em outros países com baixa prevalência do HCV, as transmissões nosocomiais são importantes causas de surtos. O vírus também pode ser transmitido através do compartilhamento de dispositivos contaminados com sangue HCV positivo. Apesar de controversa, nos Estados Unidos estima-se que a transmissão heterossexual seja responsável por 14% dos casos notificados de infecção aguda pelo HCV (Williams, Bell et al. 2011; Ward 2013). O contato domiciliar com pessoas infectadas dobra o risco de infecção, resultante da exposição incidental ao sangue contaminante em itens como escovas de dente e lâminas de barbear. Nos Estados Unidos, aproximadamente 3% dos casos agudos de infecção por HCV ocorrem em profissionais de saúde, como resultado da exposição ocupacional (Wasley and Alter 2000; Esteban, Sauleda et al. 2008; Williams, Bell et al. 2011). Não obstante, a via de transmissão não é prontamente identificada em uma porcentagem significativa dos casos (Flamm, Parker et al. 1998; Karmochkine, Carrat et al. 2006). No Brasil, a prevalência da infecção pelo HCV na população em geral é de aproximadamente 1,5% (Focaccia, da Conceicao et al. 1998; Zarife, Silva et al. 2006; Pereira, Martelli et al. 2013) (Fig. 3), havendo grande variação em populações específicas. Em UDI, a prevalência pode chegar a 11% (Oliveira, Hacker et al. 2006; Danta, Brown et al. 2007; Lopes, Teles et al. 2009) e em doadores de sangue varia de 0,21 a 1,1% (Brandao and Fuchs 2002; Rosini, Mousse et al. 2003; Salles, Sabino et al. 2003; Valente, Covas et al. 2005; Nascimento, Mayaud et al. 2008; Torres, Malheiro et al. 2009). 17 18 1.4. Variabilidade do genoma viral O HCV é conhecido por sua alta variabilidade genética, em grande parte devida à ausência de atividade corretora de sua RNA polimerase RNA-dependente. Consequentemente, a enzima não corrige nucleotídeos incompatíveis e trocas de bases são introduzidas aleatoriamente no genoma viral, produzindo continuamente genomas mutantes a cada ciclo de replicação (Lesburg, Cable et al. 1999; Bowen and Walker 2005; Jackowiak, Kuls et al. 2013). A mutação viral, descrita aqui como taxa de incorporação errada de nucleotídeos por nucleotídeo copiado por replicação, é tema recorrente em vários estudos (Ogata, Alter et al. 1991; Abe, Inchauspe et al. 1992; Lutchman, Danehower et al. 2007; Cuevas, Gonzalez-Candelas et al. 2009; Ribeiro, Li et al. 2012). Conforme estabelecido em experimentos in vitro, a polimerase viral apresenta um índice de incorporação de erros que varia entre 8,7 x10-3 a 1,4 x10-6 por base replicada (Powdrill, Tchesnokov et al. 2011). Apesar de ser sujeita a erros, a replicação do RNA é extremamente eficiente e permite a produção de aproximadamente 1012 vírions/dia em um único hospedeiro (Neumann, Lam et al. 1998). Assim, a elevada taxa de mutação, um genoma relativamente pequeno e o grande tamanho da população viral, contribuem, conjuntamente, para a rápida evolução viral. Essas mudanças evolutivas permitem que o HCV se adapte continuamente ás pressões seletivas exercidas pelo organismo hospedeiro e à medicamentos antivirais. Dessa forma, o HCV é conhecido por formar populações de variantes intimamente relacionadas, mas geneticamente distintas, que estão presentes em um único hospedeiro e estão sujeitas a contínua variação genética e seleção. No caso do HCV, depois de estabelecer uma infecção produtiva, a variante inicial se replica e dá origem a um novo pool de variantes virais (Khudyakov 2012). O tipo e a distribuição de mutações encontradas no genoma do HCV são o resultado de um equilíbrio entre pressões externas e as 19 características inerentes da polimerase. Teoricamente, a NS5B (polimerase) pode introduzir mutações aleatoriamente. Entretanto, algumas regiões do genoma do HCV são mais plásticas, fixando mutações sem que isso comprometa a viabilidade do vírion (por exemplo, a região hipervariável 1 (HVR1) do gene de E2), ao passo que outras regiões são moderadamente variáveis quando comparadas com a HVR1 (NS5A, por exemplo) ou mesmo altamente conservadas (core e 5’UTR) (Polyak, McArdle et al. 1998; Rispeter, Lu et al. 2000; Simmonds 2004; Fan, Zhu et al. 2005) (Fig. 1). Uma taxa evolutiva mais elevada é observada na região E1/E2, incluindo a região HVR1. Interessantemente, o maior número de substituições de aminoácidos é encontrado na E2, sendo que esta proteína é o principal alvo de anticorpos neutralizantes (Campo, Dimitrova et al. 2008; Li, Stoddard et al. 2012). Ao que parece, a evolução dessa região segue vários padrões. Em um estudo sobre a evolução em longo prazo da HVR1 em um grupo de casos relacionados, observou-se que depois de 17 anos de infecção crônica pelo HCV, as sequências da HVR1 em cada receptor eram distintas e quase tão diferentes umas das outras quanto à de sequências epidemiologicamente independentes. Esta diversificação ocorreu apesar de todos os indivíduos terem sido infectados a partir de uma mesma fonte de diversidade limitada, e que, em teoria deveria ter exibido o mesmo estímulo antigênico durante a primeira infecção. Em vez disso, a HVR1 evoluiu em múltiplas direções a partir de um determinado ponto inicial (McAllister, Casino et al. 1998). Igualmente, padrões de dispersão distintos para a região HVR1 foram observados em pacientes crônicos não tratados acompanhados por anos desde a fase aguda da infecção (Ramachandran, Campo et al. 2011). Em um curto espaço de tempo, análises filogenéticas de populações intra- hospedeiro em amostras coletadas em duas ocasiões, mostraram que o grau de divergência da região HVR1 equiparou-se com as distâncias mínimas nucleotídicas encontradas entre casos não relacionados (Cruz- 20 Rivera, Carpio-Pedroza et al. 2013). Entretanto, a alta variabilidade genética encontrada na região HVR1 se faz necessária em estudos epidemiológicos (Gonzalez-Candelas, Bracho et al. 2013). Durante as etapas iniciais da infecção, os genes que codificam as proteínas estruturais do HCV exibem um elevado grau de homogeneidade. Análises filogenéticas destes genes mostraram que a evolução segue a partir de um único fundador após um evento de gargalo, tendência comum em casos de transmissão (Li, Stoddard et al. 2012). Notadamente e mesmo após anos de infecção crônica pelo HCV, a taxa de divergência da região NS5A é significantemente inferior a da região HVR1, apesar desta também ser considerada uma região de maior variabilidade dentro do genoma viral (Smith, McAllister et al. 1997; Rispeter, Lu et al. 2000; Fan, Zhu et al. 2005). Adicionalmente, em infecções acompanhadas por anos, a maioria das variantes de HCV foi observada apenas em determinados pontos de coleta, entretanto algumas variantes foram detectadas em mais de um ponto. Tal persistência de variantes foi mais facilmente detectada utilizando-se a região NS5A (Ramachandran, Campo et al. 2011). Em outro estudo, os autores não observaram diferença significativa no valor médio de Entropia de Shannon em sequências de nucleotídeos do gene NS5A entre amostras de pacientes crônicos obtidas no início do estudo e as obtidas 10 anos depois (Fan, Zhu et al. 2005). 1.5. Glicoproteína E2 e a região hipervariável 1 - HVR1 A porção do gene E2 codifica a glicoproteína do envelope E2 do HCV, que é clivada da poliproteína por uma peptidase do hospedeiro (Dubuisson, Penin et al. 2002). Esta é uma proteína transmembranar do tipo I, com um grande ectodomínio amino-terminal e um domínio 21 transmembranar carboxi-terminal, a qual se associa em heterodímeros não covalentes com a glicoproteína E1 do HCV (Deleersnyder, Pillez et al. 1997). Os ectodomínios da glicoproteína E2 são altamente modificados por glicanos, sendo que a E2 possui até 11 locais bem conservados de glicosilação (Goffard and Dubuisson 2003; Zhang, Gaschen et al. 2004). Alguns desses glicanos desempenham um papel importante na dobragem da glicoproteína ou na entrada do HCV nas células (Goffard, Callens et al. 2005). Porque ser essencial para a entrada do vírus, a E2 é alvo constante de anticorpos neutralizantes (Cashman, Marsden et al. 2014). Regiões hipervariáveis (HVR) foram identificadas na sequência da glicoproteína do envelope E2 (Weiner, Brauer et al. 1991). A primeira, a região hipervariável 1 (HVR1), está localizada na extremidade 5’ do gene E2 e consiste em 27 a 31 aminoácidos. Sugere-se que essa região seja um epítopo imunodominante para ativação especifica de células B e T (Gale and Foy 2005; Scotta, Garbuglia et al. 2008) e esteja envolvida com a entrada do vírus na célula (Roccasecca, Ansuini et al. 2003; Sabo, Luca et al. 2011). Mudanças rápidas nos aminoácidos constituintes da HVR1 permitem que o HCV escape do reconhecimento por imunoglobulinas, contribuindo para a persistência da infecção. A taxa de mutação anual estimada para a proteína do envelope E2 é de 4.7 x 10-3 substituições de nucleotídeos por sítio por ano (Δnt), enquanto que para a HVR1 é de 23 x 10-3 Δnt (Rispeter, Lu et al. 2000). Devido a sua alta variabilidade, a HVR1 é frequentemente utilizada para a identificação de eventos de transmissão recente do HCV (Ramachandran, Xia et al. 2008; Fischer, Schaefer et al. 2010; 2011). 1.6. A região NS5A A proteína não-estrutural 5A (NS5A) é uma fosfoproteína multifuncional de aproximadamente 447 aminoácidos, envolvida 22 principalmente na replicação de RNA viral, modulação das vias de sinalização celular, resposta ao interferon, patogenicidade e regulação da apoptose. Algumas regiões na NS5A apresentam funções específicas, como a região amino-terminal na qual se localiza uma sequência sinal responsável por manter a NS5A no citoplasma (Satoh, Hirota et al. 2000) e a região PKR-binding, relacionada com a inibição da atividade antiviral do interferon (Gale, Korth et al. 1997). Dentro da região PKR-binding encontra-se a região determinante da sensibilidade ao interferon (ISDR), associada à resposta ao tratamento (Enomoto, Sakuma et al. 1996). Na porção carboxi-terminal da proteína, encontra-se o domínio V3, também associado à resposta ao tratamento com interferon (Inchauspe, Zebedee et al. 1991; Duverlie, Khorsi et al. 1998). Para todo o gene, estima-se que a taxa de mutação anual varie em média de 2.4 a 3.7 x 10-3 Δnt (Rispeter, Lu et al. 2000; Fan, Zhu et al. 2005), enquanto que para a região ISDR seja de 2.5 x 10-3 Δnt (variação, 0.79–7.0 x 10-3 Δnt) (Fan, Zhu et al. 2005). Em um estudo longitudinal, as sequências nucleotídicas dos domínios funcionais da região NS5A em pacientes crônicos não tratados mantiveram-se em geral conservadas durante uma década de evolução, apesar da distribuição de variantes virais apresentar-se variável e em agrupamentos ao longo do tempo (Fan, Zhu et al. 2005). Em um estudo sobre a variabilidade genética do HCV antes e após tratamento antiviral, observou-se que o padrão das mudanças evolutivas para a região NS5A é semelhante ao observado para a HVR1, porém com valores reduzidos em todos os parâmetros analisados nesse estudo (Cuevas, Torres-Puente et al. 2008). O gene NS5A muitas vezes se mostra estável e homogêneo ao longo de diferentes pontos de amostragem (Bittar, Jardim et al. 2013; Jardim, Bittar et al. 2013). Assim, o sequenciamento dessa região se torna atrativo para o aprofundamento de estudos sobre associação e parentesco genético de populações de HCV inter e intra-hospedeiro. 23 1.7. Vigilância epidemiológica molecular A vigilância epidemiológica da prevalência e incidência de infecções por HCV é uma ferramenta fundamental para o monitoramento da disseminação viral, implementação e avaliação de medidas de controle (Khudyakov 2012). Contudo, a vigilância epidemiológica tradicional, baseada apenas na manifestação da doença, é limitada em sua capacidade para rastrear e controlar as transmissões. O emprego de testes genéticos e técnicas de biologia molecular são formas mais eficientes de se estabelecer elos entre transmissões diretas, pois permitem a avaliação de correlação genética entre variantes de HCV e baseiam-se no pressuposto de que variantes compartilhadas por dois pacientes têm composição genética idêntica ou muito semelhante. A avaliação acurada da relação genética entre linhagens do HCV pode ser alcançada através do isolamento de representantes da população viral do hospedeiro na forma de pequenas sequências de determinadas regiões genômicas (Ramachandran, Xia et al. 2008). Apesar da análise de variantes virais ser muito complexa e trabalhosa, esta não pode ser substituída por simples sequenciamento consenso, uma vez que sequências consenso de regiões curtas não representam a população viral de forma adequada (Ramachandran, Xia et al. 2008). Além disso, com o passar do tempo, a composição da população do HCV em pacientes sofre mudanças significativas resultantes do processo de evolução viral (Ramachandran, Campo et al. 2011). 1.8. Tecnologias de análise de sequências ligadas à virologia e vigilância epidemiológica A detecção molecular da transmissão de agentes patogênicos em constante mutação, como o HCV, é normalmente conseguida através da 24 avaliação da relação genética de variantes virais entre pacientes infectados (Ganova-Raeva, Dimitrova et al. 2013). O sequenciamento de nova geração (NGS), aqui também chamado de pirossequenciamento de alta capacidade (UDPS – do inglês “Ultra-Deep PyroSequencing”) combina em um único processo a separação de moléculas individuais de DNA e o sequenciamento destas, o que simplifica significativamente a amostragem de variantes intra-hospedeiro em larga escala (Rozera, Abbate et al. 2009; Kuroda, Katano et al. 2010). Foi demonstrado que o UDPS é capaz de quantificar precisamente uma mistura de três variantes do envelope de HIV-1, nas proporções definidas de 89%, 10% e 1% na amostra (Tsibris 2006). Atualmente, o UDPS é utilizado na identificação de variantes resistentes a drogas e em estudos de diversidade viral, além de diversas outras análises. Em estudos epidemiológicos, o sequenciamento da região HVR1 do HCV por UDPS permitiu o mapeamento minucioso das populações virais em UDIs, o que por consequência, facilitou a identificação de eventos de transmissão entre pacientes (Escobar-Gutierrez, Vazquez-Pichardo et al. 2012). Desta forma, esta técnica tem se tornado uma importante aliada em estudos de evolução e filogenia viral (Margeridon-Thermet, Shulman et al. 2009; Simen, Simons et al. 2009; Nasu, Marusawa et al. 2011; Lauck, Alvarado- Mora et al. 2012). 25 2. Justificativa A Hepatite C é uma doença que incide em todos os países, inclusive no Brasil, onde se estima que 0,8 a 3,4% da população está infectada com seu agente causal, o Vírus da Hepatite C (HCV). Dentre os indivíduos recém-infectados, muitos não apresentam os sintomas da doença, embora em aproximadamente 75% dos casos a infecção progrida para Hepatite C crônica. Como agravante à natureza crônica desse vírus, ainda não existe vacinas profiláticas contra a infecção pelo HCV e apenas recentemente tratamentos antivirais eficazes foram aprovados. Entretanto, devido a questões econômicas e logísticas, países e pacientes com recursos limitados não terão acesso imediato à essas drogas de última geração. Dessa forma, a prevenção mantém-se como uma das medidas mais eficazes contra a disseminação do HCV e da Hepatite C. A partir da prevenção, a Saúde Pública tem como objetivo fundamental a redução da morbidade e mortalidade na população humana, sendo que a vigilância de doenças fornece uma avaliação direta do estado da saúde população. Quando há conexão entre os casos sintomáticos e os parâmetros epidemiológicos são confirmados, medidas de controle e prevenção podem ser implementadas com precisão. Desse modo, a vigilância molecular é um complemento importante para a vigilância epidemiológica, pois se baseia no rastreamento genético de fatores associados não só à infecção pelo HCV, mas também à Hepatite C, e tem como foco principal o controle da doença. Além disso, a vigilância molecular abrange diretamente dois parâmetros fundamentais: a transmissão, que é o processo responsável pela disseminação da infecção pelo HCV, e virulência, que é a capacidade do HCV de causar doença. 26 Análises aprofundadas sobre a composição e distância genética de variantes virais intra- e inter-hospedeiro são formas eficientes de estabelecer elos entre transmissões diretas, pois pressupõem que variantes compartilhadas por dois pacientes têm composição genética muito semelhante. Tais análises são normalmente realizadas através do sequenciamento da região HVR1. Entretanto, nem sempre as relações epidemiológicas detalhadas entre vírus de receptores primários e secundários podem ser adequadamente reproduzidas pela análise filogenética da região E1/E2. Isso se deve em parte ao padrão evolutivo observado na região HVR1, onde a taxa de mutação para esta região é em torno de 23 x 10-3 substituições de nucleotídeos por sítio por ano (Δnt). Em muitas instâncias, o alto grau de diversidade observado nessa região torna a identificação de casos relacionados, mas com longa história de infecção, extremamente difícil. Como alternativas a essa limitação, análises da relação filogenética podem ser usadas para se estabelecer elos de transmissão. Adicionalmente, o emprego de fragmentos maiores ou outras regiões do genoma viral podem, também, auxiliar e enriquecer os métodos atuais de investigação epidemiológica. A região NS5A também é considerada um sítio de maior variabilidade genética dentro do genoma viral. Entretanto, taxa de divergência dessa região é significantemente inferior a da HVR1. Enquanto muitas variantes de HCV são perdidas continuamente durante a infecção pelo HCV, algumas circulam por mais tempo, e essa persistência é mais facilmente detectada em sequências de NS5A do que nas sequências de HVR1. Em contra partida, o uso de regiões muito conservadas, como a NS5B ou core, não é recomendado, pois tais regiões não provêm informação genética suficiente para estudos de parentesco genético e epidemiológico. Análise de variantes envolve a separação e o sequenciamento das variantes circulantes no hospedeiro. A análise de populações de HCV intra-hospedeiro por sequenciamento de nova geração (NGS) oferece 27 uma melhoria significativa na taxa de transferência e redução de custos. O pirossequenciamento de alta capacidade (UDPS) apresenta diversas vantagens sobre as técnicas tradicionais de sequenciamento, incluindo maior amostragem da população viral intra-hospedeiro e redução dos custos. Além disso, demonstra melhor resolução e alta sensibilidade na detecção de mutações e divergência para o estudo da epidemiologia molecular do HCV. Assim, a utilização dessa técnica em estudos de associação genética aprofundará o nosso entendimento sobre a dinâmica da transmissão do HCV e do parentesco genético entre linhagens relacionadas. Um programa de vigilância molecular abrangente da Hepatite C, quando conseguido, deve ajudar significativamente nos esforços para reduzir a morbidade e mortalidade associada à infecção por HCV. A pronta identificação de redes de transmissão aumentará o sucesso de intervenções de controle da Hepatite C, de forma abrangente e global, beneficiando inclusive a população brasileira. 28 3. Objetivos 3.1. Objetivo geral Analisar e comparar o sequenciamento das regiões subgenômicas NS5A e HVR1 do HCV, buscando aprofundar os estudos de relação genética entre linhagens de HCV. 3.2. Objetivos específicos - Analisar o parentesco genético entre as linhagens de HCV dos casos isolados. - Analisar e comparar a diversidade intra- e inter-hospedeiro das regiões HVR1 e NS5A. - Sequenciar por UDPS a região NS5A e desenvolver um pipeline de limpeza de sequências específico para essa região. 29 4. Métodos 4.1. Amostras clínicas Pacientes cronicamente infectados com o HCV, idades entre 34-58 anos, foram incluídos neste estudo. Esses pacientes são um subgrupo de um protocolo mais abrangente, cujos objetivos incluem o estudo da resistência ao tratamento anti-HCV e vigilância epidemiológica do HCV na Cidade do México-DF, México (Escobar-Gutierrez, Vazquez-Pichardo et al. 2012; Fonseca-Coronado, Escobar-Gutierrez et al. 2012; Cruz-Rivera, Carpio-Pedroza et al. 2013). Todos os pacientes eram anti-HCV positivos, usuários de drogas injetáveis (UDI), e sem histórico de tratamento antiviral prévio. Os pacientes 1 a 7 compartilhavam fatores de risco, estabelecidos durante investigação epidemiológica baseada no preenchimento de formulários apresentados aos mesmos, pertencendo assim à mesma rede de UDI. Os pacientes 8 a 16 foram incluídos como controles locais e não compartilhavam fatores de risco entre si ou com os outros pacientes da rede de UDI. A revisão ética do projeto e aprovação do Termo de Consentimento Livre e Esclarecido foram concedidos pelo Comitê de Ética do Laboratório de Referência no México (InDRE). O consentimento foi obtido de todos os participantes. As amostras de plasma de todos os pacientes foram obtidas e armazenadas a -70°C até à sua utilização. As características dos pacientes estão resumidas na Tabela 1. 30 Tabela 1. Características dos pacientes Paciente Gênero Idade (anos) Genótipo do HCV Título viral (IU/ml) P1 Masculino 40 1a 3,680,000 P2 Feminino 44 1a 2,090,000 P3 Masculino 56 1a 2,790,000 P4 Feminino 45 1a 7,900,000 P5 Masculino 58 1a 4,400,000 P6 Masculino 43 1a 7,190,000 P7 Feminino 36 1a 5,740,000 P8 Masculino 51 1a 7,300,000 P9 Masculino 57 1a 8,430,000 P10 Feminino 49 1a 5,230,000 P11 Masculino 50 1a 4,080,000 P12 Feminino 42 1a 9,500,000 P13 Masculino 53 1b 6,204,000 P14 Feminino 56 1b 7,860,000 P15 Masculino 34 1b 8,620,000 P16 Masculino 37 1b 5,370,000 4.2. Extração do RNA viral e síntese do cDNA A extração do RNA viral foi realizada utilizando o kit de extração RNA viral QIAamp viral RNA kit (QIAGEN, Valencia, CA). Para cada amostra de soro, 140μL foram utilizados e o produto eluído em 60μL, seguindo as instruções do fabricante. A síntese do DNA complementar (cDNA) e subsequente primeiro round de PCR foram realizados com o kit One Step RT-PCR (QIAGEN), utilizando-se primers específicos para cada região, segundo as instruções do fabricante. O desenho dos primers seguem as recomendações do Centers for Disease Control and Prevention (CDC). 4.3. Amplificação das regiões HVR1 e NS5A Para a amplificação da regiões HVR1 e a NS5A do genoma do HCV, foram utilizados pares de oligonucleotídeos específicos para cada região (Fig. 4) e uma DNA polimerase com atividade corretiva em dois 31 ciclos de PCR, RT-PCR e Nested-PCR, etapa na qual se incluiu os adaptadores para o sequenciamento. Resumidamente, o cDNA de cada amostra foi utilizado para amplificação independente das regiões utilizando-se primers específicos para HVR1 e NS5A (Tabela 2), seguindo as condições: 95oC for 5 min, 40 ciclos à 95oC por 30s, 55oC por 20s, 72oC por 40s. Os produtos (2μl) dessas reações foram utilizados como substrato para a Nested-PCR. Essa reação é realizada com os primers de fusão para 454 (Fig. 5), os quais contêm os adaptadores A e B (em azul) e a chave (em vermelho), necessários no sistema 454, e estão acoplados a identificadores múltiplos (MID) (em alaranjado e amarelo), que são sequências únicas que permitem a identificação dos amplicons associados a cada um dos pacientes, e por fim contêm os primers específicos para as cada uma das regiões, HVR1 e NS5A (Tabela 2). Uma marcação híbrida com os MIDs foi realizada de tal maneira que cada amostra foi amplificada com uma combinação única de primers forward e reverse, permitindo a utilização de um número limitado de oligonucleotídeos (Tabela 2). Os produtos da Nested-PCR foram purificados por eletroforese em géis de agarose e-SizeSelect (Invitrogen). A qualidade dos produtos foi avaliada em um Bioanalyzer 3100 (Agilent Technologies, Santa Clara, CA). Os amplicons purificados foram quantificados utilizando o kit de ensaio PicoGreen dsDNA Quan-iT (Invitrogen). Os fragmentos de PCR foram então diluídos e misturados em concentrações equimolares a uma concentração final de 107 moléculas/μl, para subsequente amplificação clonal mediante PCR em emulsão (emPCR). 32 Fig 4. Localização das regiões amplificadas, em relação ao genoma do HCV. Representação do genoma viral adaptado de (Preciado, Valva et al. 2014). Fig. 5. Representação esquemática dos oligonucleotídeos (primers) de fusão utilizados na reação sequenciamento com a plataforma 454 (figura adaptada do manual 454, (Roche 2011)). 33 Tabela 2. Primers utilizados na amplificação das regiões HVR1 e NS5A Etapa Região (posição) Sequência First Round HVR1-F1 (1294 -1317) TGGCTTGGGATATGATGATGAACT HVR1-R1 (1599-1618) GCAGTCCTGTTGATGTGCCA NS5A-F1 (7019-7039) TCATAGAGGCCAACCTCCTGTG NS5A-R1 (7539-7560) TCGACCATGACCCGTCGCTGAG 4 5 4 S eq u en ci n g FWD-HVR-MID-1 (1302-1320) CGTATCGCCTCCCTCGCGCCATCAGACGAGTGCGTGGATATGATGATGAACTGGT FWD-HVR-MID-2 CGTATCGCCTCCCTCGCGCCATCAGACGCTCGACAGGATATGATGATGAACTGGT FWD-HVR-MID-3 CGTATCGCCTCCCTCGCGCCATCAGAGACGCACTCGGATATGATGATGAACTGGT FWD-HVR-MID-4 CGTATCGCCTCCCTCGCGCCATCAGAGCACTGTAGGGATATGATGATGAACTGGT RVS-HVR-MID-1 (1586-1609) CTATGCGCCTTGCCAGCCCGCTCAGACGAGTGCGTTTGATGTGCCAGCTGCCGTTGGTGT RVS-HVR-MID-2 CTATGCGCCTTGCCAGCCCGCTCAGACGCTCGACATTGATGTGCCAGCTGCCGTTGGTGT RVS-HVR-MID-3 CTATGCGCCTTGCCAGCCCGCTCAGAGACGCACTCTTGATGTGCCAGCTGCCGTTGGTGT RVS-HVR-MID-4 CTATGCGCCTTGCCAGCCCGCTCAGAGCACTGTAGTTGATGTGCCAGCTGCCGTTGGTGT FWD-NS5a-MID-1 (7089-7110) CGTATCGCCTCCCTCGCGCCATCAGACGAGTGCGTAGTGGTGATTCTGGACTCTTTCG FWD-NS5a-MID-2 CGTATCGCCTCCCTCGCGCCATCAGACGCTCGACAAGTGGTGATTCTGGACTCTTTCG FWD-NS5a-MID-3 CGTATCGCCTCCCTCGCGCCATCAGAGACGCACTCAGTGGTGATTCTGGACTCTTTCG FWD-NS5a-MID-4 CGTATCGCCTCCCTCGCGCCATCAGAGCACTGTAGAGTGGTGATTCTGGACTCTTTCG RVS-NS5a-MID-1 (7482-7505) CTATGCGCCTTGCCAGCCCGCTCAGACGAGTGCGTCATGGAGGAATAGGACTCAGCGTC RVS-NS5a-MID-2 CTATGCGCCTTGCCAGCCCGCTCAGACGCTCGACACATGGAGGAATAGGACTCAGCGTC RVS-NS5a-MID-3 CTATGCGCCTTGCCAGCCCGCTCAGAGACGCACTCCATGGAGGAATAGGACTCAGCGTC RVS-NS5a-MID-4 CTATGCGCCTTGCCAGCCCGCTCAGAGCACTGTAGCATGGAGGAATAGGACTCAGCGTC A posição dos primers em relação à sequencia de referencia H77 (genótipo 1) está entre parênteses. 4.4. Sequenciamento de nova geração A identificação das variantes virais seguiu o protocolo de sequenciamento de nova geração desenvolvido por nossos colaboradores (Escobar-Gutierrez, Vazquez-Pichardo et al. 2012; Fonseca-Coronado, Escobar-Gutierrez et al. 2012). As amostras positivas para anticorpos anti-HCV foram sequenciadas usando o sequenciador 454 GS Jr System (Roche Applied Sciences , Indianapolis , IN). Nessa técnica, os produtos de PCR, ligados a adaptadores, foram amplificados por clonagem em esferas de captura em emulsão de água- em-óleo (emPCR) e em seguida sequenciados. As reações de sequenciamento são realizadas por síntese, utilizando o 34 pirosequenciamento (Margulies, Egholm et al. 2005). Resumidamente, os fragmentos de PCR gerados na reação de Nested-PCR foram utilizados na emPCR utilizando-se os adaptadores do sistema 454 A e B e esferas de captura, de modo cada esfera continha uma molécula de DNA, permitindo dessa maneira a amplificação clonal dos fragmentos gerados durante a Nested-PCR. Uma vez terminada a reação de emPCR, esferas vazias foram removidas da mistura, restando somente as esferas a serem sequenciadas. Para o pirosequenciamento, foi usado o kit “GS Junior Titanium Sequencing Kit”, permitindo assim o sequenciamento simultâneo das amostras. As sequências lidas pelo sequenciador foram processadas utilizando-se a ferramenta NexGen Workbench v3.2.0. Sequências pertencentes a cada amostra foram identificadas e separadas pelos seus MIDs correspondentes e arquivos Fasta foram gerados para cada paciente. A limpeza dos dados foi realizada por meio do método implementado em QIIME (Caporaso, Kuczynski et al. 2010). 4.5. Análise filogenética e construção de Median Joining Networks Apenas fragmentos cobrindo todo o comprimento do amplificon, incluindo os MIDs em ambas as extremidades, foram analisados. O alinhamento múltiplo foi realizado com o programa MAFFT v7 (Katoh and Standley 2013). Os alinhamentos otimizados foram então analisados em MEGA 5 e árvore filogenéticas construídas com o método de Neighbor- Joining (Tamura, Peterson et al. 2011). A variação genética intra- hospedeiro também foi analisada utilizando a análise de Median Joining Networks (Bandelt, Forster et al. 1999), tal como implementada em Network v4.6 (Fluxus Technology) como descrito anteriormente (Escobar- Gutierrez, Soudeyns et al. 2013). 35 5. Referências bibliográficas (2011). "Transmission of hepatitis C virus through transplanted organs and tissue-- Kentucky and Massachusetts, 2011." MMWR Morb Mortal Wkly Rep 60(50): 1697-1700. Abe, K., G. Inchauspe, et al. (1992). "Genomic characterization and mutation rate of hepatitis C virus isolated from a patient who contracted hepatitis during an epidemic of non-A, non-B hepatitis in Japan." J Gen Virol 73 ( Pt 10): 2725-2729. Alter, M. J., S. C. Hadler, et al. (1990). "The changing epidemiology of hepatitis B in the United States. Need for alternative vaccination strategies." JAMA 263(9): 1218- 1222. Amon, J. J., R. S. Garfein, et al. (2008). "Prevalence of hepatitis C virus infection among injection drug users in the United States, 1994-2004." Clin Infect Dis 46(12): 1852-1858. Bandelt, H. J., P. Forster, et al. (1999). "Median-joining networks for inferring intraspecific phylogenies." Mol Biol Evol 16(1): 37-48. Bartenschlager, R. Hepatitis C virus : from molecular virology to antiviral therapy. Bartenschlager, R. and V. Lohmann (2000). "Replication of hepatitis C virus." J Gen Virol 81(Pt 7): 1631-1648. Bittar, C., A. C. Jardim, et al. (2013). "On hepatitis C virus evolution: the interaction between virus and host towards treatment outcome." PLoS One 8(4): e62393. Bowen, D. G. and C. M. Walker (2005). "The origin of quasispecies: cause or consequence of chronic hepatitis C viral infection?" J Hepatol 42(3): 408-417. Brandao, A. B. and S. C. Fuchs (2002). "Risk factors for hepatitis C virus infection among blood donors in southern Brazil: a case-control study." BMC Gastroenterol 2: 18. Campo, D. S., Z. Dimitrova, et al. (2008). "Coordinated evolution of the hepatitis C virus." Proc Natl Acad Sci U S A 105(28): 9685-9690. Caporaso, J. G., J. Kuczynski, et al. (2010). "QIIME allows analysis of high-throughput community sequencing data." Nat Methods 7(5): 335-336. Cashman, S. B., B. D. Marsden, et al. (2014). "The Humoral Immune Response to HCV: Understanding is Key to Vaccine Development." Front Immunol 5: 550. Choo, Q. L., G. Kuo, et al. (1989). "Isolation of a cDNA clone derived from a blood-borne non-A, non-B viral hepatitis genome." Science 244(4902): 359-362. Cruz-Rivera, M., J. C. Carpio-Pedroza, et al. (2013). "Rapid hepatitis C virus divergence among chronically infected individuals." J Clin Microbiol 51(2): 629-632. Cuevas, J. M., F. Gonzalez-Candelas, et al. (2009). "Effect of ribavirin on the mutation rate and spectrum of hepatitis C virus in vivo." J Virol 83(11): 5760-5764. Cuevas, J. M., M. Torres-Puente, et al. (2008). "Genetic variability of hepatitis C virus before and after combined therapy of interferon plus ribavirin." PLoS One 3(8): e3058. Danta, M., D. Brown, et al. (2007). "Recent epidemic of acute hepatitis C virus in HIV- positive men who have sex with men linked to high-risk sexual behaviours." AIDS 21(8): 983-991. Deleersnyder, V., A. Pillez, et al. (1997). "Formation of native hepatitis C virus glycoprotein complexes." J Virol 71(1): 697-704. Dubuisson, J., F. Penin, et al. (2002). "Interaction of hepatitis C virus proteins with host cell membranes and lipids." Trends Cell Biol 12(11): 517-523. Duverlie, G., H. Khorsi, et al. (1998). "Sequence analysis of the NS5A protein of European hepatitis C virus 1b isolates and relation to interferon sensitivity." J Gen Virol 79 ( Pt 6): 1373-1381. 36 Enomoto, N., I. Sakuma, et al. (1996). "Mutations in the nonstructural protein 5A gene and response to interferon in patients with chronic hepatitis C virus 1b infection." N Engl J Med 334(2): 77-81. Escobar-Gutierrez, A., H. Soudeyns, et al. (2013). "Vertical transmission of hepatitis C virus: a tale of multiple outcomes." Infect Genet Evol 20: 465-470. Escobar-Gutierrez, A., M. Vazquez-Pichardo, et al. (2012). "Identification of hepatitis C virus transmission using a next-generation sequencing approach." J Clin Microbiol 50(4): 1461-1463. Esteban, J. I., S. Sauleda, et al. (2008). "The changing epidemiology of hepatitis C virus infection in Europe." J Hepatol 48(1): 148-162. Fan, W., W. Zhu, et al. (2005). "Nonstructural 5A gene variability of hepatitis C virus (HCV) during a 10-year follow up." J Gastroenterol 40(1): 43-51. Fischer, G. E., M. K. Schaefer, et al. (2010). "Hepatitis C virus infections from unsafe injection practices at an endoscopy clinic in Las Vegas, Nevada, 2007-2008." Clin Infect Dis 51(3): 267-273. Flamm, S. L., R. A. Parker, et al. (1998). "Risk factors associated with chronic hepatitis C virus infection: limited frequency of an unidentified source of transmission." Am J Gastroenterol 93(4): 597-600. Focaccia, R., O. J. da Conceicao, et al. (1998). "Estimated Prevalence of Viral Hepatitis in the General Population of the Municipality of Sao Paulo, Measured by a Serologic Survey of a Stratified, Randomized and Residence-Based Population." Braz J Infect Dis 2(6): 269-284. Fonseca-Coronado, S., A. Escobar-Gutierrez, et al. (2012). "Specific detection of naturally occurring hepatitis C virus mutants with resistance to telaprevir and boceprevir (protease inhibitors) among treatment-naive infected individuals." J Clin Microbiol 50(2): 281-287. Gale, M., Jr. and E. M. Foy (2005). "Evasion of intracellular host defence by hepatitis C virus." Nature 436(7053): 939-945. Gale, M. J., Jr., M. J. Korth, et al. (1997). "Evidence that hepatitis C virus resistance to interferon is mediated through repression of the PKR protein kinase by the nonstructural 5A protein." Virology 230(2): 217-227. Ganova-Raeva, L. M., Z. E. Dimitrova, et al. (2013). "Detection of hepatitis C virus transmission by use of DNA mass spectrometry." J Infect Dis 207(6): 999-1006. Garfein, R. S., D. Vlahov, et al. (1996). "Viral infections in short-term injection drug users: the prevalence of the hepatitis C, hepatitis B, human immunodeficiency, and human T-lymphotropic viruses." Am J Public Health 86(5): 655-661. Goffard, A., N. Callens, et al. (2005). "Role of N-linked glycans in the functions of hepatitis C virus envelope glycoproteins." J Virol 79(13): 8400-8409. Goffard, A. and J. Dubuisson (2003). "Glycosylation of hepatitis C virus envelope proteins." Biochimie 85(3-4): 295-301. Gonzalez-Candelas, F., M. A. Bracho, et al. (2013). "Molecular evolution in court: analysis of a large hepatitis C virus outbreak from an evolving source." BMC Biol 11: 76. Hellen, C. U. and T. V. Pestova (1999). "Translation of hepatitis C virus RNA." J Viral Hepat 6(2): 79-87. Iles, J. C., G. L. Abby Harrison, et al. (2013). "Hepatitis C virus infections in the Democratic Republic of Congo exhibit a cohort effect." Infect Genet Evol 19: 386- 394. Inchauspe, G., S. Zebedee, et al. (1991). "Genomic structure of the human prototype strain H of hepatitis C virus: comparison with American and Japanese isolates." Proc Natl Acad Sci U S A 88(22): 10292-10296. Jackowiak, P., K. Kuls, et al. (2013). "Phylogeny and molecular evolution of the hepatitis C virus." Infect Genet Evol 21C: 67-82. Jardim, A. C., C. Bittar, et al. (2013). "Analysis of HCV quasispecies dynamic under selective pressure of combined therapy." BMC Infect Dis 13: 61. 37 Karmochkine, M., F. Carrat, et al. (2006). "A case-control study of risk factors for hepatitis C infection in patients with unexplained routes of infection." J Viral Hepat 13(11): 775-782. Katoh, K. and D. M. Standley (2013). "MAFFT multiple sequence alignment software version 7: improvements in performance and usability." Mol Biol Evol 30(4): 772- 780. Khan, A., Y. Tanaka, et al. (2009). "Epidemic spread of hepatitis C virus genotype 3a and relation to high incidence of hepatocellular carcinoma in Pakistan." J Med Virol 81(7): 1189-1197. Khudyakov, Y. (2012). "Molecular surveillance of hepatitis C." Antivir Ther 17(7 Pt B): 1465-1470. Kuroda, M., H. Katano, et al. (2010). "Characterization of quasispecies of pandemic 2009 influenza A virus (A/H1N1/2009) by de novo sequencing using a next-generation DNA sequencer." PLoS One 5(4): e10256. Lauck, M., M. V. Alvarado-Mora, et al. (2012). "Analysis of hepatitis C virus intrahost diversity across the coding region by ultradeep pyrosequencing." J Virol 86(7): 3952-3960. Lauer, G. M. and B. D. Walker (2001). "Hepatitis C virus infection." N Engl J Med 345(1): 41-52. Lavanchy, D. (2009). "The global burden of hepatitis C." Liver Int 29 Suppl 1: 74-81. Lesburg, C. A., M. B. Cable, et al. (1999). "Crystal structure of the RNA-dependent RNA polymerase from hepatitis C virus reveals a fully encircled active site." Nat Struct Biol 6(10): 937-943. Li, H., M. B. Stoddard, et al. (2012). "Elucidation of hepatitis C virus transmission and early diversification by single genome sequencing." PLoS Pathog 8(8): e1002880. Lopes, C. L., S. A. Teles, et al. (2009). "Prevalence, risk factors and genotypes of hepatitis C virus infection among drug users, Central-Western Brazil." Rev Saude Publica 43 Suppl 1: 43-50. Lozano, R., M. Naghavi, et al. (2012). "Global and regional mortality from 235 causes of death for 20 age groups in 1990 and 2010: a systematic analysis for the Global Burden of Disease Study 2010." Lancet 380(9859): 2095-2128. Lutchman, G., S. Danehower, et al. (2007). "Mutation rate of the hepatitis C virus NS5B in patients undergoing treatment with ribavirin monotherapy." Gastroenterology 132(5): 1757-1766. Magiorkinis, G., E. Magiorkinis, et al. (2009). "The global spread of hepatitis C virus 1a and 1b: a phylodynamic and phylogeographic analysis." PLoS Med 6(12): e1000198. Margeridon-Thermet, S., N. S. Shulman, et al. (2009). "Ultra-deep pyrosequencing of hepatitis B virus quasispecies from nucleoside and nucleotide reverse- transcriptase inhibitor (NRTI)-treated patients and NRTI-naive patients." J Infect Dis 199(9): 1275-1285. Margulies, M., M. Egholm, et al. (2005). "Genome sequencing in microfabricated high- density picolitre reactors." Nature 437(7057): 376-380. Markov, P. V., J. Pepin, et al. (2009). "Phylogeography and molecular epidemiology of hepatitis C virus genotype 2 in Africa." J Gen Virol 90(Pt 9): 2086-2096. McAllister, J., C. Casino, et al. (1998). "Long-term evolution of the hypervariable region of hepatitis C virus in a common-source-infected cohort." J Virol 72(6): 4893-4905. Mellor, J., E. C. Holmes, et al. (1995). "Investigation of the pattern of hepatitis C virus sequence diversity in different geographical regions: implications for virus classification. The International HCV Collaborative Study Group." J Gen Virol 76 ( Pt 10): 2493-2507. Miller, R. H. and R. H. Purcell (1990). "Hepatitis C virus shares amino acid sequence similarity with pestiviruses and flaviviruses as well as members of two plant virus supergroups." Proc Natl Acad Sci U S A 87(6): 2057-2061. 38 Mohd Hanafiah, K., J. Groeger, et al. (2013). "Global epidemiology of hepatitis C virus infection: new estimates of age-specific antibody to HCV seroprevalence." Hepatology 57(4): 1333-1342. Moradpour, D., F. Penin, et al. (2007). "Replication of hepatitis C virus." Nat Rev Microbiol 5(6): 453-463. Nascimento, M. C., P. Mayaud, et al. (2008). "Prevalence of hepatitis B and C serological markers among first-time blood donors in Brazil: a multi-center serosurvey." J Med Virol 80(1): 53-57. Nasu, A., H. Marusawa, et al. (2011). "Genetic heterogeneity of hepatitis C virus in association with antiviral therapy determined by ultra-deep sequencing." PLoS One 6(9): e24907. Neumann, A. U., N. P. Lam, et al. (1998). "Hepatitis C viral dynamics in vivo and the antiviral efficacy of interferon-alpha therapy." Science 282(5386): 103-107. Niepmann, M. (2013). "Hepatitis C virus RNA translation." Curr Top Microbiol Immunol 369: 143-166. Ogata, N., H. J. Alter, et al. (1991). "Nucleotide sequence and mutation rate of the H strain of hepatitis C virus." Proc Natl Acad Sci U S A 88(8): 3392-3396. Oliveira, M. L., M. A. Hacker, et al. (2006). ""The first shot": the context of first injection of illicit drugs, ongoing injecting practices, and hepatitis C infection in Rio de Janeiro, Brazil." Cad Saude Publica 22(4): 861-870. Pawlotsky, J. M. (1998). "Genetic heterogeneity and properties of hepatitis C virus." Acta Gastroenterol Belg 61(2): 189-191. Pereira, L. M., C. M. Martelli, et al. (2013). "Prevalence and risk factors of Hepatitis C virus infection in Brazil, 2005 through 2009: a cross-sectional study." BMC Infect Dis 13: 60. Polyak, S. J., S. McArdle, et al. (1998). "Evolution of hepatitis C virus quasispecies in hypervariable region 1 and the putative interferon sensitivity-determining region during interferon therapy and natural infection." J Virol 72(5): 4288-4296. Powdrill, M. H., E. P. Tchesnokov, et al. (2011). "Contribution of a mutational bias in hepatitis C virus replication to the genetic barrier in the development of drug resistance." Proc Natl Acad Sci U S A 108(51): 20509-20513. Preciado, M. V., P. Valva, et al. (2014). "Hepatitis C virus molecular evolution: Transmission, disease progression and antiviral therapy." World J Gastroenterol 20(43): 15992-16013. Purcell, R. (1997). "The hepatitis C virus: overview." Hepatology 26(3 Suppl 1): 11S-14S. Ramachandran, S., D. S. Campo, et al. (2011). "Temporal variations in the hepatitis C virus intrahost population during chronic infection." J Virol 85(13): 6369-6380. Ramachandran, S., G. L. Xia, et al. (2008). "End-point limiting-dilution real-time PCR assay for evaluation of hepatitis C virus quasispecies in serum: performance under optimal and suboptimal conditions." J Virol Methods 151(2): 217-224. Ribeiro, R. M., H. Li, et al. (2012). "Quantifying the diversification of hepatitis C virus (HCV) during primary infection: estimates of the in vivo mutation rate." PLoS Pathog 8(8): e1002881. Rispeter, K., M. Lu, et al. (2000). "Hepatitis C virus variability: sequence analysis of an isolate after 10 years of chronic infection." Virus Genes 21(3): 179-188. Roccasecca, R., H. Ansuini, et al. (2003). "Binding of the hepatitis C virus E2 glycoprotein to CD81 is strain specific and is modulated by a complex interplay between hypervariable regions 1 and 2." J Virol 77(3): 1856-1867. Roche, L. S. C. (2011). "454 Sequencing System Guidelines for Amplicon Experimental Design." Rosini, N., D. Mousse, et al. (2003). "Seroprevalence of HbsAg, Anti-HBc and anti-HCV in Southern Brazil, 1999-2001." Braz J Infect Dis 7(4): 262-267. Rossi, L. M., A. Escobar-Gutierrez, et al. (2015). "Advanced molecular surveillance of hepatitis C virus." Viruses 7(3): 1153-1188. 39 Rozera, G., I. Abbate, et al. (2009). "Massively parallel pyrosequencing highlights minority variants in the HIV-1 env quasispecies deriving from lymphomonocyte sub-populations." Retrovirology 6: 15. Sabo, M. C., V. C. Luca, et al. (2011). "Neutralizing monoclonal antibodies against hepatitis C virus E2 protein bind discontinuous epitopes and inhibit infection at a postattachment step." J Virol 85(14): 7005-7019. Salles, N. A., E. C. Sabino, et al. (2003). "[The discarding of blood units and the prevalence of infectious diseases in donors at the Pro-Blood Foundation/Blood Center of Sao Paulo, Sao Paulo, Brazil]." Rev Panam Salud Publica 13(2-3): 111-116. Satoh, S., M. Hirota, et al. (2000). "Cleavage of hepatitis C virus nonstructural protein 5A by a caspase-like protease(s) in mammalian cells." Virology 270(2): 476-487. Scotta, C., A. R. Garbuglia, et al. (2008). "Influence of specific CD4+ T cells and antibodies on evolution of hypervariable region 1 during acute HCV infection." J Hepatol 48(2): 216-228. Simen, B. B., J. F. Simons, et al. (2009). "Low-abundance drug-resistant viral variants in chronically HIV-infected, antiretroviral treatment-naive patients significantly impact treatment outcomes." J Infect Dis 199(5): 693-701. Simmonds, P. (2004). "Genetic diversity and evolution of hepatitis C virus--15 years on." J Gen Virol 85(Pt 11): 3173-3188. Simmonds, P., E. C. Holmes, et al. (1993). "Classification of hepatitis C virus into six major genotypes and a series of subtypes by phylogenetic analysis of the NS-5 region." J Gen Virol 74 ( Pt 11): 2391-2399. Smith, D. B., J. Bukh, et al. (2014). "Expanded classification of hepatitis C virus into 7 genotypes and 67 subtypes: Updated criteria and genotype assignment web resource." Hepatology 59(1): 318-327. Smith, D. B., J. McAllister, et al. (1997). "Virus 'quasispecies': making a mountain out of a molehill?" J Gen Virol 78 ( Pt 7): 1511-1519. Soldan, K., J. A. Barbara, et al. (2003). "Estimation of the risk of hepatitis B virus, hepatitis C virus and human immunodeficiency virus infectious donations entering the blood supply in England, 1993-2001." Vox Sang 84(4): 274-286. Stockman, L. J., S. M. Guilfoye, et al. (2014). "Rapid hepatitis C testing among persons at increased risk for infection--Wisconsin, 2012-2013." MMWR Morb Mortal Wkly Rep 63(14): 309-311. Tamura, K., D. Peterson, et al. (2011). "MEGA5: molecular evolutionary genetics analysis using maximum likelihood, evolutionary distance, and maximum parsimony methods." Mol Biol Evol 28(10): 2731-2739. Tanaka, Y., F. Kurbanov, et al. (2006). "Molecular tracing of the global hepatitis C virus epidemic predicts regional patterns of hepatocellular carcinoma mortality." Gastroenterology 130(3): 703-714. Te, H. S. and D. M. Jensen (2010). "Epidemiology of hepatitis B and C viruses: a global overview." Clin Liver Dis 14(1): 1-21, vii. Torres, K. L., A. Malheiro, et al. (2009). "Hepatitis C virus in blood donors, Brazil." Emerg Infect Dis 15(4): 676-678. Tsibris, A. R. e. a. (2006). "Detection and Quantification of Minority Hiv-1 Env V3 Loop Sequences by Ultra-Deep Sequencing: Preliminary Results." 15th International HIV Drug Resistance Workshop. Sitges, Spain. International Medical Press. Valente, V. B., D. T. Covas, et al. (2005). "[Hepatitis B and C serologic markers in blood donors of the Ribeirao Preto Blood Center]." Rev Soc Bras Med Trop 38(6): 488- 492. Verbeeck, J., P. Maes, et al. (2006). "Investigating the origin and spread of hepatitis C virus genotype 5a." J Virol 80(9): 4220-4226. Ward, J. W. (2013). "The hidden epidemic of hepatitis C virus infection in the United States: occult transmission and burden of disease." Top Antivir Med 21(1): 15-19. 40 Wasley, A. and M. J. Alter (2000). "Epidemiology of hepatitis C: geographic differences and temporal trends." Semin Liver Dis 20(1): 1-16. Weiner, A. J., M. J. Brauer, et al. (1991). "Variable and hypervariable domains are found in the regions of HCV corresponding to the flavivirus envelope and NS1 proteins and the pestivirus envelope glycoproteins." Virology 180(2): 842-848. Weiner, A. J., G. Kuo, et al. (1990). "Detection of hepatitis C viral sequences in non-A, non-B hepatitis." Lancet 335(8680): 1-3. Wilkins, T., J. K. Malcolm, et al. (2010). "Hepatitis C: diagnosis and treatment." Am Fam Physician 81(11): 1351-1357. Williams, I. T., B. P. Bell, et al. (2011). "Incidence and transmission patterns of acute hepatitis C in the United States, 1982-2006." Arch Intern Med 171(3): 242-248. Zarife, M. A., L. K. Silva, et al. (2006). "Prevalence of hepatitis C virus infection in north- eastern Brazil: a population-based study." Trans R Soc Trop Med Hyg 100(7): 663-668. Zhang, M., B. Gaschen, et al. (2004). "Tracking global patterns of N-linked glycosylation site variation in highly variable viral glycoproteins: HIV, SIV, and HCV envelopes and influenza hemagglutinin." Glycobiology 14(12): 1229-1246. Zibbell, J. E., K. Iqbal, et al. (2015). "Increases in hepatitis C virus infection related to injection drug use among persons aged ≤30 years - Kentucky, Tennessee, Virginia, and West Virginia, 2006-2012." MMWR Morb Mortal Wkly Rep 64(17): 453-458. 41 Capítulo 2 Artigos Científicos Research paper Multiregion deep sequencing of hepatitis C virus: An improved approach for genetic relatedness studies Livia Maria Gonçalves Rossi a,b,⁎, Alejandro Escobar-Gutierrez b, Paula Rahal a a Department of Biology, Institute of Bioscience, Language and Exact Science, São Paulo State University, São José do Rio Preto, Sao Paulo, Brazil b Instituto de Diagnóstico y Referencia Epidemiológicos, Mexico City, Mexico a b s t r a c ta r t i c l e i n f o Article history: Received 22 November 2015 Received in revised form 23 December 2015 Accepted 24 December 2015 Available online 28 December 2015 Hepatitis C virus (HCV) is a major public health problem that affects more than 180 million people worldwide. Identification of HCV transmission networks is of critical importance for disease control. HCV related cases are often difficult to identify due to the characteristic long incubation period and lack of symptoms during the acute phase of the disease, making it challenging to link related cases to a common source of infection. Addition- ally, HCV transmission chains are difficult to trace back since viral variants from epidemiologically linked cases are genetically related but rarely identical. Genetic relatedness studies primarily rely on information obtained from the rapidly evolving HCV hypervariable region 1 (HVR1). However, in some instances, the rapid divergence of this region can lead to loss of genetic links between related isolates, which represents an important challenge for outbreak investigations and genetic relatedness studies. Sequencing of multiple and longer sub-genomic re- gions has been proposed as an alternative to overcome the limitations imposed by the rapidmolecular evolution of the HCV HVR1. Additionally, conventional molecular approaches required to characterize the HCV intra-host genetic variation are laborious, time-consuming, and expensive while providing limited information about the composition of the viral population. Next generation sequencing (NGS) approaches enormously facilitate the characterization of the HCV intra-host population by detecting rare variants at much lower frequencies. Thus, NGS approaches using multiple sub-genomic regions should improve the characterization of the HCV intra- host population. Here, we explore the usefulness of multiregion sequencing using a NGS platform for genetic relatedness studies among HCV cases. © 2015 Elsevier B.V. All rights reserved. Keywords: Hepatitis C virus Next generation sequencing Outbreak Multiregion Genetic relatedness 1. Introduction Globally, hepatitis C virus (HCV) affects more than 180 million people (Mohd Hanafiah et al. 2013), in addition to 3–4 million new infections per year (Alter 2007; Lavanchy 2009). HCV infection is one of the leading causes of chronic liver disease associated with end- stage cirrhosis and hepatocellular carcinoma (Lauer and Walker 2001; McHutchison and Bacon 2005). HCV is a small single-stranded, positive polarity, enveloped virus be- longing to the Hepacivirus genus within the Flaviviridae family (Smith et al. 2014). The RNA viral genome (~9.6 kb in length) contains a single open reading frame encoding for a long polyprotein that upon matura- tion by enzymatic cleavage originates three structural proteins and seven non-structural proteins (Chevaliez and Pawlotsky 2006; Stanley et al. 2007). The HCV RNA replication process is highly error prone (Moradpour et al. 2007), and so far seven major HCV genotypes and several sub-types have been identified (Smith et al. 2014). Introduction of point mutations by the RNA polymerase is the primary element contributing to the high genetic variability of HCV. The HCV mutation rate in vivo is ~2.5 × 10−5 per nucleotide per genome replication (Ribeiro et al. 2012); however, higher estimates have also been reported (Cuevas et al. 2009). Rapid detection of HCV outbreaks and implementation of proper disease control measures are crucial to prevent virus spread and provide adequate health care. However, HCV transmission networks are difficult to identify. The intricate patterns of HCV molecular evolu- tion and silent onset of disease complicate the recognition of transmis- sion events (Goncalves Rossi and Rahal 2014). The hypervariable region 1 (HVR1) is generally used to characterize the HCV intra-host population (Campo et al. 2014; Forbi et al. 2014), and to detect HCV transmission by assessing the genetic relatedness of HVR1 variants among infected patients (Campo et al. 2015; Cruz-Rivera et al. 2013; Escobar-Gutierrez et al. 2013; Escobar-Gutierrez et al. 2012; Gismondi et al. 2013; Rossi et al. 2015). However, there are intrinsic limitations imposed by the use of a rapidly evolving sub-genomic region (Preciado et al. 2014; Rossi et al. 2015). Over time, genetic links can be lost due to rapid sequence divergence, impairing outbreak investigation studies (Cruz-Rivera et al. 2013). Thus, we propose that sequencing of additional sub-genomic regions might aid to restore links between Infection, Genetics and Evolution 38 (2016) 138–145 ⁎ Corresponding author. E-mail address: liv.rossi@yahoo.com (L.M. Gonçalves Rossi). http://dx.doi.org/10.1016/j.meegid.2015.12.020 1567-1348/© 2015 Elsevier B.V. All rights reserved. Contents lists available at ScienceDirect Infection, Genetics and Evolution j ourna l homepage: www.e lsev ie r .com/ locate /meeg id http://crossmark.crossref.org/dialog/?doi=10.1016/j.meegid.2015.12.020&domain=pdf mailto:liv.rossi@yahoo.com Journal logo http://dx.doi.org/10.1016/j.meegid.2015.12.020 Unlabelled image www.elsevier.com/locate/meegid isolates. Here, deep sequencing of the HCV HVR1 supplemented with sequences originated from the NS5A region was used to establish relat- edness among HCV cases. 2. Materials and methods 2.1. Clinical samples HCV chronic cases, aged 34–58 years, were enrolled in this study. These patients were a sub-set of a larger cohort (Cruz-Rivera et al. 2013; Escobar-Gutierrez et al. 2012; Fonseca-Coronado et al. 2012). All patients were anti-HCV treatment-naïve reporting injection drug users (IDU) activity. Ethical review and informed consent approval were granted by the Ethical Committee of the reference laboratory in Mexico. Informed consent was obtained from all subjects. Plasma samples from all subjects were obtained and stored at −70 °C until use. Patients' characteristics are summarized in Table 1. 2.2. Amplicon deep sequencing The intra-host viral genetic variation in each patient was evaluated by deep amplicon sequencing of the HCV HVR1 and NS5A regions using the 454 GS Junior system. Viral RNA was extracted using the QIAamp viral RNA kit (QIAGEN, Valencia, CA), according to the manufacturer's recommendations. Extracted RNA was used as a tem- plate for the RT-PCR using the One Step RT-PCR kit (QIAGEN), and spe- cific first round primers recommended by the Centers for Disease Controls and Prevention (CDC) for each sub-genomic region (Ramachandran et al. 2011). Amplification of independent samples and regions was carried out under the following conditions: 50 °C for 60 min, 95 °C for 15 min, followed by 40 cycles at 95 °C for 30 s, 55 °C for 20 s, 72 °C for 60 s. Subsequently, each sample was amplified inde- pendently with fusion primers including the 454 primer key (A and B for forward and reverse primers, respectively), a multiple identifier (MID) and the specific primers (Table 2). Hybrid MID tagging was per- formed in suchway that each samplewas amplifiedwith a unique com- bination of forward and reverse primers, allowing for a limited number of fusion primers (Table 3). Nested PCR reaction was carried out using 2 μl of the original first round PCR product as template. PCR products were subsequently resolved and purified by agarose gel electrophoresis on SizeSelect e-gels (Invitrogen, Carlsbad, CA). The quality and quantity of individual amplicons were assessed on a 2100 bioanalyzer (Agilent Technologies, Santa Clara, CA) using a DNA 1000 kit (Agilent Technolo- gies). Purified amplicons were mixed at equimolar concentrations. Amplicon deep sequencingwas performed on a 454/Roche GS Junior in- strument (Roche Applied Science, Indianapolis, IN) using the titanium chemistry (Roche Applied Science). Denoising of data sets was carried out using flow clustering as implemented in QIIME (Caporaso et al., 2010; Quince et al., 2011). 2.3. Phylogenetic and median joining network (MJN) analyses Only long reads covering the entire length of the amplicon, including MID at both ends, were analyzed. Multiple alignment was performed using MAFFT v7 (Katoh and Standley 2013). Sequence reads were then analyzed using the neighbor joining method as implemented in MEGA 5 (Tamura et al. 2011). Intra-host genetic variation was also analyzed using MJN analysis (Bandelt et al. 1999), as implemented in Network v4.6 (Fluxus Technology) as previously described (Escobar- Gutierrez et al. 2013). Table 1 Patients' characteristics. Patient identifier Gender Age (yr) HCV genotype Viral titer (IU/ml) Number of haplotypes HVR1 NS5A P1 Male 40 1a 3,680,000 744 125 P2 Male 44 1a 2,090,000 67 51 P3 Male 56 1a 2,790,000 366 172 P4 Female 45 1a 7,900,000 194 128 P5 Male 58 1a 4,400,000 299 81 P6 Male 43 1a 7,190,000 28 20 P7 Female 36 1a 5,740,000 13 166 P8 Male 51 1a 7,300,000 153 92 P9 Male 57 1a 8,430,000 95 289 P10 Female 49 1a 5,230,000 713 74 P11 Male 50 1a 4,080,000 79 164 P12 Female 42 1a 9,500,000 313 55 P13 Male 53 1b 6,204,000 135 123 P14 Female 56 1b 7,860,000 1145 106 P15 Male 34 1b 8,620,000 56 42 P16 Male 37 1b 5,370,000 24 131 Table 2 Primer sequences. First Round HVR1-F1 TGGCTTGGGATATGATGATGAACT HVR1-R1 GCAGTCCTGTTGATGTGCCA NS5A-F1 TCATAGAGGCCAACCTCCTGTG NS5A-R1 TCGACCATGACCCGTCGCTGAG 454 sequencing FWD-HVR-MID-1 CGTATCGCCTCCCTCGCGCCATCAGACGAGTGCG TGGATATGATGATGAACTGGT FWD-HVR-MID-2 CGTATCGCCTCCCTCGCGCCATCAGACGCTCGAC AGGATATGATGATGAACTGGT FWD-HVR-MID-3 CGTATCGCCTCCCTCGCGCCATCAGAGACGCACT CGGATATGATGATGAACTGGT FWD-HVR-MID-4 CGTATCGCCTCCCTCGCGCCATCAGAGCACTGTA GGGATATGATGATGAACTGGT RVS-HVR-MID-1 CTATGCGCCTTGCCAGCCCGCTCAGACGAGTG CGTTTGATGTGCCAGCTGCCGTTGGTGT RVS-HVR-MID-2 CTATGCGCCTTGCCAGCCCGCTCAGACGCTCGAC ATTGATGTGCCAGCTGCCGTTGGTGT RVS-HVR-MID-3 CTATGCGCCTTGCCAGCCCGCTCAGAGACGCACT CTTGATGTGCCAGCTGCCGTTGGTGT RVS-HVR-MID-4 CTATGCGCCTTGCCAGCCCGCTCAGAGCACTGTA GTTGATGTGCCAGCTGCCGTTGGTGT FWD-NS5a-MID-1 CGTATCGCCTCCCTCGCGCCATCAGACGAGTGCG TAGTGGTGATTCTGGACTCTTTCG FWD-NS5a-MID-2 CGTATCGCCTCCCTCGCGCCATCAGACGCTCGAC AAGTGGTGATTCTGGACTCTTTCG FWD-NS5a-MID-3 CGTATCGCCTCCCTCGCGCCATCAGAGACGCACT CAGTGGTGATTCTGGACTCTTTCG FWD-NS5a-MID-4 CGTATCGCCTCCCTCGCGCCATCAGAGCACTGTA GAGTGGTGATTCTGGACTCTTTCG RVS-NS5a-MID-1 CTATGCGCCTTGCCAGCCCGCTCAGACGAGTG CGTCATGGAGGAATAGGACTCAGCGTC RVS-NS5a-MID-2 CTATGCGCCTTGCCAGCCCGCTCAGACGCTCGAC ACATGGAGGAATAGGACTCAGCGTC RVS-NS5a-MID-3 CTATGCGCCTTGCCAGCCCGCTCAGAGACGCACT CCATGGAGGAATAGGACTCAGCGTC RVS-NS5a-MID-4 CTATGCGCCTTGCCAGCCCGCTCAGAGCACTGTA GCATGGAGGAATAGGACTCAGCGTC Table 3 Hybrid MID tags. Forward primer MID1 MID2 MID3 MID4 Reverse primer MID1 P1 P2 P3 P4 MID2 P5 P6 P7 P8 MID3 P9 P10 P11 P12 MID4 P13 P14 P15 P16 139L.M. Gonçalves Rossi et al. / Infection, Genetics and Evolution 38 (2016) 138–145 3. Results 3.1. Phylogenetic analysis 3.1.1. HVR1 analysis Initially, we selected a sub-set of seven patients from our cohort from whom we have information about risk factors. Patients 1–7 were epidemiologically linked, belonging to the same IDU network. Addition- ally, nine unrelated cases, including 4 genotype 1b infected patients, were included in the study. All seven patients were HVR1 PCR positive, and genotyping showed that all strains belonged to genotype 1A. Deep sequencing was carried out targeting the HVR1 region from all seven related patients and a sub-group of non-related cases. Clean and corrected read sequences from all isolates were used to generate the corresponding phylogenetic (Fig. 1A). Related patients did not share any HCV variants. In fact, nucleotide distances from patients 1–5 were significantly large (Table 4). As a consequence, all variants were consid- erably distant from each other (minimal distance ranging from 15 to 23), exceeding the genetic distance threshold (Campo et al. 2015), effectively preventing us from assigning any genetic link. Therefore, genetic links purely based on sequence data from HVR1 could not be established. Interestingly, patients 1–5 exhibited very large intra-host genetic variability (maximum distance ranging from 30 to 60), suggest- ing the presence ofmore than one viral lineage in each patient (Table 4). On the other hand, patients 6 and 7 displayed a rather homogeneous viral population (average genetic distances 3.2 and 1.8, respectively), and were not genetically close to all other five patients in this network (minimal distance ranging from 35 to 48). Fig. 1. Phylogenetic analysis. Phylogenetic trees were generated with clean and corrected sequence reads from the HVR1 (A and C) and NS5A (B and D) regions form all patients. The neighbor joining tree was constructed using maximum composite likelihood nucleotide distances using MEGA5 and 1000 replications for bootstrapping. Individual viral variants recovered from each individual patient are color coded. (For interpretation of the references to color in this figure legend, the reader is referred to the web version of this article.) 140 L.M. Gonçalves Rossi et al. / Infection, Genetics and Evolution 38 (2016) 138–145 Image of Fig. 1 3.1.2. NS5A analysis HCV NS5A has been proposed to be a valuable sub-genomic region with enough sequence information to link related cases (Goncalves Rossi and Rahal 2014; Preciado et al. 2014; Ramachandran et al. 2011; Rossi et al. 2015). The lower mutation rate of the NS5A gene might allow for a better identification of transmission events particularly in those where rapid HVR1 evolution has taken place (Goncalves Rossi and Rahal 2014; Preciado et al. 2014). Thus, we then proceeded to am- plify a larger PCR fragment (~500 bp) targeting the NS5A region and subsequently deep sequencing all amplicons. The NS5A sequences that originated from patients 1, 3, 4 and 5 formed an independent cluster; however, no identical variants were identified. The nucleotide distances between the NS5A sequences were considerably smaller than the HVR1 counterparts (minimal distances ranging from 6 to 13). Patient 2 was not part of this cluster and exhibited a rather homogeneous (average distance 3.1), NS5A intra-host population (Table 4), despite displaying two different populations (average distance 17.2) when HVR1 sequences were analyzed. It is also noteworthy that patient 10 also exhibited a highly divergent HVR1 population (average distance 13.3) with two distinctive commu- nities (Fig. 1). Interestingly, NS5A viral variants were equally heteroge- neous (Table 4). Four non-related, genotype 1b isolates were also included as con- trols to rule out genotypic bias (Fig. 1C). All isolates were non-related. Three isolates exhibited HVR1 highly divergent sequences (patients 13, 14 and 15). NS5A sequences derived from these patients were slightly less divergent (Table 5). Only one isolate displayed limited HVR1 sequence variability (patient 16). NS5A sequences showed limit- ed genetic variability (average distance 2.9). 3.2. MJN analysis 3.2.1. Epidemiologically related, highly divergent isolates MJN analysis was carried out to further analyze the intra-host genetic variability of all seven epidemiologically related patients (Fig. 2). As observed in the phylogenetic analysis, patient 1 exhibited three distinctive communities when HVR1 sequences were analyzed (Fig. 2A). The three viral communitieswere distant but genetically relat- ed. The main community (I) linked the other two communities and includedmostmajor viral variants, accounting for ~53.0% of all variants. The second community also included one of the main variants (8.0%). The third community was composed predominantly by low frequency Table 4 Intra- and inter-genetic distances for genotype 1a isolates. HVR1 NS5A P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 P1 Min 0.0 0.0 Mean 18.6 4.5 Max 35.0 14.0 P2 Min 14.0 0.0 32.0 1.0 Mean 29.1 17.2 36.8 3.1 Max 52.0 40.0 42.0 12.0 P3 Min 15.0 9.0 0.0 6.0 33.0 0.0 Mean 27.7 25.4 8.5 12.4 37.2 3.2 Max 45.0 53.0 30.0 22.0 44.0 10.0 P4 Min 18.0 12.0 16.0 0.0 6.0 31.0 13.0 1.0 Mean 30.1 27.7 27.3 13.9 27.6 40.6 33.5 19.0 Max 62.0 55.0 54.0 57.0 49.0 52.0 52.0 55.0 P5 Min 23.0 23.0 22.0 23.0 1.0 8.0 37.0 9.0 12.0 0.0 Mean 43.1 44.0 40.9 42.9 28.7 12.2 41.0 12.8 32.3 2.2 Max 63.0 62.0 57.0 63.0 60.0 18.0 45.0 18.0 51.0 5.0 P6 Min 47.0 48.0 45.0 42.0 42.0 0.0 48.0 44.0 49.0 43.0 52.0 0.0 Mean 55.0 55.9 50.7 50.2 52.5 3.2 52.6 48.1 53.0 53.3 55.6 2.5 Max 63.0 67.0 57.0 59.0 63.0 10.0 61.0 56.0 60.0 63.0 62.0 7.0 P7 Min 42.0 45.0 37.0 40.0 35.0 44.0 0.0 39.0 33.0 40.0 37.0 43.0 50.0 0.0 Mean 50.3 51.8 42.4 44.8 47.2 46.6 1.8 45.6 38.6 45.6 46.0 47.3 54.7 4.0 Max 57.0 62.0 49.0 50.0 60.0 50.0 4.0 54.0 46.0 53.0 55.0 54.0 62.0 11.0 P8 Min 35.0 36.0 36.0 31.0 40.0 53.0 43.0 1.0 32.0 24.0 32.0 34.0 36.0 52.0 37.0 0.0 Mean 44.1 44.0 44.5 40.5 50.4 60.4 47.7 5.5 36.7 28.9 36.9 44.5 39.7 55.6 42.5 2.5 Max 52.0 54.0 52.0 62.0 60.0 65.0 53.0 13.0 42.0 35.0 43.0 52.0 43.0 62.0 50.0 7.0 P9 Min 31.0 32.0 29.0 31.0 39.0 48.0 37.0 32.0 0.0 24.0 29.0 29.0 30.0 30.0 43.0 38.0 34.0 0.0 Mean 40.2 38.2 38.7 39.7 50.6 52.7 40.9 38.5 3.4 29.7 34.7 34.7 42.3 34.8 48.1 43.6 38.5 2.6 Max 49.0 43.0 46.0 50.0 61.0 56.0 43.0 44.0 6.0 37.0 41.0 40.0 52.0 39.0 56.0 50.0 44.0 8.0 P10 Min 31.0 33.0 32.0 29.0 37.0 51.0 41.0 35.0 28.0 1.0 24.0 26.0 25.0 30.0 28.0 43.0 36.0 26.0 28.0 1.0 Mean 45.8 41.4 40.8 40.0 50.1 56.7 47.5 45.1 36.5 13.3 33.2 33.1 33.3 45.7 36.2 48.8 43.4 32.8 34.4 13.3 Max 59.0 51.0 52.0 61.0 63.0 64.0 54.0 56.0 45.0 31.0 43.0 43.0 44.0 60.0 44.0 60.0 55.0 42.0 44.0 30.0 P11 Min 43.0 46.0 43.0 42.0 36.0 39.0 35.0 47.0 38.0 48.0 0.0 37.0 38.0 42.0 30.0 45.0 37.0 38.0 40.0 38.0 34.0 0.0 Mean 51.8 52.1 53.9 49.5 46.8 43.3 39.7 52.8 43.8 54.9 3.3 43.8 41.9 47.9 43.9 49.9 41.8 43.0 44.6 43.8 43.3 2.8 Max 61.0 58.0 60.0 56.0 59.0 46.0 44.0 58.0 48.0 61.0 7.0 52.0 52.0 55.0 57.0 56.0 50.0 49.0 50.0 52.0 52.0 10.0 P12 Min 40.0 46.0 42.0 39.0 36.0 51.0 35.0 49.0 40.0 38.0 34.0 1.0 34.0 37.0 39.0 28.0 40.0 38.0 37.0 36.0 37.0 34.0 26.0 0.0 Mean 51.4 52.1 49.9 47.3 48.8 56.4 40.1 56.0 46.3 48.1 39.1 5.0 40.3 41.9 44.3 43.3 44.2 42.9 43.0 40.2 42.6 41.8 31.0 3.2 Max 63.0 58.0 60.0 59.0 61.0 63.0 45.0 65.0 53.0 58.0 45.0 14.0 47.0 50.0 50.0 53.0 49.0 50.0 50.0 45.0 48.0 50.0 37.0 9.0 Table 5 Intra- and inter-genetic distances for genotype 1b isolates. HVR1 NS5A P13 P14 P15 P16 P13 P14 P15 P16 P13 Min 1.0 1.0 Mean 8.3 6.0 Max 25.0 21.0 P14 Min 36.0 0.0 39.0 1.0 Mean 46.8 8.3 46.0 7.5 Max 57.0 24.0 55.0 22.0 P15 Min 38.0 26.0 1.0 37.0 34.0 1.0 Mean 48.6 45.1 14.8 44.5 42.9 12.4 Max 55.0 57.0 34.0 53.0 52.0 26.0 P16 Min 38.0 36.0 16.0 1.0 39.0 41.0 9.0 0.0 Mean 43.5 44.4 30.0 2.6 46.1 46.4 15.6 2.9 Max 48.0 51.0 38.0 5.0 52.0 52.0 23.0 7.0 141L.M. Gonçalves Rossi et al. / Infection, Genetics and Evolution 38 (2016) 138–145 variants and was the most distant population (Fig. 2A). Conversely, NS5A sequences derived from this isolate were significantly more ho- mogeneous, grouping into a single community (Fig. 2B). Several major variants were identified within this community accounting for ~78.0% of all variants. HVR1 sequences from patient 2 displayed a different pattern (Fig. 2C). Two very distinctive communities, separated by 35 nucleotides, were identified. The main community contained most major variants that were closely related and separated mostly by 1-step mutations. The second community also included several major variants that were more diverse than the variants grouped in the main community. On the other hand, NS5A sequences derived from this patient were extremely homogeneous, including a major variant that accounted for 63.0% of all variants. Only three sequenceswere somehow distant (≥4 nucleotides), and far from the major variant (Fig. 2D). Patient 3 also presented two distinctive communities, 13 nucleotides apart, when HVR1 sequences were analyzed (Fig. 2E). The main com- munity (I) included the major variant (47.0%) and the vast majority of all variants. The second community was scarcely populated and com- prised primarily low frequency variants that were separated by 1-step mutations. NS5A viral variants derived from patient 3 seemed to group into two very closely related communities. The main community (I) includedmost of themajor variants, although the second community also included few major variants. One of the major variants in commu- nity II was the linkage between both communities. Despite exhibiting two communities, patient 4 was mostly represented by variants contained in community I, including all major HVR1 viral variants (Fig. 2G). The minor community included only 14 HVR1 sequences that were somehow distant to such extent that could be separated into two further sub-communities. This was not surprising since NS5A sequences derived from the same patient indicated the presence of sev- eral non-related strains (Fig. 2H), possibly suggesting superinfection with multiple strains. Patient 5 also presented two fairly distinctive HVR1 communities (Fig. 2I). These communities were separated by at least 38 nucleotides. Community I included the major variant (48.0%) and an important number of low frequency closely related variants. Community II wasmore complex, basically composed by low frequency variants. Purely based on genetic distances, this second community could also be grouped into two different sub-communities. However, NS5A sequences derived from this patientwere extremely homogenous forming a very compact network with one major viral variant at the center of the network surrounded by mostly minor variants, and few relative major variants, 1-step apart. Overall, NS5A sequences were less diverse than their HVR1 counterparts. 3.2.2. Epidemiologically related, non-divergent isolates Patients 6 and 7 exhibited limited nucleotide diversity in both regions. The MJN analysis corroborated that observation and showed the existence of only one community in both isolates regardless of the sub-genomic region used to infer the sequence divergence (Fig. 3). Patient 7, however, exhibited amore complex NS5A population in com- parisonwith HVR1 sequences (Table 4).While all variants derived from these patients still grouped into a single network, the complexity was significantly higher than the one derived from HVR1 sequences (Fig. 3D). Fig. 2. MJN analysis for epidemiologically related and highly divergent isolates. MJN analyses from highly divergent isolates derived from epidemiologically related patients were performed as previously reported (Escobar-Gutierrez et al. 2013). The size of the node represents the percentage of that particular haplotype in the population. Long links were shortened and ‘breaks” were inserted to facilitate visual display. The numbers above each break represent the number of nucleotides between the two nodes. Left and right panels depict HVR1 and NS5A MJN, respectively. Patient 1 (A and B), 2 (C and D), 3 (E and F), 4 (G and H) and 5 (I and J) are color coded as in Fig. 1. Arrows show major variants, and Roman numbers indicate communities within the viral population. (For interpretation of the references to color in this figure legend, the reader is referred to the web version of this article.) 142 L.M. Gonçalves Rossi et al. / Infection, Genetics and Evolution 38 (2016) 138–145 Image of Fig. 2 4. Discussion Here, we have shown that multiregion sequencing significantly improves the resolution of HCV genetic relatedness studies. The results showed that deep sequencing pairedwith analysis ofmultiple regions is a powerful tool for molecular characterization of the viral population in clinical samples. Importantly, the use of bothHVR1 andNS5A sequences in the phylogenetic analysis might help restore otherwise lost links when only information obtained from the HVR1 region alone is ana- lyzed. Importantly, we were not able to link these cases using data from the NS5A region since accurate genetic thresholds are not current- ly established. However, our analysis is indicative of the circulation of closely related strains, likely over a long period of time, within the same IDU network. Overall, NS5A sequences were less divergent than HVR1 sequences, even in those cases where multiple HVR1 viral communities were identified (Fig. 2B, D and J). This might indicate rapid intra-host evolution from an ancestor giving origin to lineages which still share closely related NS5A sequences. Alternatively, these might reflect superinfection with closely related viral lineages circulating in a close IDU network as reported by others (Cruz-Rivera et al. 2013). Our results cannot rule out either possibility. Thus, inter-host evolution could play a role in HCV intra-host genetic variability, since members of the same IDU network are likely to be exposed to related viral lineages evolving over time within the network. Indeed, remarkably high intra- host genetic variability has been reported among IDU (Cruz-Rivera et al. 2013). Interestingly, patients 3 and 4 exhibited more complex NS5A popu- lations (Fig. 2F andH). This could be the reflection of introduction of rel- atively new viral lineages into the IDU network, leading to distinctive non-related communities within the same patient. In accordance with these observations, patients 6 and 7 displayed rather homogeneous viral populations, both HVR1 and NS5A (Fig. 3A and B). Despite not sharing sequences with patients 3 and 4 (Table 4), or being relatively close (minimal distance ≥37 for both sub-genomic regions), we cannot rule out the existence of other members of the same IDU network with related strains. Importantly, patients 6 and 7 also showed a limited ge- netic variability regardless of the region analyzed (Table 4). These might suggest a relative recent transmission event in these individuals. Genetic variability has been previously reported to be a dependable in- dicator of chronicity (Astrakhantseva et al. 2011; Montoya et al. 2015). Thus, in addition to aid establishing genetic relatedness, sequences derived from both regions can also provide information on incident cases related to recent transmission events. The addition of a second informative region containing sufficient sequence information, such as the NS5A, in genetic relatedness studies might aid in restoring links among related cases. While the NS5A gene is relatively more conserved than the HVR1 (Rispeter et al. Fig. 3.MJN analysis for epidemiologically related and non-divergent isolates. MJN analyses from isolates with limited nucleotide diversity derived from epidemiologically related patients were performed as describedpreviously (Escobar-Gutierrez et al. 2013). Left and right panels depictHVR1 andNS5AMJN, respectively. Patient 6 (A and B), 7 (C andD) are color coded as in Fig. 1. Arrows show major variants. (For interpretation of the references to color in this figure legend, the reader is referred to the web version of this article.) 143L.M. Gonçalves Rossi et al. / Infection, Genetics and Evolution 38 (2016) 138–145 Image of Fig. 3 2000), it still exhibits sufficiently genetic variability allowing its use in genetic relatedness studies. Our phylogenetic analysis derived from HVR1 sequences was incapable of linking cases since minimum genetic distances between cases significantly exceeded the genetic threshold (Campo et al. 2015). However, the inclusion of the NS5A region in the analysis brought the minimum sequence identity to a degree of close- ness, suggesting that these HCV strains are circulating within the same IDU network. Several limitations are imposed upon the use of rapidly evolving sub-genomic regions such as theHCVHVR1 for genetic relatedness stud- ies (Cruz-Rivera et al. 2013; Rossi et al. 2015). Frequently, viral genomes sampled from cases and suspected sources are genetically related but rarely identical (Vandamme and Pybus 2013). The sequences originated from such cases are, however, likely more similar than those from non- epidemiologically related cases (Vandamme and Pybus 2013). In out- break investigation, genetic closeness should be established by including suitable unrelated controls (Escobar-Gutierrez et al. 2012; Fischer et al. 2010); however, determining an appropriate genetic threshold is challenging (González-Candelas et al. 2013; Vandamme and Pybus 2013). The most important limitation of our study is the lack of a larger number of unrelated cases that would allow us to establish a reliable ge- netic threshold for the NS5A region. As reported previously, determining such genetic threshold is region and setting dependent (Campo et al. 2015; González-Candelas et al. 2013; Vandamme and Pybus 2013). Thus, larger studies are required to further refine our genetic analysis and adequately assigned relatedness links between HCV cases. Intra-host genetic divergence in theHVR1 can reach up to 17%,while the inter-host divergence in unrelated cases can be as low as 5% (Bruno et al. 2015), further complicating the establishment of transmission links. In this study, the intra-host variability ranged between 0.0 and 60.0. The difficulty in establishing the genetic relationship between as- sociated cases can be due to different evolutionary processes imposed on the HCV intra-host population during the course of infection (Rossi et al. 2015). Patients may experience a rapid evolution over short periods of time imposed by external factors such as antiviral therapy, or the result of potential re-infection and/or superinfection (Cruz-Rivera et al. 2013; Goncalves Rossi and Rahal 2014; Rossi et al. 2015). Rapid se- quence divergence significantly affects genetic relatedness between iso- lates associated with common sources of infection (Cruz-Rivera et al. 2013; Kurosaki et al. 1993; Ray et al. 2005), resulting in loss of links over time. In rapid evolving HCV populations, the high degree of diver- gence will likely cause an overlap of minimal genetic distances to those obtained from unrelated cases, thus preventing the correct assignment of cases to clusters of transmission (Cruz-Rivera et al. 2013). Moreover, phylogenetic analyses of the E1/E2 region not always faithfully reflect ep- idemiological relationships between isolates from serial transmissions (Casino et al., 1999). Additionally, changes in viral populations have been observed in patients undergoing combination peg IFN–RBV antivi- ral therapy, where patients showed different patterns of HVR1 evolution. In some cases, the majority of viral variants identified at baseline remained unchanged or showed little variation during therapy; however, in others, most baseline variants disappeared and were replaced by new variants (Saludes et al. 2013). In chronic cases, where evolution took place over a long period, the HCV populatio