UNIVERSIDADE ESTADUAL PAULISTA “JÚLIO DE MESQUITA FILHO” INSTITUTO DE QUÍMICA – CÂMPUS DE ARARAQUARA PROGRAMA DE PÓS-GRADUAÇÃO EM BIOTECNOLOGIA Danilo Faustino Braganholi Análise de polimorfismos INDELs na Identificação Humana Araraquara - SP 2016 2 DANILO FAUSTINO BRAGANHOLI Análise de polimorfismos INDELs na Identificação Humana Tese apresentada ao Instituto de Química de Araraquara, Universidade Estadual Paulista “Julio de Mesquita Filho”, como parte dos requisitos para obtenção do título de Doutor em Biotecnologia. Área de concentração: Biologia Molecular Orientadora: Profa. Dra. Regina Maria Barretto Cicarelli Araraquara - SP 2016 3 4 DEDICATÓRIA Aos meus maiores exemplos de motivação, Meus pais Antonio e Vera. 5 AGRADECIMENTOS À minha família, pelo apoio em todos os sentidos imagináveis, em especial minha esposa Lis, quem multiplica diariamente minha alegria. À Professora Regina Cicarelli, pela confiança, atenção e por proporcionar esta fase de grande aprendizado. Ao Dr. Rui Pereira, pelo auxílio neste trabalho e ótima experiência em Portugal, e à Dra. Leonor Gusmão, pela disponibilidade e atenção. Às amigas Isabela e Fernanda, pelo auxílio neste trabalho, pela amizade e por fazerem do laboratório um ótimo ambiente de trabalho. À Dra. Joyce Martins, pelo auxílio e esclarecimento de dúvidas. À todos os amigos dos laboratórios de Paternidade e Imunologia pela amizade e companhia diária. Ao CNPq pela bolsa do Doutorado e a CAPES pela bolsa de Portugal. 6 “Cada um de nós compõe a sua história, cada ser em si carrega o dom de ser capaz e ser feliz”. Almir Sater e Renato Teixeira 7 LISTA DE ABREVIATURAS E SIGLAS AIM-INDELs INDELs informativos de ancestralidade DNA Ácido desoxirribonucleico DNA mt DNA mitocondrial EC eletroforese capilar GHEP-ISFG Grupo de Línguas Espanhola e Portuguesa da Sociedade Internacional de Genética Forense He Heterozigosidade esperada HID Human Identification, identificação humana HID-INDELs INDELs para identificação humana Ho Heterozigosidade observada IBGE Instituto Brasileiro de Geografia e Estatística INDELs Polimorfismos de inserção/deleção Kb kilo pares de base (1000 pb) LD Linkage Disequilibrium, desequilíbrio de ligação MCMC Markov Chain Monte Carlo MID Marshfield identification NA não se aplica NCBI National Center for Biotechnology Information NGS Next Generation Sequencing, sequenciamento de nova geração pb pares de base q.s.p. quantidade suficiente para rpm rotações por minuto STR Short tandem repeat SNP Single nucleotide polymorphism 8 RESUMO Os marcadores STR são os mais utilizados na rotina de identificação humana e genética forense, entretanto, os marcadores INDELs vem chamando a atenção dos pesquisadores desta área, pois sua análise pode ser uma ferramenta interessante por serem analisados com um fragmento menor que os STR e apresentarem baixa taxa de mutação, podendo ser utilizados na identificação de indivíduos e na avaliação de ancestralidade. Neste trabalho, caracterizamos as populações brasileiras dos estados de São Paulo e Espírito Santo pela análise de marcadores INDEL através de dois sistemas: 38 HID-INDELs, verificando a eficiência forense nas duas populações e comparando os dados com os de STRs rotineiramente utilizados na população de São Paulo; e 46 AIM-INDELs, avaliando as proporções de ancestralidade nas duas populações, e comparando os dados com os de marcadores uniparentais na população do Espírito Santo. Ambos os métodos foram eficientes para suas respectivas finalidades, sendo que o sistema 38 HID-INDELs apresentou alto poder de discriminação, para Espírito Santo (PD = 0,9999999999999990) e para São Paulo (PD = 0,999999999999994); e o sistema 46 AIM-INDELs confirmou a miscigenação das populações estudadas, e neste caso, com maior ancestralidade genética de europeus, em comparação a africanos e nativo-americanos. Além disso, inserimos o marcador amelogenina no sistema multiplex 38 HID-INDELs como uma ferramenta complementar para identificação de sexo de amostras degradadas. Palavras-chave: INDELs. Identificação humana. Ancestralidade 9 ABSTRACT The STR markers are the most used in routine of human identification and forensic genetics, however, INDEL markers has attracted the attention of those researchers in this area, because their analysis can be an interesting tool to be analyzed with a smaller fragment that STR and to present low mutation rate, may be used to identify individuals and evaluating ancestry. In this work, we characterized the Brazilian populations of the states of São Paulo and Espírito Santo by INDEL markers analysis through two systems: 38 HID-INDELs, checking the forensic efficiency in this two populations and comparing the data with STRs routinely used in São Paulo population; and 46 AIM-INDELs, assessing the proportions of ancestry in this two populations, and comparing the data with uniparental markers in Espírito Santo population. Both methods were effective for their respective purposes, the 38 HID- INDELs system showed high discrimination power to Espírito Santo (PD = 0.9999999999999990) and to São Paulo (PD = 0.999999999999994); and the 46 AIM- INDELs system confirmed the mixing of the populations studied, and in this case , with greater genetic ancestry of europeans, compared to africans and native americans. In addition, we insert the amelogenin marker in the 38 HID-INDELs multiplex system as a complementary tool to identificate the sex of degraded samples. Keywords: INDELs. Human identification. Ancestry 10 SUMÁRIO 1 INTRODUÇÃO 14 1.1 Identificação humana 14 1.2 Análise do genoma humano 14 1.3 Short Tandem Repeats (STRs) 16 1.4 Single Nucleotide Polymorphisms (SNPs) 17 1.5 Polimorfismos de inserção/deleção (INDELs) 18 1.6 Marcadores genéticos de uso forense 20 1.7 Marcadores INDELs para identificação humana (HID-INDELs) 22 1.8 Marcadores INDELs informativos de ancestralidade (AIM-INDELs) 23 2 JUSTIFICATIVA 26 3 OBJETIVO GERAL 29 3.1 Objetivos específicos 29 4 MATERIAIS E MÉTODOS 31 4.1 Aspectos Éticos 31 4.2 Casuística 31 4.3 Extração de DNA 31 4.4 Análise de 38 HID-INDELs (human identification) 32 4.4.1 Implantação da metodologia 32 4.4.2 Reação em cadeia da polimerase (PCR) 34 4.4.3 Purificação 35 4.4.4 Eletroforese capilar 36 4.4.5 Determinação dos perfis alélicos e análise estatística 36 4.5 Inserção do marcador para amelogenina na reação de 38 HID- 37 11 INDELs 4.5.1 Seleção dos primers 37 4.5.2 Reação de PCR 38 4.5.3 Purificação e Eletroforese Capilar 38 4.5.4 Análise 38 4.6 Análise de 20 STRs autossômicos 38 4.6.1 Reação em cadeia da polimerase (PCR) 38 4.6.2 Eletroforese Capilar 40 4.6.3 Determinação dos perfis alélicos e análise estatística 40 4.7 Análise de 46 AIM-INDELs (marcadores informativos de ancestralidade) 40 4.7.1 Implantação da metodologia 40 4.7.2 Período sanduíche 43 4.7.3 Reação em cadeia da polimerase (PCR) 43 4.7.4 Purificação 44 4.7.5 Eletroforese capilar 44 4.7.6 Determinação dos perfis alélicos e análise estatística 45 4.7.7 Comparação de 46 AIM-INDELs com cromossomo Y e DNA mt 45 4.8 Fluxograma de trabalho 45 5 RESULTADOS E DISCUSSÃO 48 5.1 Análise de 38 HID-INDELs 48 5.1.1 Implantação e avaliação da técnica 48 5.1.2 Variação genética das populações 51 5.1.3 Avaliação da eficiência forense 53 5.2 Inserção do marcador da amelogenina na reação de 38 HID- INDELs 61 5.3 Comparação entre STRs e 38 HID-INDELs em amostras do 64 12 estado de São Paulo 5.4 Análise de 46 AIM-INDELs 67 5.4.1 Implantação e avaliação da técnica 68 5.4.2 Diversidade gênica e distância genética entre populações 71 5.4.3 Proporções de ancestralidade 80 5.4.4 Identificação do alelo 3 nas amostras analisadas 85 5.5 Comparação de dados do cromossomo Y, DNA mt e AIM- INDELs na população do estado de Espírito Santo 86 6 CONCLUSÕES 89 REFERÊNCIAS 90 ANEXO 96 13 INTRODUÇÃO 14 1 INTRODUÇÃO A identificação humana (human identification – HID) é o processo científico pelo qual se determina a identidade de uma pessoa, por meio do estabelecimento de um conjunto de caracteres que a individualize, fazendo-a igual apenas a si mesma (FRANÇA, 2011). Dentre os processos de identificação humana, tem-se o campo da ciência que envolve a análise de marcadores biológicos protéicos e moleculares. 1.1 Identificação humana O uso de sistemas protéicos apresenta alguns inconvenientes para a aquisição de altos níveis de diferenciação entre os indivíduos, tais como: baixa estabilidade em amostras expostas ao ambiente; baixo poder de discriminação e a ausência dos mesmos marcadores protéicos em todos os tecidos de um mesmo indivíduo (WEEDN; SWARNEN, 1998). A tipagem de polimorfismos genéticos pela análise do DNA contornou essas limitações e revolucionou a ciência voltada à identificação humana. A variação genética existente entre os indivíduos, uma das principais características das populações humanas, faz com que todos os indivíduos (com exceção de gêmeos monozigóticos) tenham um genoma único. O estudo das variações genéticas, utilizando os polimorfismos do DNA que são encontrados com ampla distribuição em todo o genoma, permite uma melhor compreensão da história e da diversidade das populações humanas, além de proporcionar um sistema para a identificação genética de indivíduos (BUTLER, 2005). 1.2 Análise do genoma humano O genoma humano é o conjunto de toda a informação genética existente nas células do organismo; está contido no núcleo das células somáticas em 46 cromossomos (22 pares de cromossomos homólogos e 1 par de cromossomos sexuais X/Y), denominado de DNA nuclear, e em duplas fitas circulares presentes no 15 interior da organela celular mitocôndria, denominado DNA mitocondrial (DNA mt) (BUTLER, 2005). O DNA nuclear é biparental, ou seja, metade dos cromossomos é herdada da mãe e a outra metade do pai e possui apenas uma cópia por célula (Figura 1). Nos gametas (óvulo e espermatozóide), a diferença é o número de cromossomos, sendo 23 cromossomos de origem materna, no caso do óvulo, ou de origem paterna, no caso do espermatozóide, assim, em uma análise de investigação de paternidade é possível identificar o verdadeiro pai, pois metade do DNA do filho foi herdado de seu pai. A palavra “polimorfismo” tem origem grega e significa “muitas formas”, assim, regiões no genoma que apresentam variabilidade superior a 1% são denominados polimorfismos genéticos. A aplicação do DNA na identificação humana (HID) decorre do seu alto poder de discriminação gerado por seus polimorfismos, que são classificados em dois tipos: - Polimorfismos de seqüência, originados por substituição de um ou mais nucleotídeos numa seqüência de DNA. - Polimorfismos de comprimento, originados por inserções ou deleções de um ou mais nucleotídeos. Dentre os polimorfismos de comprimento destacam-se os short tandem repeats (STRs) e os polimorfismos de inserção/deleção (INDELs), e, dentre os polimorfismos de sequência os mais frequentes são os single nucleotide polymorphisms (SNPs). Estas formas de variação genética ocorrem em todo o genoma nuclear e algumas também no genoma mitocondrial. Devido ao modo diferente de herança dos cromossomos autossomos, sexuais e das mitocôndrias (Figura 1), a localização de um marcador genético no genoma tem um impacto importante sobre suas características e, consequentemente, sobre sua aplicabilidade. 16 Figura 1 - Ilustração da hereditariedade de segmentos recombinantes e não recombinantes do genoma em três gerações. Fonte: Pereira, R. (2011). Cromossomo Y do filho (simbolizado como pequeno cromossomo) que descende do avô paterno e DNA mt (simbolizado como círculo) que descende da avó materna. Em contraste, os cromossomos autossomos (simbolizados como grandes cromossomos) descendem de todos os seus avós, e se recombinam por gerações (JOBLING et al., 2004). 1.3 Short Tandem Repeats (STRs) Os STRs são unidades de repetição do DNA constituídas de 2 a 7 pb que se repetem geralmente de 5 a 30 vezes (LITT et al., 1989), são encontrados em genomas eucariotos e estão amplamente distribuídos no genoma humano (LANDER et al., 2011). As sequências de repetição dos STRs são nomeadas pelo comprimento da unidade de repetição, por exemplo, di-, tri- e tetranucleotídeos. A Sociedade Internacional de Genética Forense (ISFG) recomenda a utilização de tetranucleotídeos para identificação humana, pois estes possuem um grau de 17 polimorfismo razoável e baixa taxa de mutação em comparação com os outros tamanhos de repetição (MONTEIRO, 2007). Os STRs tornaram-se marcadores de DNA muito utilizados na identificação humana porque são facilmente amplificados pela reação em cadeia da polimerase (PCR), o número de repetições pode ser altamente variável entre os indivíduos (BUTLER, 2011) e, permitem a utilização de reações em multiplex, que é a amplificação simultânea de múltiplas regiões do DNA, adicionando mais de um par de iniciadores na reação de PCR. Além disso, a detecção pode ser realizada em sistemas fluorescentes que permitem a automação dos sistemas de eletroforese e a interpretação dos perfis de DNA (BUTLER, 2005). O FBI (Federal Bureau of Investigation) estabeleceu treze marcadores STRs como o conjunto mínimo a ser utilizado em genética forense nos Estados Unidos, sendo este denominado CODIS (Combined DNA Index System) que é composto pelos seguintes marcadores: TPOX, D3S1358, FGA, D5S818, CSF1PO, D7S820, D8S1179, TH01, vWA, D13S317, D16S539, D18S51 e D21S11 (BUDOWLE et al., 1998). 1.4 Single Nucleotide Polymorphisms (SNPs) O SNP (single nucleotide polymorphism), que é a substituição de uma única base, é a forma mais simples e mais comum de variação genética (DAWSON et al., 2001). Um SNP caracteriza-se, por exemplo, pela substituição de uma base “A” (adenina) por “T” (timina) num determinado ponto no genoma. Pela sua natureza, este tipo de polimorfismo com dois estados alélicos (ancestral e derivado) também pode ser nomeado de polimorfismo binário ou bialélico, onde eventos mutacionais podem ocorrer ao longo de gerações, porém, com uma frequência muito baixa, apresentando alta especificidade geográfica (NACHMAN; CROWELL, 2000). Apesar da baixa taxa de mutação, os SNPs são distribuídos abundantemente no genoma ocorrendo em média entre 1-2 Kb (CLIFFORD et al., 2000) 18 Uma simples busca no banco de dados NCBI (National Center for Biotechnology Information)-http://www.ncbi.nlm.nih.gov/SNP, consulta realizada em 22 de fevereiro de 2016 - resulta em mais de 710 milhões de SNPs no genoma humano. SNP é o mais estudado tipo de polimorfismo do DNA podendo ter grande impacto sobre a forma como os seres humanos respondem às doenças, fatores ambientais, drogas e outras terapias. Isto gerou um avanço nas tecnologias de genotipagem e aumento de estudos de associação do genoma a diversas características (SOBRINO; BRION; CARRACEDO, 2005; HIRSCHHORN; GAJDOS, 2011). Uma vez que os SNPs são mais estáveis que os STRs, eles são úteis para o estudo da evolução história das populações humanas em escalas de tempo mais profundas (JAKOBSSON et al., 2008). Na área forense, apesar de apresentar uma diversidade genética menor que os STRs, os SNPs têm várias características desejáveis como marcadores genéticos: podem ser analisados em fragmentos muito curtos, o que é importante para melhorar o sucesso de amplificação em DNA altamente degradado e apresentam baixa taxa de mutação, o que é interessante em testes de parentesco (NACHMAN; CROWELL 2000). Os SNPs são utilizados na identificação de haplótipos do DNA mitocondrial (DNA mt) e cromossomo Y e, mais recentemente, na análise de amostras altamente degradadas como na identificação de vítimas de desastres, por exemplo, bem como para inferir ascendência biogeográfica de indivíduos e desvendar características fenotípicas (JOBLING; GILL, 2004; BUDOWLE; van DAAL, 2008; KAYSER; de KNIJFF, 2011). 1.5 Polimorfismos de inserção/deleção (INDELs) Os polimorfismos de inserção/deleção (INDELs) são polimorfismos de comprimento, caracterizados pela inserção ou deleção de um ou mais nucleotídeos em uma determinada região do genoma (PEREIRA, R. et al., 2009); pode-se utilizar como exemplo o polimorfismo rs16363, que apresenta a deleção da sequencia “TGTTT” na localização cromossômica 22q13.1. 19 Weber et al. (2002) foram pioneiros na identificação e caracterização de INDELs e, devido à abundância no genoma humano e a facilidade de análise, destacaram a sua utilidade para estudos genéticos. Além disso, este trabalho representou o início de um banco de dados online de polimorfismos INDELs Marshfield (http://www.marshfieldclinic.org/mgs/), incluindo várias informações sobre os polimorfismos: alelos identificados, diferenças de comprimento, primers para amplificação, posição no genoma, bem como as frequências alélicas nos principais grupos populacionais do mundo (africanos, europeus, asiáticos e nativo-americanos). Os INDELs também foram incluídos no banco de dados de variação genética dbSNP (http://www.ncbi.nlm.nih.gov/projects/SNP/). Desde então, alguns estudos foram publicados utilizando INDELs para uma variedade de fins como, por exemplo, abordando a estrutura genética de populações humanas (ROSENBERG et al., 2003; BASTOS-RODRIGUES; PIMENTA; PENA, 2006; TISHKOFF et al. 2009), inferindo proporções de ancestralidade de indivíduos e de populações (YANG et al., 2005) e na identificação de espécies (PEREIRA, F. et al., 2010). Em 2006, foram identificados novos INDELs, e relatado um mapa inicial contendo mais de 415.000 polimorfismos únicos no genoma humano (MILLS et al., 2006). Neste mapa, os INDELs representam aproximadamente 16 a 20% de todos os polimorfismos do DNA humano e sendo amplamente difundidos ao longo de todo o genoma, com uma densidade média de um INDEL por 7,2 kb. Cerca de um terço dos INDELs relatados foram identificados em genes conhecidos, a partir dos quais cerca de 3,7% localizados em exons e regiões promotoras, em alguns casos, em sítios funcionalmente relevantes, sendo possível que os INDELs influenciem em traços humanos e doenças (MILLS et al., 2006). Atualmente, com a utilização da tecnologia de sequenciamento de nova geração (NGS), estima-se que o genoma humano contenha aproximadamente 1 milhão de polimorfismos INDELs (JIANG; TURINSKY; BRUDNO, 2015) Estes polimorfismos possuem características interessantes para uso na identificação humana: baixa taxa de mutação em comparação com os STRs; são amplamente distribuídos no genoma, como já mencionado; podem ser detectados http://www.ncbi.nlm.nih.gov/pubmed/?term=Jiang%20Y%5Bauth%5D http://www.ncbi.nlm.nih.gov/pubmed/?term=Turinsky%20AL%5Bauth%5D http://www.ncbi.nlm.nih.gov/pubmed/?term=Brudno%20M%5Bauth%5D 20 por diferentes técnicas (MULLANEY, 2010); o tamanho do fragmento a ser amplificado na PCR é pequeno (50 a 150 pb) o que facilita a análise em amostras com DNA degradado (ZIDKOVA et al., 2011); as freqüências alélicas apresentam diferenças significativas entre grupos de populações geograficamente diferentes, sendo potenciais marcadores para estudo de ancestralidade (YANG et al., 2005). 1.6 Marcadores genéticos de uso forense Atualmente, muitos kits comerciais para análise de STRs estão disponíveis no mercado e são utilizados na rotina de identificação humana, porém, em amostras com alto nível de degradação e contaminação, a análise de STRs pode apresentar dificuldades devido ao tamanho relativamente elevado do fragmento a ser amplificado (100 a 400 pb) obtendo-se perfis genéticos parciais ou a ausência de perfil (ZIDKOVA et al., 2011) (Figura 2 A). Alguns autores (PHILLIPS et al., 2008) sugerem a análise de SNPs nestes casos pois o fragmento a ser amplificado na PCR costuma ser menor que para STRs, e apresentam baixa taxa de mutação. Porém, estes polimorfismos apresentam algumas limitações como: o número de SNPs necessários para que se consiga realizar uma análise de parentesco é cerca de quatro vezes maior do que os STRs; a técnica para detecção de SNPs é denominada de mini-sequenciamento, ou reação de SNaPshot, que é o nome do kit comercial utilizado da empresa (Thermo Fisher Scientific), e é diferente das utilizadas na rotina de um laboratório de identificação humana, que analisam rotineiramente STRs, sendo estas últimas mais simples e de menor custo (Figura 2 B). Devido a estas dificuldades, os polimorfismos de inserção-deleção (insertion- deletion polymorphisms - INDELs) atraem atualmente a atenção dos cientistas da área de identificação humana como uma nova ferramenta a ser utilizada para acrescentar robustez na análise deste tipo de amostra ou em casos com resultado inconclusivo, devidos às características supramencionadas, especialmente um menor fragmento a ser amplificado com metodologia de análise similar a dos STRs. 21 Figura 2 - A - Esquema ilustrando o tamanho médio de fragmentos amplificados na PCR para análise de STRs, SNPs e INDELs, sendo que os últimos apresentam tamanho similar. B - Fluxograma para análise de STRs, INDELs e SNPs, sendo que os primeiros são analisados na mesma plataforma no analisador genético ABI 3500 (Thermo Fisher Scientific). Na análise de STRs e INDELs a purificação é opcional. Fonte: Pereira e Gusmão (2012). Neste contexto, algumas metodologias foram padronizadas para análise de marcadores INDELs visando aplicação em identificação humana ou na identificação Mesma plataforma A B 22 de ancestralidade (BASTOS-RODRIGUES; PIMENTA; PENA, 2006; RIBEIRO- RODRIGUES et al., 2009; SANTOS, et al., 2010; PIMENTA; PENA, 2010). Além destes métodos, atualmente é disponível no mercado o kit comercial DIPplex (Qiagen), para analise de 30 marcadores INDELs autossômicos para aplicação na identificação humana. Em seguida, serão melhor discutidas duas metodologias de análise de INDELs pois, são as que foram utilizadas no presente trabalho. 1.7 Marcadores INDELs para identificação humana (HID-INDELs) Pereira, R. et al. (2009) reportaram uma metodologia para análise em multiplex de 38 polimorfismos INDELs, distribuídos entre os 22 cromossomos autossômicos e sabidamente polimórficos para populações da África, Europa e Ásia, o que permite sua utilização na identificação humana (HID). Os autores utilizaram os seguintes critérios para seleção dos marcadores: INDELs bialélicos não localizados em zonas codificadoras; frequência alélica mínima ≥ 0,25 em europeus, africanos e asiáticos; heterozigosidade média ≥ 0,40 e, comprimento de variação de alelos de 2-5 pb. Os autores utilizaram uma reação de PCR multiplex sensível aos 38 polimorfismos, seguida de detecção por eletroforese capilar onde todos os fragmentos amplificados são menores que 160 pb utilizando os fluorocromos 6-FAM (azul), VIC (verde), NED (amarelo), e PET (vermelho) (Thermo Fisher Scientific). A validação da metodologia foi realizada pela análise em 306 indivíduos provenientes da África, Europa e Ásia, não sendo identificado desvio no equilíbrio de Hardy-Weinberg ou associação significante estatisticamente entre os pares de marcadores, confirmando sua possibilidade de aplicação na identificação de indivíduos. Além disso, obtiveram perfis completos utilizando quantidades de DNA de até 0,3 ng e, ainda, em amostras de DNA degradado, onde a amplificação de STRs falhou parcialmente. Esta metodologia foi utilizada na análise de indivíduos de populações brasileiras do estado do Rio de Janeiro (incluindo uma amostragem de indivíduos auto-declarados afrodescendentes) e da tribo nativo-americana Terena do Mato Grosso do Sul. 23 Os dados indicaram que este sistema pode ser utilizado na identificação de indivíduos nativo-americanos e/ou miscigenados, pois, os autores obtiveram alto poder de discriminação para estas amostragens (MANTA et al., 2012a). 1.8 Marcadores INDELs informativos de ancestralidade (AIM-INDELs) Pereira, R. et al., (2012) reportaram uma metodologia para análise em multiplex de 46 marcadores INDELs informativos de ancestralidade (AIM-INDELs), para estimar de forma eficiente as proporções de quatro origens populacionais diferentes (africana, européia, asiática e nativo-americana). Os marcadores selecionados apresentam diferentes frequências alélicas entre estes quatro grupos parentais, o que possibilita a identificação de ancestralidade, sendo que, cada marcador apresenta um diferencial de frequência alélica ≥ 0,40, entre pelo menos dois destes grupos. Todos os marcadores são analisados em fragmentos menores que 230 pb através de PCR seguida de eletroforese capilar utilizando os fluorocromos 6-FAM (azul), VIC (verde), NED (amarelo), e PET (vermelho) (Thermo Fisher Scientific). Os autores utilizaram a metodologia na análise de 1002 amostras dos 4 grupos populacionais (europeus, africanos, asiáticos e nativo-americanos), além da Oceania e de uma população miscigenada (Belém-Brasil), e conseguiram classificar as amostras por sua origem continental, e no caso da população miscigenada, avaliar a proporção de ancestralidade de cada grupo parental. Manta et al., (2012b) utilizaram esta metodologia no estudo de populações das cinco principais regiões brasileiras, norte, nordeste, centro-oeste, sudeste e sul, verificando as proporções de ancestralidade. Segundo os autores, a metodologia foi eficiente para obtenção das proporções de ancestralidade, entretanto, os dados obtidos para a população estudada do estado do Espírito Santo apresentou uma proporção de ancestralidade inesperada com um nível de ancestralidade européia muito elevado, similar a de populações do sul do país. Isto possivelmente poderia ter sido causado, segundo os autores, por um efeito amostral gerado pelo método de seleção dos indivíduos participantes no 24 estudo, onde as amostras foram coletadas de professores e estudantes de uma instituição de ensino. 25 JUSTIFICATIVA 26 2 JUSTIFICATIVA Em identificação humana e no estudo de populações, marcadores SNP e principalmente STR são mais comumente utilizados. Os INDELs passaram a ser utilizados recentemente apesar de apresentarem características interessantes, já mencionadas. Assim, novos estudos com marcadores INDELs são de grande interesse, visando aumentar o conhecimento das populações, possibilitando sua utilização em genética forense. Neste trabalho, caracterizamos as populações dos estados de São Paulo e Espírito Santo pela análise de marcadores INDELs, para isto, foram feitas análises de INDELs em amostras provenientes de indivíduos não aparentados dos dois estados por meio das metodologias citadas anteriormente (38 HID-INDELs e 46 AIM- INDELs), sendo as duas populações, caracterizadas com ambas as metodologias. O uso combinado de marcadores STRs e INDELs pode ser interessante, principalmente quando se deseja aumentar o poder discriminatório, mas para isto, é importante conhecer o desequilíbrio de ligação entre os marcadores na população estudada. Assim, 20 STRs autossômicos foram analisados em amostras do estado de São Paulo, e os dados foram analisados com os obtidos através da análise dos 38 HID-INDELs, avaliando assim o desequilíbrio de ligação entre os STRs e HID- INDELs analisados nesta população. Além disso, comparamos a eficiência forense destes STRs em relação ao sistema 38 HID-INDELs. Polimorfismos do DNA mt e cromossomo Y possibilitam a classificação em haplogrupos conforme a origem ancestral, materna e paterna, respectivamente. Em estudos anteriores realizados por nosso grupo, amostras de indivíduos do estado de Espírito Santo foram classificadas em haplogrupos evolutivos pela análise de STRs e SNPs do cromossomo Y, e do DNA mt. Estes dados de ancestralidade da população do estado de Espírito Santo, obtidos da análise de marcadores uniparentais, foram comparados com os dados obtidos com os 46 AIM-INDELs, no presente estudo, verificando a relação entre os dados obtidos com diferentes marcadores, uniparentais e autossômicos. Os INDELs podem ser interessantes para análise de amostras com DNA degradado, pelos motivos já mencionados, e visando uma alternativa de identificação do sexo na análise destas amostras, inserimos o marcador 27 amelogenina no sistema multiplex 38 HID-INDELs, uma vez que este sistema não apresenta originalmente o marcador. 28 OBJETIVOS 29 3 OBJETIVO GERAL Caracterizar as populações dos estados de São Paulo e Espírito Santo pela análise de polimorfismos INDELs, avaliando a eficiência forense de 38 HID-INDELs em comparação com 20 STRs autossômicos, e comparando os dados de ancestralidade obtidos com 46 AIM-INDELs com os de cromossomo Y e DNA mt. 3.1 Objetivos específicos - Padronizar a análise de 38 HID-INDELs e 46 AIM-INDELs no analisador genético ABI 3500 (Thermo Fisher Scientific), seguindo os protocolos descritos por Pereira, R. et al. (2009) e Pereira, R. et al. (2012), respectivamente; - Caracterizar as populações dos estados de São Paulo e Espírito Santo pela análise de 38 HID-INDELs e 46 AIM-INDELs verificando o equilíbrio de Hardy- Weinberg, desequilíbrio de ligação entre os pares de marcadores, as frequências genotípicas esperadas e alélicas observadas, além da distância genética (Fst); - Avaliar a eficiência forense do sistema 38 HID-INDELs em relação a 20 STRs autossômicos na população do estado de São Paulo e verificar possível desequilíbrio de ligação entre os pares de marcadores; - Inserir o marcador para amelogenina no sistema multiplex de análise de 38 HID-INDELs; - Comparar os dados de ancestralidade obtidos com o sistema 46 AIM- INDELs na população do estado de Espírito Santo com os dados do cromossomo Y e região hipervaríavel do DNA mt. 30 MATERIAIS E MÉTODOS 31 4 MATERIAIS E MÉTODOS Nesta parte, é apresentada a metodologia usada no presente estudo. 4.1 Aspectos Éticos Este trabalho foi aprovado pelo Comitê de Ética em Pesquisa da Faculdade de Ciências Farmacêuticas da UNESP de Araraquara com o código: CAAE 05647912.6.0000.5426. 4.2 Casuística Foram coletadas amostras de sangue de 100 indivíduos (50 homens e 50 mulheres) do estado de São Paulo e 106 (todos homens) do estado de Espírito Santo em papel de filtro FTA Classic (Whatman). Os indivíduos não são aparentados e são naturais de diversas cidades destes estados. As amostras de Espírito Santo foram coletadas no Centro de Hemoterapia e Hematologia do Espirito Santo – HEMOES. As amostras de São Paulo foram cedidas de casos de investação de paternidade do Laboratório de Investigação de Paternidade da UNESP de Araraquara. Os indivíduos coletados foram selecionados com aleatoriedade, visando à representação dos estados a partir destas amostragens. 4.3 Extração de DNA A extração de DNA das amostras foi realizada com o auxílio da resina Chelex 100 (Biorad) (SINGER-SAM; TANGUAY; RIGGS, 1989) conforme segue: 1 disco de papel FTA Classic (Whatman) de 1,2 mm com sangue foi cortado com o auxílio do Harris Micro Punche e Cutting Mat (Whatman) e depositado em microtubo de 1,5 mL, no qual adicionou-se 50 μL de H2O MILLI-Q, vortexou-se rapidamente e descartou-se a H2O. Adicionou-se novamente 50 μL de H2O MILLI-Q e incubou-se por 30 minutos à temperatura ambiente (TA). Posteriormente, centrifugou-se a 32 13.000 rpm por 1 minuto e descartou-se a H2O. Adicionou-se 100 μL de Chelex 5%, incubando-se a 56 ºC por 1 hora. O tubo foi vortexado, incubou-se por 100 ºC por 8 minutos, centrifugou-se a 13.000 rpm por 3 minutos e transferiu-se o sobrenadante para um novo microtubo, o qual foi armazenado a 4 ºC. 4.4 Análise de 38 HID-INDELs (human identification) A análise de 38 HID-INDELs autossômicos foi feita em todas as amostras dos estados de São Paulo e Espírito Santo pela metodologia descrita por Pereira, R. et al. (2009). 4.4.1 Implantação da metodologia A metodologia descrita por Pereira, R. et al. (2009) para a análise de 38 HID- INDELs autossômicos (Tabela 1) utiliza uma reação de PCR seguida por análise em eletroforese capilar (EC). Os autores utilizaram o analisador genético ABI 3130 (Thermo Fisher Scientific) com polímero POP 7 (Thermo Fisher Scientific) para padronização da metodologia. Como em nosso laboratório utiliza-se outro modelo de analisador genético - ABI 3500 (Thermo Fisher Scientific) com polímero POP 4 (Thermo Fisher Scientific) - houve a necessidade de ajustar o painel de bins (região em que os alelos são identificados no eletroferograma) para a correta identificação dos alelos no software GeneMapper ID-X v. 1.2 (Thermo Fisher Scientific). Para isto, foram genotipadas as amostras controle 9947A (Thermo Fisher Scientific) e 9948 (Promega) e as amostras M1, M2, M3 e M4 do exercício de intercomparação do ano de 2012 do GHEP-ISFG (Grupo de Línguas Espanhola e Portuguesa da Sociedade Internacional de Genética Forense). Estes dados foram enviados para o grupo de trabalho do GHEP para avaliação e após a padronização, a técnica foi utilizada para a genotipagem dos 38 HID-INDELs nas amostras dos estados de São Paulo e Espírito Santo. Nos resultados, serão mostradas as diferenças entre as posições de leitura dos alelos no eletroferograma para o ABI 3130 e o ABI 3500 (Thermo Fisher Scientific). 33 Tabela 1 - INDELs analisados mostrando a localização de cada marcador no genoma e os alelos possíveis. Marcador Cromossomo Posição (pb) Alelos rs3047269 1 161077452 -/CTGA rs2307579 1 245878706 -/ATG rs16624 2 234681130 -/GT rs2308242 3 8591709 -/CT rs2308026 4 119404855 -/CA rs2307526 5 5178112 -/ACAC rs1160956 5 65414216 -/AGA rs1610871 5 171020572 -/TAGG rs2307710 6 47929222 -/AGGA rs2307839 6 117200251 -/GA rs2308137 6 149655891 -/GA rs2307978 7 83121850 -/GA rs35769550 8 76681235 -/TGAC rs5895447 8 138489776 -/CA rs16402 9 38396788 -/TTAT rs2067294 9 70504241 -/CTT rs2307580 9 104626014 -/AATT rs140809 10 6027167 -/CAA rs1160886 10 54112392 -/ACT rs10688868 11 258180 -/CT rs34811743 11 30134266 -/TG rs33972805 11 125794082 -/CT 34 rs1610919 12 14801263 -/AT rs2067238 12 113772931 -/GCT rs2308171 13 43778155 -/TCTG rs2308189 14 28106508 -/AACTA rs2308020 15 51268809 -/TT rs2067208 16 83139788 -/GCCAG rs3051300 17 10076666 -/GTAT rs3080855 18 21507205 -/AATT rs34511541 18 34677042 -/CTCTT rs36040336 19 1353662 -/AT rs2307689 19 48896180 -/TTC rs33917182 20 11643625 -/CA rs34541393 20 30165066 -/AACT rs35605984 21 14556736 -/TAAAG rs10629077 21 30294208 -/AT rs2307700 22 25120901 -/TCAC Dados de acordo com o build 129 do dbSNP. Fonte: Pereira, R. et al. (2009). 4.4.2 Reação em cadeia da polimerase (PCR) As amostras de DNA foram submetidas à reação de amplificação por PCR dos 38 HID-INDELs (PEREIRA, R. et al. 2009), conforme segue: - 5 μL de Qiagen Multiplex PCR master mix (2×) - 1 μL de Primer mix (10×) - 1 μL de DNA (0.3–5 ng/ μL) - H2O ultrapura (MILLI-Q) autoclavada q.s.p. 10 μL 35 Obs. O mix de primers contém todos os primers na concentração de 1 μM exceto para os marcadores rs2308137 (2 μM) e rs3047269 (3 μM). A ciclagem foi realizada em termociclador Veriti (Thermo Fisher Scientific) nas seguintes condições: 95°C - 15 min 94°C - 30 s 60°C - 90 s 10 ciclos 72°C - 60 s 94°C - 30 s 58°C - 90 s 18 ciclos 72°C - 60 s 72°C - 80 min 4ºC - até a retirada do termociclador. Obs. Esta ciclagem apresenta duas modificações em comparação com aquela publicada pelos autores. O segundo passo de ciclagens foi diminuído de 20 para 18 ciclos para reduzir o sinal obtido no eletroferograma e o tempo de extensão final foi aumentado em 20 minutos para melhorar a adenilação dos fragmentos. 4.4.3 Purificação Os autores citam que a purificação do produto de PCR previamente à EC é opcional, mas neste trabalho foi realizada pela técnica de precipitação por álcool conforme segue: - Adicionou-se 1 L do produto da PCR em um tubo de 1,5 mL contendo 80 L de isopropanol 75%; - A mistura foi deixada à temperatura ambiente (22ºC) por 15 minutos no escuro, centrifugada por 15 minutos a 14.000 G (Eppendorf Centrifugal 5417R) e 22ºC; - O sobrenadante foi então cuidadosamente descartado, invertendo-se o tubo sobre papel absorvente; - Adicionou-se 1 mL de etanol 70%; 36 - Procedeu-se nova centrifugação por 5 minutos, 14.000 rpm à 22ºC, e o sobrenadante foi vertido cuidadosamente sobre papel absorvente; - O precipitado foi seco a vácuo por 15 minutos em aparelho DNA Speed Vac (Savant) e guardado em freezer a -20ºC até a EC. 4.4.4 Eletroforese capilar As amostras foram preparadas da seguinte forma: adicionou-se 9,7 L de formamida HI-DI (Thermo Fisher Scientific) e 0,3 L de LIZ 600 (Thermo Fisher Scientific) ao tubo de 1,5 mL contendo o produto de PCR purificado e seco. O volume foi agitado para ressuspender o produto de PCR e em seguida transferido para placa de 96 poços. Em seguida, as amostras foram desnaturadas a 95 ºC por 3 minutos e rapidamente inseridas no gelo onde permaneceram também por 3 minutos. A eletroforese capilar foi realizada no analisador genético ABI 3500 (Thermo Fisher Scientific), utilizando capilar de 36 cm e polímero POP 4. 4.4.5 Determinação dos perfis alélicos e análise estatística Os resultados foram analisados no software GeneMapper ID-X v. 1.2 (Thermo Fisher Scientific). Com o auxílio do software Arlequin v. 3.11 (EXCOFFIER; LAVAL; SCHNEIDER; 2005), foram estimadas as freqüências alélicas para as populações, o teste exato para avaliar o desequilíbrio de ligação (LD) entre os pares de marcadores, a divergência do equilíbrio de Hardy-Weinberg, a heterozigosidade observada (Ho) e a heterozigosidade esperada (He), o cálculo de distância genética (Fst) e os valores de p correspondentes para as populações estudadas e as de Portugal, África, Ásia, tribo Terena e do estado de Rio de Janeiro. Os valores de Fst foram utilizados para representação gráfica em escala multidimensional (MDS plot) por meio do software STATISTICA v. 13 (Statsoft). Com o auxílio da tabela PowerStats (Promega) foram calculados os seguintes parametros forense: poder de discriminação (PD) e poder de exclusão (PE). 37 4.5 Inserção do marcador para amelogenina na reação de 38 HID-INDELs No sistema 38 HID-INDELs estabelecido por Pereira, R. et al. (2009) há um espaço entre 103 e 120 pb para fluorocromo NED (amarelo) no eletroferograma, onde o marcador da amelogenina poderia ser inserido. 4.5.1 Seleção dos primers Após busca na literatura, selecionou-se o par de primers descritos em Krenke et al. (2002), pois os fragmentos amplificados têm 108 e 112 pb para os alelos X e Y, respectivamente. A ferramenta online PCR in silico (http://genome.ucsc.edu/) foi utilizada para confirmação dos tamanhos dos fragmentos. *Observação: Para as populações de Espírito Santo e São Paulo estudadas neste trabalho este sistema multiplex com o marcador da amelogenina não foi utilizado. 4.5.2 Reação de PCR Inicialmente, o par de primers foi testado individualmente na PCR para verificar sua eficiência e, posteriormente, utilizado em conjunto com o mix de primers para os 38 HID-INDELs conforme descrito no ítem 4.4.2. O mix de primers da amelogenina foi utilizado na concentração de 2 μM. 4.5.3 Purificação e Eletroforese Capilar A purificação do produto de PCR e a EC foram realizadas conforme descrito nos itens 4.4.3. e 4.4.4., respectivamente. 4.5.4 Análise Os resultados foram analisados no software GeneMapper ID-X v. 1.2 (Thermo Fisher Scientific). http://genome.ucsc.edu/ 38 4.6 Análise de 20 STRs autossômicos O kit PowerPlex 21 (Promega), que analisa 20 STRs autossômicos mais o marcador da amelogenina (Tabela 2), foi utilizado na análise de 100 amostras de indivíduos não aparentados do estado de São Paulo. 4.6.1 Reação em cadeia da polimerase (PCR) As PCRs foram feitas com volume total de 12,5 μL (metade do volume indicado no manual do fabricante), utilizando-se 1 disco de papel FTA Classic (Whatman) com a amostra de sangue adsorvida, sem a necessidade de extração de DNA, conforme segue: - 2,5 μL de Master mix (5X) - 2,5 μL de Primer mix (5X) - 1 disco (1,2 mm) do cartão FTA Classic (Whatman) com sangue - H2O ultrapura (MILLI-Q) autoclavada q.s.p. 12,5 μL A ciclagem foi realizada conforme as seguintes condições em termociclador Veriti (Thermo Fisher Scientific): 96°C - 1 min 94°C - 10 s 59°C - 1 min 25 ciclos 72°C - 30 s 60°C - 20 min 4°C - até a retirada do termociclador 39 Tabela 2 - STRs analiados com o kit PowerPlex 21 (Promega), localização cromossômica e sequência repetidora do polimorfismo. NA: não se aplica. STR Cromossomo Sequência repetidora 5´→ 3´ Amelogenina X e Y NA D3S1358 3 TCTA D1S1656 1 TAGA D6S1043 6 AGAT D13S317 13 TATC Penta E 15 AAAGA D16S539 16 GATA D18S51 18 AGAA D2S1338 2 TGCC/TTCC CSF1PO 5 AGAT Penta D 21 AAAGA TH01 11 AATG Vwa 12 TCTA D21S11 21 TCTA D7S820 7 GATA D5S818 5 AGAT TPOX 2 AATG D8S1179 8 TCTA D12S391 12 AGAT/AGAC D19S433 19 AAGG FGA 4 TTTC Fonte: PowerPlex 21 (Promega) manual. 40 4.6.2 Eletroforese Capilar As amostras foram preparadas em placas de 96 poços da seguinte forma: - 1 L do produto de PCR - 10 L de formamida HI-DI (Thermo Fisher Scientific) - 1 L de CC5-ILS 500 (Promega) Em seguida, as amostras foram desnaturadas a 95 ºC por 3 minutos e rapidamente inseridas no gelo onde permaneceram também por 3 minutos. A eletroforese capilar foi realizada no analisador genético ABI 3500 (Thermo Fisher Scientific) utilizando capilar de 36 cm e polímero POP 4. 4.6.3 Determinação dos perfis alélicos e análise estatística Os resultados foram analisados no software GeneMapper ID-X v. 1.2 (Thermo Fisher Scientific). Com o auxílio do software Arlequin v. 3.11 (EXCOFFIER; LAVAL; SCHNEIDER; 2005), foi realizado o teste exato para avaliar o desequilíbrio de ligação entre os pares de marcadores. A tabela PowerStats (Promega) foi usada para calcular o poder de discriminação (PD) e o poder de exclusão (PE). 4.7 Análise de 46 AIM-INDELs (marcadores informativos de ancestralidade) A metodologia descrita por Pereira, R. et al. (2012) visa a análise de 46 AIM- INDELs (marcadores informativos de ancestralidade) autossômicos (Tabela 3) por meio de reação de PCR seguida por análise em eletroforese capilar (EC). 4.7.1 Implantação da metodologia O ajuste desta metodologia em nosso laboratório foi necessário pelos mesmos motivos descritos no ítem 4.4.1. Para isto, foram genotipadas as amostras controle 9947A (Thermo Fisher Scientific) e 9948 (Promega) e as amostras M1, M2, 41 e M3 do exercício de intercomparação do ano de 2014 do GHEP-ISFG. Estes dados foram enviados para o grupo de trabalho do GHEP para avaliação. Nos resultados, serão mostradas as diferenças entre as posições de leitura dos alelos no eletroferograma para o ABI 3130 e o ABI 3500 (Thermo Fisher Scientific). Tabela 3 - INDELs analisados com a nomenclatura segundo o banco de dados Marshfield (MID) e dbSNP, sua localização no genoma e os alelos possíveis. MID dbSNP Cromossomo Posição (pb) Alelos MID-1470 rs2307666 11 64729920 -/GTTAC MID-777 rs1610863 16 6551830 -/GAA MID-196 rs16635 6 99789775 -/CAT MID-881 rs1610965 5 79746093 -/ACTT MID-3122 rs35451359 18 45110983 -/ATCT MID-548 rs140837 6 3708909 -/CT MID-659 rs1160893 2 224794577 -/CT MID-2011 rs2308203 2 109401291 -/CTAGA MID-2929 rs33974167 8 87813725 -/TA MID-593 rs1160852 6 137345857 -/TT MID-798 rs1610884 5 56122323 -/GGGAAA MID-1193 rs2067280 5 89818959 -/AT MID-1871 rs2308067 7 127291541 -/TT MID-17 rs4183 3 3192524 -/TAAC MID-2538 rs3054057 15 86010538 -/AACA MID-1644 rs2307840 1 36099090 -/GT MID-3854 rs60612424 6 84017514 -/TCTA 42 MID-2275 rs3033053 14 42554496 -/TCAGCAG MID-94 r rs16384 22 42045009 -/AAC MID-3072 rs34611875 18 67623917 -/GCCCCCA MID-772 rs1610859 5 128317275 -/TAG MID-2313 rs3045215 1 234740917 -/ATTATAACT MID-397 rs25621 6 139858158 -/TTCT MID-1636 rs2307832 1 55590789 -/AA MID-51 r rs16343 4 17635560 -/TTTAT MID-2431 rs3031979 8 73501951 -/ATTG MID-2264 rs34122827 13 63778778 -/AAGT MID-2256 rs133052 22 41042364 -/CAT MID-128 rs6490 12 108127168 -/ATT MID-15 rs4181 2 42577803 -/AAATACACAC MID-2241 rs3030826 6 67176774 -/GTCCAATA MID-419 rs140708 6 170720016 -/AATGGCA MID-943 rs1611026 5 82545545 -/TGAT MID-159 rs16438 20 25278470 -/CCCCA MID-2005 rs2308161 10 69800909 -/AACAAT MID-250 rs16687 7 83887882 -/CA MID-1802 rs2307998 5 7814345 -/GGA MID-1607 rs2307803 3 108981031 -/TG MID-1734 rs2307930 6 84476378 -/CCAT MID-406 rs25630 6 14734341 -/AG 43 MID-1386 rs2307582 1 247768775 -/AAACTATTCATTTTTCACCCT MID-1726 rs2307922 1 39896964 -/CAAGAACTATAAT/CACTATCTATTAT MID-3626 rs11267926 15 45526069 -/AATATAATTTCTCCA MID-360 rs25584 12 112145217 -/AA MID-1603 rs2307799 5 70828427 -/TTGT MID-2719 rs34541393 20 30701405 -/AACT Dados de acordo com o build 132 do dbSNP. Fonte: Pereira, R. et al. (2012). 4.7.2 Período do doutorado sanduíche Durante os meses de junho a novembro de 2015, realizou-se um estágio no Instituto de Patologia e Imunologia Molecular da Universidade do Porto (IPATIMUP) – Porto, Portugal, sob a supervisão do Dr. Rui Pereira, onde foi feita a análise dos 46 AIM-INDELs para as duas populações estudadas, conforme descrito nos itens seguintes (4.7.3. a 4.7.7.). 4.7.3 Reação em cadeia da polimerase (PCR) As PCRs para amplificação dos 46 AIM-INDELs foram realizadas conforme descrito por Pereira, R. et al. (2012): - 5 μL de Qiagen Multiplex PCR master mix (2×) - 1 μL de Primer mix (10×) - 1 μL de Primer mix (reforço) - 1 μL de DNA (0.3–5 ng/ μL) - H2O ultrapura (MILLI-Q) autoclavada q.s.p.10 μL Obs. O mix de primers contém todos os primers na concentração de 1 μM. 44 O Primer mix (reforço) contém os primers a 1µM para os marcadores MIDs- 196, 881, 3854, 772, 3626 e 2719. A ciclagem foi realizada em termociclador Veriti (Thermo Fisher Scientific) conforme as seguintes condições: 95°C - 15 min 94°C - 30 s 60°C - 90 s 30 ciclos 72°C - 45 s 72°C - 60 min 4ºC - até a retirada do termociclador. 4.7.4 Purificação Conforme os autores, o passo de purificação é opcional e não foi utilizado, pois não foi necessário. 4.7.5 Eletroforese capilar As amostras foram preparadas em placas de 96 poços da seguinte forma: - 1 L do produto de PCR - 9,7 L de formamida HI-DI (Thermo Fisher Scientific) - 0,3 L de LIZ 600 (Thermo Fisher Scientific) Em seguida, as amostras foram desnaturadas a 95 ºC por 3 minutos e rapidamente inseridas no gelo onde permaneceram também por 3 minutos. A eletroforese capilar foi realizada no analisador genético ABI 3130 (Thermo Fisher Scientific) utilizando capilar de 36 cm e polímero POP 7. 45 4.7.6 Determinação dos perfis alélicos e análise estatística Os resultados foram analisados no software GeneMapper v. 4.0 (Thermo Fisher Scientific). Com o auxílio do software Arlequin v. 3.11 (EXCOFFIER; LAVAL; SCHNEIDER; 2005), foram estimadas as freqüências alélicas para as populações, o teste exato para avaliar o desequilíbrio de ligação (LD) entre os pares de marcadores, a divergência do equilíbrio de Hardy-Weinberg, a heterozigosidade observada (Ho) e a heterozigosidade esperada (He), o cálculo de distância genética (Fst) e os valores de p correspondentes para as populações estudadas e da Europa, África, nativo-americanos (PEREIRA, R. et al., 2012) e algumas populações brasileiras (MANTA et al., 2012b). Os valores de Fst foram utilizados para representação gráfica em escala multidimensional (MDS plot) através do software STATISTICA v. 13 (Statsoft). Com o auxílio do software STRUCTURE v. 2.3.4 (FALUSH; STEPHENS; PRITCHARD, 2003) foi realizada a comparação para proporção de ancestralidade das populações de Espírito Santo e São Paulo em comparação com africanos, europeus e nativo-americanos, além da plotagem destes dados. 4.7.7 Comparação de 46 AIM-INDELs com cromossomo Y e DNA mt As amostras provenientes de indivíduos do estado de Espírito Santo em outros estudos realizados no nosso laboratório (FIGUEIREDO et al., 2015; SANCHES et al., 2014) foram classificadas em haplogrupos evolutivos por meio da análise de Y-SNPs, Y-STRs, e região hipervariável do DNA mt. As proporções de origem ancestral obtidas com as análises de regiões uniparentais foram comparadas com aquela obtida com os 46 AIM-INDELs. 4.8 Fluxograma de trabalho Os dados obtidos para os 38 HID-INDELs e 46 AIM-INDELs foram comparados entre as populações dos estados de São Paulo e Espírito Santo, sendo que estes dados foram submetidos a duas comissões de trabalho interlaboratorial do 46 Grupo de Línguas Espanhola e Portuguesa da Sociedade Internacional de Genética Forense (GHEP-ISFG). Além disso, para a população de São Paulo os dados dos 38 HID-INDELs foram comparados com STRs autossômicos e para a população do Espírito Santo os dados dos AIM-INDELs foram comparados com dados de polimorfismos do cromossomo Y e região hipervaríavel do DNA mt (Figura 3). Os dados de 38 HID-INDELs e 46 AIM-INDELs serão publicados em conjunto com dados de outras populações mundiais enviadas pelos laboratórios participantes do exercício colaborativo. Figura 3 - Esquema ilustrando o fluxograma de trabalho com os dados das análises que foram utilizadas nas duas populações. Fonte: Este trabalho 38 HID-INDELs 38 HID-INDELs 46 AIM-INDELs 46 AIM-INDELs STRs autossomicos Cromossomo Y mtDNA São Paulo Espírito Santo 47 RESULTADOS E DISCUSSÃO 48 5 RESULTADOS E DISCUSSÃO Os resultados obtidos no presente trabalho são apresentados e comparados com dados existentes na literatura, á seguir. 5.1 Análise de 38 HID-INDELs Nesta parte, são discutidos os dados obtidos da análise de 38 HID-INDELs nas populações dos estados de São Paulo e Espírito Santo. 5.1.1 Implantação e avaliação da técnica Houve a necessidade de ajustar o protocolo descrito por Pereira, R. et al. (2009) devido à diferença de mobilidade em pares de base (pb) dos fragmentos amplificados de cada marcador quando analisados no ABI 3130 (Thermo Fisher Scientific), o qual foi o utilizado pelos autores, e no ABI 3500 (Thermo Fisher Scientific), utilizado neste trabalho. Esta diferença de mobilidade ocorre, pois, no equipamento ABI 3130 (Thermo Fisher Scientific) os autores utilizaram polímero POP-7, enquanto no presente trabalho, foi utilizado o ABI 3500 (Thermo Fisher Scientific) com polímero POP-4, uma vez que este equipamento não permite a utilização do polímero POP-7 para a análise de fragmentos. As diferentes posições de leitura em pb são mostradas a seguir (Tabela 4): 49 Tabela 4 - Comparação das posições em pares de base (pb) no eletroferograma dos alelos de cada um dos 38 marcadores com os respectivos fluorocromos no ABI 3130 e no ABI 3500 (Thermo Fisher Scientific). 1 (alelo curto) e 2 (alelo longo). ABI 3130 (polímero POP-7) ABI 3500 (polímero POP-4) Pereira, R. et al, (2009) Este trabalho Marcador Fluorocromo 1 (pb) 2 (pb) 1 (pb) 2 (pb) B01 Azul 55,43 58,91 47,17 51,28 B02 Azul 61,19 63,06 55,13 57,26 B03 Azul 69,9 72,93 65,01 68,36 B04 Azul 86,83 91,15 82,96 87,21 B05 Azul 99,38 103,03 96,05 99,67 B06 Azul 112,17 115,5 109,21 112,45 B07 Azul 124,58 128,77 122,27 126,36 B08 Azul 133,68 135,78 130,41 132,46 B09 Azul 141,49 143,61 139,18 141,14 B10 Azul 149,09 153,27 145,13 149,17 G01 Verde 59,14 63,11 52,9 57,72 G02 Verde 70,13 73,3 65,04 68,79 G03 Verde 77,08 80,07 73,95 77,11 G04 Verde 91,15 95,17 87,05 91,21 G05 Verde 105,66 107,69 101,79 103,82 G06 Verde 120,13 124,19 116,33 120,22 G07 Verde 128,21 131,12 124,41 127,96 G08 Verde 141,92 147,55 137,58 142,71 G09 Verde 157,67 159,62 151,73 153,99 50 Y01 Amarelo 60,69 64,31 53,19 58,31 Y02 Amarelo 73,96 76,11 68,24 70,77 Y03 Amarelo 82,77 84,93 78,17 80,29 Y04 Amarelo 92,39 97,66 88,92 93,91 Y05 Amarelo 102,24 105,14 98,05 101,25 Y06 Amarelo 124,98 127,02 121,25 123,2 Y07 Amarelo 132,21 136,36 128,08 132,16 Y08 Amarelo 141,76 144,05 137,09 139,1 Y09 Amarelo 151,2 153,38 145,99 148,08 R01 Vermelho 63,15 64.966 57,24 59,41 R02 Vermelho 67,66 69,48 62,81 64,93 R03 Vermelho 78,9 81,89 74,49 77,63 R04 Vermelho 87,23 89,14 83,58 85,64 R05 Vermelho 95,5 100,08 91,78 96,38 R06 Vermelho 109,28 111,34 106,04 108,21 R07 Vermelho 119,42 124,12 117,74 122,53 R08 Vermelho 129,38 131,5 126,53 128,59 R09 Vermelho 135,78 140,11 133,32 137,52 R10 Vermelho 154,79 160,01 150,17 155,16 Fonte: Este trabalho. O diferencial de mobilidade observado na tabela 4 foi causado não só por usarmos um equipamento diferente, mas principalmente, pela utilização de um tipo diferente de polímero, uma vez que o ABI 3500 (Thermo Fisher Scientific) não permite o uso do polímero POP-7 para análise de fragmentos. 51 Após o ajuste de leitura para a correta identificação dos alelos, verificamos que a reação de amplificação foi eficiente para análise dos 38 INDELs. Os perfis dos indivíduos de cada população foram avaliados no software GeneMapper ID-X v. 1.2 (Thermo Fisher Scientific) (Figura 4). Figura 4 - Eletroferograma de uma reação multiplex dos 38 HID-NDELs analisada no ABI 3500 (Thermo Fisher Scientific). O eixo Y indica a intensidade de fluorescência em RFU (relative fluorescence units) e o eixo X, mostra a posição do fragmento em pares de base. Fonte: Este trabalho 5.1.2 Variação genética das populações Na análise de estimativa de distância genética (Fst) entre as populações estudadas de São Paulo e Espírito Santo, o valor obtido foi Fst = 0,00060 (p = 0,35135), indicando que as populações são bastante próximas geneticamente. Além disso, os dados do Espírito Santo (ES) e de São Paulo (SP) foram comparados com dados dos 38 HID-INDELs das populações de Portugal, África 52 (AFR), Ásia (EAS), tribo Terena do Mato Grosso do Sul (nativo-americanos) e Rio de Janeiro (RJ) (MANTA et al., 2012a) para obtenção das distâncias genéticas (Fst) que são mostradas na tabela 5. Os dados indicam uma proximidade genética entre as populações dos estados de São Paulo, Espírito Santo e Rio de Janeiro (MANTA et al., 2012a). O maior valor Fst obtido (indicando maior distância genética) foi entre as populações de África e Terena (0,14128) e o menor entre Espírito Santo e Rio de Janeiro (0,00059). Tabela 5 - Distâncias genéticas entre as populações (abaixo da diagonal) e valores de p correspondentes (acima da diagonal) obtidos com os dados de 38 HID-INDELs. Portugal AFR EAS Terena RJ ES SP Portugal * 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 AFR 0,10758 * 0,00000 0,00000 0,00000 0,00000 0,00000 EAS 0,09066 0,12176 * 0,00000 0,00000 0,00000 0,00000 Terena 0,09066 0,14128 0,09603 * 0,00000 0,00000 0,00000 RJ 0,01086 0,05737 0,06901 0,06287 * 0,27928 0,08108 ES 0,01208 0,05441 0,07156 0,06691 0,00059 * 0,35135 SP 0,00464 0,07490 0,07034 0,06728 0,00136 0,00060 * Fonte: Este trabalho. Um detalhe interessante a ser observado na tabela 5, é que a amostragem populacional de Terena apresentou uma menor distância em relação à amostragem de Portugal, do que em relação as amostragens da África e Ásia. Apesar de Terena ser uma tribo indígena localizada no estado de Mato Grosso do Sul, este dado pode ser um indicativo da presença de uma componente genética de origem europeia, inserida nesta população indígena na época em que o Brasil foi colônia de Portugal. Com os valores de distância genética foi realizado um MDS plot tridimensional com o auxílio do software STATISTICA v. 13 (Figura 5). 53 Figura 5 - MDS plot tridimensional a partir das distâncias genéticas de Portugal, África (AFR), Ásia (EAS), Portugal, Terena, Rio de Janeiro (RJ), São Paulo (SP) e Espírito Santo (ES), obtidas com os dados de 38 HID-INDELs. As populações ES e RJ aparecem sobrepostas. Fonte: Este trabalho As populações de África, Portugal, Ásia e Terena (nativo americanos) se apresentam totalmente distintas na plotagem, e as três populações da região Sudeste do Brasil, bastante próximas entre si, e mais próximas da população de Portugal do que dos outros grupos populacionais. Este é um exemplo que demonstra a forte influência genética europeia nas populações brasileiras, gerada no período de colonização do Brasil por Portugal. 5.1.3 Avaliação da eficiência forense No desenvolvimento da metodologia, os autores buscaram selecionar marcadores com características adequadas para uso em identificação humana, Dimensão 3 Dimensão 2 Dimensão 1 54 dentre as quais, frequência alélica mínima de 0,25 em populações africanas, européias e asiáticas, e heterozigosidade média de no mínimo 0,40 (PEREIRA, R. et al., 2009). Os 38 HID-INDELs foram analisados em 45 indivíduos de uma população nativo-americana (Terena-MS) tendo sido identificado um valor médio de diversidade menor quando comparado com o esperado para os outros três grupos populacionais (MANTA et al., 2012a). Os dados de Espírito Santo e São Paulo, obtidos nos cálculos de diversidade gênica e equilíbrio de Hardy-Weinberg são mostrados na tabela 6, como heterozigosidade observada (Ho), esperada (He) e equiílibrio de Hardy-Weinberg (P- HWE) e comparados com dados da população do estado do Rio de Janeiro (MANTA et al., 2012a). Os marcadores que apresentaram maior He para Espírito Santo e São Paulo foram, respectivamente, G2 (0,50237) e R10 (0,50251); ao contrário, Y9 (0,34141) e G5 e Y2 (0,32759) apresentaram menor He. Em comparação, no estado do Rio de Janeiro foi identificada maior He nos marcadores B7, G2 e R10, ambos com 0,499, e B10 com a menor Ho que foi 0,372 (MANTA et al., 2012a). Destaca-se os menores e maiores valores obtidos para He, pois, é a He é representativa da população total, e não só da amostragem estudada. Como mencionado anteriormente, os autores selecionaram marcadores com heterozigosidade mínima ≥ 0,40 para os grupos parentais de europeus, africanos e asiáticos. As populacionais brasileiras são formadas principalmente por europeus, africanos e nativo-americanos, sendo que estes 38 marcadores não foram selecionados visando à aplicação na última população parental mencionada. Ainda assim, a grande maioria dos marcadores apresentou He maior que 0,40 para as duas populações aqui estudadas. 55 Tabela 6 - Heterozigosidade observada (Ho), heterozigosidade esperada (He) e teste exato para o equilíbrio de Hardy-Weinberg (P-HWE) calculados para os 38 HID-INDELs nas populações de Espírito Santo e São Paulo. Em comparação a He para os mesmos INDELs no estado do Rio de Janeiro (MANTA et al., 2012a). Rio de Janeiro Espírito Santo São Paulo (MANTA et al., 2012a) Marcador Ho He P-HWE Ho He P-HWE He B1 0,49057 0,47662 0,83873 0,55102 0,49922 0,31788 0.494 B2 0,53774 0,50197 0,5609 0,49 0,47111 0,83117 0.475 B3 0,50943 0,48073 0,55048 0,49 0,49121 1,00000 0.472 B4 0,41509 0,41581 1,00000 0,55 0,48035 0,20742 0.461 B5 0,45714 0,47829 0,68457 0,48 0,46312 0,82874 0.481 B6 0,45283 0,47662 0,68129 0,44 0,42211 0,81139 0.461 B7 0,41509 0,49951 0,11529 0,50505 0,50208 1,00000 0.499 B8 0,4434 0,50197 0,24733 0,65 0,50206 0,00488 0.498 B9 0,4434 0,48265 0,4205 0,54 0,47357 0,20282 0.457 B10 0,42453 0,4197 1,00000 0,48 0,42995 0,34699 0.372 G1 0,40952 0,50221 0,07811 0,48 0,50231 0,6929 0.498 G2 0,49057 0,50237 0,8473 0,45 0,49643 0,41806 0.499 G3 0,37736 0,39936 0,62435 0,50505 0,45942 0,38269 0.390 G4 0,56604 0,48073 0,07014 0,5 0,45106 0,37081 0.454 G5 0,40566 0,39502 1,00000 0,39 0,32759 0,06559 0.419 G6 0,45283 0,49092 0,43761 0,57 0,49402 0,15297 0.495 G7 0,5 0,46477 0,52977 0,41 0,38186 0,59889 0.443 G8 0,51887 0,49481 0,69559 0,50505 0,49633 1,00000 0.492 G9 0,35849 0,39059 0,45456 0,33333 0,33005 1,00000 0.431 56 Y1 0,48113 0,46477 0,83322 0,59 0,48799 0,041 0.480 Y2 0,31132 0,3571 0,27064 0,35 0,32759 0,75701 0.397 Y3 0,34286 0,42579 0,06374 0,45918 0,43846 0,81681 0.413 Y4 0,4717 0,4235 0,2583 0,5 0,45106 0,37097 0.345 Y5 0,53774 0,49231 0,42408 0,55 0,50005 0,41977 0.487 Y6 0,43396 0,45068 0,82837 0,56 0,46312 0,04932 0.407 Y7 0,34906 0,42721 0,06926 0,43 0,39151 0,44061 0.416 Y8 0,43396 0,48449 0,3177 0,47 0,49121 0,68745 0.487 Y9 0,35849 0,34141 0,77655 0,4 0,36663 0,41959 0.333 R1 0,49057 0,46732 0,67935 0,41 0,44779 0,50048 0.488 R2 0,40566 0,41183 1,00000 0,49495 0,43609 0,24458 0.472 R3 0,48113 0,44116 0,38307 0,51 0,46025 0,3811 0.443 R4 0,33962 0,38147 0,30545 0,37 0,43372 0,16692 0.430 R5 0,43396 0,45068 0,82865 0,51 0,47593 0,52785 0.452 R6 0,42453 0,45368 0,52423 0,48 0,46312 0,82805 0.463 R7 0,45283 0,50165 0,3344 0,51 0,50246 1,00000 0.497 R8 0,42453 0,4594 0,52358 0,4 0,40523 1,00000 0.416 R9 0,38095 0,43308 0,25715 0,36364 0,39871 0,44424 0.416 R10 0,38679 0,48623 0,04584 0,56 0,50251 0,31848 0.499 Fonte: Este trabalho. *Os maiores e menores valores de He em cada população estão em negrito e sublinhado. Não foi identificado valor de P-HWE significativo após correção por Bonferroni (p < 0,0013). As frequências alélicas obtidas para cada um dos 38 marcadores nas duas populações são mostradas a seguir (Tabela 7): 57 Tabela 7 - Frequências alélicas calculadas para 38 HID-INDELs nas populações de Espírito Santo e São Paulo; nome do marcador e respectivo código usado no eletroferograma; 1 (alelo curto) e 2 (alelo longo). Espírito Santo São Paulo Marcador Código 1 2 1 2 rs34541393 B1 0,386792 0,613208 0,452128 0,547872 rs16624 B2 0,514151 0,485849 0,632979 0,367021 rs2307689 B3 0,396226 0,603774 0,425532 0,574468 rs35769550 B4 0,292453 0,707547 0,388298 0,611702 rs2307700 B5 0,386792 0,603774 0,356383 0,643617 rs140809 B6 0,386792 0,613208 0,31383 0,68617 rs3047269 B7 0,537736 0,462264 0,5 0,5 rs33972805 B8 0,485849 0,514151 0,510638 0,489362 rs33917182 B9 0,599057 0,400943 0,606383 0,393617 rs16402 B10 0,297170 0,702830 0,31383 0,68617 rs1610871 G1 0,485849 0,504717 0,494681 0,505319 rs2067238 G2 0,500000 0,500000 0,542553 0,457447 rs2067294 G3 0,273585 0,726415 0,356383 0,643617 rs2307710 G4 0,396226 0,603774 0,335106 0,664894 rs2308242 G5 0,268868 0,731132 0,207447 0,792553 rs2307580 G6 0,424528 0,575472 0,43617 0,56383 rs1160956 G7 0,636792 0,363208 0,744681 0,255319 rs34511541 G8 0,438679 0,561321 0,446809 0,553191 rs2307978 G9 0,264151 0,735849 0,218085 0,781915 rs3051300 Y1 0,363208 0,636792 0,409574 0,590426 58 rs10629077 Y2 0,231132 0,768868 0,212766 0,787234 rs10688868 Y3 0,301887 0,688679 0,319149 0,680851 rs2067208 Y4 0,301887 0,698113 0,345745 0,654255 rs2307579 Y5 0,429245 0,570755 0,468085 0,531915 rs2308020 Y6 0,660377 0,339623 0,62766 0,37234 rs3080855 Y7 0,306604 0,693396 0,276596 0,723404 rs1610919 Y8 0,594340 0,405660 0,558511 0,441489 rs2307839 Y9 0,216981 0,783019 0,239362 0,760638 rs2308137 R1 0,367925 0,632075 0,345745 0,654255 rs36040336 R2 0,712264 0,287736 0,68617 0,31383 rs1160886 R3 0,325472 0,674528 0,351064 0,648936 rs2308026 R4 0,254717 0,745283 0,31383 0,68617 rs2307526 R5 0,339623 0,660377 0,393617 0,606383 rs34811743 R6 0,655660 0,344340 0,62766 0,37234 rs2308189 R7 0,481132 0,518868 0,484043 0,515957 rs5895447 R8 0,353774 0,646226 0,271277 0,728723 rs2308171 R9 0,311321 0,679245 0,281915 0,718085 rs35605984 R10 0,589623 0,410377 0,521277 0,478723 Fonte: Este trabalho. Como observado na tabela 7, todos os marcadores, com excessão do rs10629077, apresentaram frequência alélica superior a 0,25, que foi o limite mínimo utilizado pelos autores da metodologia como critério de seleção. Um dos alelos deste marcador pode ter sido observado com frequência ligeiramente menor a 0,25, devido a não consideração de nativo-americanos na seleção deste conjunto de marcadores na padronização da metodologia, sendo este um grupo parental importante na formação genética da população do Brasil. 59 Não foi identificado valor de p significativo (p < 0,0000711 após correção por Bonferroni) na avaliação do desequilibrio de ligação (LD) entre os pares de marcadores. Tabela 8 Poder de discriminação (PD) e poder de exclusão (PE) dos 38 marcadores nas populações de Espírito Santo e São Paulo. Espírito Santo São Paulo Marcadores PD PE PD PE B01 0,607867569 0,163914069 0,592 0,236 B02 0,603595586 0,222706414 0,5986 0,17889899 B03 0,608045568 0,179377935 0,6186 0,17889899 B04 0,568707725 0,117398893 0,5742 0,235118125 B05 0,626213152 0,138831534 0,5952 0,170591846 B06 0,610359559 0,149454466 0,5696 0,140172595 B07 0,657777778 0,11392 0,621977349 0,191957581 B08 0,648451406 0,142587218 0,5158 0,355216875 B09 0,62744749 0,149454466 0,5738 0,224961235 B10 0,578141687 0,123365777 0,5622 0,170591846 G01 0,661768707 0,108233703 0,6342 0,170591846 G02 0,629583482 0,179377935 0,6402 0,147369375 G03 0,561231755 0,100734706 0,579532701 0,191957581 G04 0,559807761 0,252090952 0,5738 0,1875 G05 0,551975792 0,117398893 0,4878 0,1079548 G06 0,626557494 0,163914069 0,5742 0,256415629 G07 0,58757565 0,1875 0,5378 0,1201172 G08 0,603239587 0,213487638 0,616263647 0,191957581 60 G09 0,546279815 0,081176743 0,495051525 0,0781893 Y01 0,585261659 0,195889048 0,5534 0,27905158 Y02 0,532039872 0,076723152 0,4922 0,086270625 Y03 0,590294785 0,07380437 0,579133694 0,154214125 Y04 0,559095764 0,171517725 0,5738 0,1875 Y05 0,589355643 0,232210606 0,5938 0,235118125 Y06 0,593983624 0,142587218 0,5504 0,245601485 Y07 0,591491634 0,085798916 0,5422 0,133236351 Y08 0,633677465 0,135953959 0,6274 0,162572239 Y09 0,500711997 0,085798916 0,5248 0,11392 R01 0,594695621 0,179377935 0,6034 0,1201172 R02 0,558205767 0,111642114 0,561371289 0,18311894 R03 0,571911712 0,179377935 0,5778 0,19640099 R04 0,535955856 0,090595402 0,5962 0,096691649 R05 0,6000356 0,142587218 0,5934 0,19640099 R06 0,604307583 0,117398893 0,5952 0,170591846 R07 0,640619438 0,156561513 0,6198 0,19640099 R08 0,605731577 0,129548798 0,5632 0,11392 R09 0,589206349 0,09237536 0,561983471 0,09328722 R10 0,646315415 0,111642114 0,5896 0,245601485 Combinados 0,9999999999999990 0,997 0,999999999999994 0,99945 Probabilidade de match 1,1 x 10-15 6,4 x 10-15 Fonte: Este trabalho. 61 O poder de discriminação acumulado obtido com os 38 HID-INDELs nas populações de Espírito Santo e São Paulo são apresentados na tabela 8. O poder de discriminação obtido com este mesmo conjunto de 38 HID- INDELs foi para africanos (0,99999999999994), europeus (0,999999999999995), asiáticos (0,99999999999997) (PEREIRA, R. et al., 2009), Rio de Janeiro (0,9999999999999990) e Terena (0,9999999999997) (MANTA et al., 2012a). Nota-se que o poder de discriminação obtido para Espírito Santo, São Paulo e Rio de Janeiro (MANTA et al., 2012a) são semelhantes, e mais elevado quando comparado com o valor obtido para as populações de europeus, africanos, asiáticos e nativo-americanos, que são as populações parentais. Sendo que para Espírito Santo, o poder de discriminação obtido foi ligeiramente maior que para São Paulo. Isto ocorre devido à alta miscigenação destas populações brasileiras, que tem sua formação baseada em europeus, africanos e nativo-americanos. Um menor poder de discriminação para este conjunto de marcadores foi obtido para a amostragem nativo-americana de Terena. Este dado é gerado, pois esta população é mais sujeita a deriva genética e, além disso, os autores deste sistema 38 HID-INDELs utilizaram como critério de seleção, marcadores INDELs altamente polimórficos em europeus, africanos e asiáticos. 5.2 Inserção do marcador da amelogenina na reação de 38 HID-INDELs Na resolução de casos de investigação de paternidade o sistema de análise de 38 HID-INDELs (PEREIRA, R., 2009) pode ser utilizado em associação com STRs, para aumentar o poder de discriminação. Os kits comerciais para análise de STRs autossômicos apresentam o marcador da amelogenina, porém, na análise de DNA degradado, pode-se não obter boa visualização da amelogenina no eletroferograma por fatores como: ausência de amplificação ou ocorrência de alelo nulo devido à baixa quantidade de DNA amplificável e, sobreposição de artefatos gerados nos marcadores STR aos alelos da amelogenina, formados pela baixa qualidade do DNA ou contaminação provenientes da longa exposição da amostra ao ambiente. Nestes casos, é interessante uma opção complementar de amplificação da amelogenina para confirmação do sexo das amostras em questão. 62 Além disso, vimos nos resultados apresentados anteriormente, que o sistema 38 HID-INDELs é eficiente na identificação de indivíduos, por isto, o interesse de se inserir este marcador na reação multiplex para análise de 38 HID-INDELs, uma vez que esta reação não apresenta originalmente o marcador. Como apresentado anteriormente, selecionou-se o par de primers descrito em Krenke et al. (2002) e a análise in silico com o auxílio da ferramenta online In Silico PCR (KENT, 2001) mostrou que o tamanho dos fragmentos a serem amplificados ocupariam perfeitamente o espaço entre 103 e 120 pb no eletroferograma. Inicialmente, o par de primers foi testado por PCR para verificação da eficiência, e posteriormente testado em conjunto com os primers para amplificação multiplex dos 38 HID-INDELs. Os fragmentos amplificados da amelogenina apareceram no eletroferograma algumas bases a menos do que o esperado (Figura 6) e o alelo X do marcador da amelogenina apareceu muito próximo ao marcador Y05 prejudicando sua identificação. Figura 6 - Eletroferograma mostrando os marcadores INDELs na fluorescência NED. A seta indica os picos referentes aos alelos X e Y amplificados com o par de primers original (KRENKE et al., 2002). O eixo Y indica a intensidade de fluorescência em RFU (relative fluorescence units) e o eixo X, a posição do fragmento em pares de base. Fonte: Este trabalho X Y 63 Para solucionar este efeito, o primer reverso para a amelogenina foi deslocado 6 pb no sentido da extremidade 3’ para possibilitar a verificação correta do fragmento no eletroferograma sem prejudicar a análise de nenhum INDEL, conforme esquema a seguir (Figura 7): Figura 7 - Ilustração da sequencia do fragmento amplificado para o marcador amelogenina no cromossomo X. 1) Localização do primer reverso original; 2) Alteração do primer reverso visando a obtenção de um fragmento amplificado com 6 bases a mais. ... Primer forward ... fragmento a ser amplificado; ... primer reverso original; ... primer reverso alterado. 1) 5’CAATGCCCTGGGCTCTGTAAAGAATAGTGTGTTGATTCTTTATCCCAGATGTTT CTCAAGTGGTCCTGATTTTACAGTTCCTACCACCAGCTTCCCAGTTTAAGCTCTG ATGGTTGGCCTCAAGCCT 3’ 2) 5’CAATGCCCTGGGCTCTGTAAAGAATAGTGTGTTGATTCTTTATCCCAGATGTTT CTCAAGTGGTCCTGATTTTACAGTTCCTACCACCAGCTTCCCAGTTTAAGCTCTG ATGGTTGGCCTCAAGCCT 3’ Fonte: (BRAGANHOLI, 2015). Assim, conforme apresentado na figura 8, foi possível obter a identificação correta da amelogenina e dos 38 HID-INDELs pela reação multiplex. 6 bases 64 Figura 8 - Eletroferograma da reação multiplex de 38 HID-INDELs e o marcador da amelogenina (indicado pela seta). O eixo Y indica a intensidade de fluorescência em RFU (relative fluorescence units) e o eixo X, a posição do fragmento em pares de base. Fonte: (BRAGANHOLI, 2015). Fonte: (BRAGANHOLI, 2015). 5.3 Comparação entre STRs e 38 HID-INDELs em amostras do estado de São Paulo Foram analisados 20 STRs autossômicos rotineiramente usados na identificação humana (Figura 9) nas amostras provenientes de indivíduos do estado de São Paulo para avaliação da eficiência forense e comparação com os dados obtidos dos 38 HID-INDELs. 65 Figura 9 - Eletroferograma de uma reação para análise de 20 STRs mais amelogenina com o kit PowerPlex 21 (Promega). O eixo Y indica a intensidade de fluorescência em RFU (relative fluorescence units) e o eixo X, a posição do fragmento em pares de base. Fonte: Este trabalho Os perfis individuais de cada amostra, obtidos pela análise do kit PowerPlex 21 (Promega), foram analisados individualmente para verificação da qualidade no software GeneMapper ID-X v. 1.2 (Thermo Fisher Scientific). Foram calculados o poder de discriminação (PD) e o poder de exclusão (PE) para os 20 STRs (Tabela 9): 66 Tabela 9 - Poder de discriminação (PD) e poder de exclusão (PE) para os 20 STRs e comparados com os resultados acumulados dos 38 HID-INDELs. Marcadores PD PE CSF1PO 0,898375677 0,403458402 Penta D 0,947603358 0,74728545 TH01 0,85687904 0,45874277 vWA 0,9298 0,694864375 D21S11 0,896868716 0,502544038 D7S820 0,916437098 0,633209356 D5S818 0,8924 0,476181321 TPOX 0,831751862 0,423587748 D8S1179 0,9278 0,754773606 D12S391 0,965100833 0,687298172 D13S317 0,906 0,544598809 Penta E 0,9758 0,81589215 D16S539 0,8978 0,636671354 D18S51 0,961890879 0,591486616 D2S1338 0,97 0,81589215 D19S433 0,896468144 0,628666226 FGA 0,95867036 0,742042281 D3S1358 0,883 0,544598809 D1S1656 0,945153061 0,744689941 D6S1043 0,943122811 0,66584501 Combinados >0,999999999999999 0,9999999991 38 HID-INDELs 0,999999999999994 0,99945 Fonte: Este trabalho. 67 Os valores do PD e PE obtidos com os 20 STRs são significativamente superiores quando comparados com os 38 HID-INDELs. A probabilidade de match, que é a probabilidade de dois indivíduos compartilharem o mesmo genótipo na população, foi (6,4 x 10-15) para o conjunto 38 HID-INDELs e (8,7 x 10-24) para o conjunto de 20 STRs autossômicos. Os marcadores INDELs são bialélicos (dois alelos possíveis), enquanto os STRs são multialélicos (diferentes números de alelos possíveis), isto gera maior poder de discriminação para cada marcador STR, no entanto, na análise de amostras de DNA com alto nível de degradação onde perfis incompletos são obtidos com os STRs, a sua combinação com marcadores INDELs pode ser uma ótima alternativa para aumentar o poder de discriminação. Para que STRs e INDELs possam ser combinados, é importante conhecer o desequilíbrio de ligação entre os marcadores na população em que estes sejam utilizados, pois apesar da distância no genoma, o desequilíbrio pode ser específico para cada população (SZIBOR et al ., 2005). Fondevila et al. (2012) citaram dois pares de marcadores STR-INDEL muito próximos no genoma para serem considerados como marcadores independentes: D7S820-rs2307978 e D12S391-rs1610919. Estes dois INDELs são analisados no método de 38 HID-INDELs e os dois STRs são analisados pelo kit PowerPlex 21 (Promega). O teste exato para avaliação do desequilíbrio de ligação foi realizado para todos os marcadores (20 STRs e 38 INDELs) e não foi identificado valor de p significativo após a correção de Bonferroni (p < 0,000029) para nenhum par de marcadores. Foram obtidos os valores p = 0,43988 para o par D7S820-rs2307978 e p = 0,99606 para o par D12S391-rs1610919, indicando que não há desequilíbrio de ligação entre estes marcadores na população estudada do estado de São Paulo e que podem ser utilizados para identificação humana como marcadores independentes. 5.4 Análise de 46 AIM-INDELs Nesta parte, são discutidos os dados obtidos da análise de 46 AIM-INDELs nas populações dos estados de São Paulo e Espírito Santo. 68 5.4.1 Implantação e avaliação da técnica Apesar das amostras terem sido analisadas durante o estágio sanduíche no exterior utilizando o equipamento ABI 3130 (Thermo Fisher Scientific), foi realizado o ajuste do protocolo descrito por Pereira, R. et al. (2012b) para o ABI 3500 pelos mesmos motivos descritos no ítem 5.1.1. As diferentes posições de leitura em pb são mostradas a seguir (Tabela 10). Tabela 10 - Comparação das posições em pares de base (pb) no eletroferograma dos alelos de cada um dos 46 marcadores com os respectivos fluorocromos no ABI 3130 e no ABI 3500 (Thermo Fisher Scientific). 1 (alelo curto), 2 (alelo longo) e 3 (terceiro estado alélico). ABI 3130 (polímero POP-7) ABI 3500 (polímero POP-4) Pereira, R. et al., (2012) Este trabalho Marcador Fluorocromo 1 (pb) 2 (pb) 3* (pb) 1 (pb) 2 (pb) 3* (pb) 1470 Azul 62,55 67,49 55,59 61,37 777 Azul 71,3 74,1 66,75 69,93 196 Azul 81,62 84,74 76,34 79,45 881 Azul 89,78 93,68 84,58 88,77 3122 Azul 99,03 102,63 94,68 99,02 548 Azul 108,34 110,34 104,86 106,83 659 Azul 117,55 119,34 113,39 115,4 2011 Azul 128,06 132,92 124,19 129,02 2929 Azul 151,56 153,66 145,82 147,88 593 Azul 157,16 159,41 151,98 154,36 798 Azul 169,27 175,04 164,04 170,15 1193 Azul 181,54 183,75 176,78 179,24 1871 Azul 191,06 193,89 187,89 190,08 69 17 Azul 200,99 204,8 196,25 200,26 2538 Azul 210,76 214,57 207,1 210,94 1644 Azul 223,46 225,22 219,09 220,85 3854 Verde 56,94 61,06 49,69 54,3 2275 Verde 71,13 77,84 66,59 74,06 94 Verde 91,29 94,35 87,59 90,69 3072 Verde 106,51 113,13 102,54 109,53 772 Verde 118,44 121,38 115,65 118,74 2313 Verde 128,26 137,51 124,66 133,83 397 Verde 164,52 168,66 159,69 164,6 1636 Verde 174,68 176,51 170,61 172,42 51 Verde 185,09 190,11 179,94 185,09 2431 Verde 210,24 214,35 206,09 210,06 2264 Verde 225,96 229,9 228,9 221,61 225,79 224,79 2256 Amarelo 59,64 62,53 52,54 56,1 128 Amarelo 68,81 71,76 63,63 66,92 15 Amarelo 79,13 90,24 74,16 85,17 2241 Amarelo 108,06 116,17 104,64 113,27 419 Amarelo 121,08 127,91 117,84 124,69 943 Amarelo 157,51 161,4 151,96 156 159 Amarelo 169,1 174,22 164,76 170,15 2005 Amarelo 185,43 191,11 179,89 185,96 250 Amarelo 201,58 203,58 197,33 199,43 1802 Amarelo 214,48 217,32 209,62 212,64 1607 Amarelo 222,19 223,69 217,36 219,46 70 1734 Vermelho 59,53 62,83 51,89 56,5 406 Vermelho 67,68 69,46 62,05 64,21 1386 Vermelho 73,3 94,69 68,41 89,9 1726 Vermelho 105,97 118,4 102,78 115,72 3626 Vermelho 142,95 159,01 138,92 154,14 360 Vermelho 170,76 172,55 171,63 167,26 169,05 168,12 1603 Vermelho 214,82 218,62 211 214,68 2719 Vermelho 228,36 232,26 224,26 228,17 Fonte: Este trabalho. *Dois marcadores deste conjunto podem apresentar o alelo 3. Esta característica será discutida posteriormente no ítem 5.4.4. Após o ajuste de leitura para correta identificação dos alelos, verificamos que a reação de amplificação foi eficiente para análise dos 46 INDELs (Figura 10). 71 Figura 10 - Eletroferograma de uma reação multiplex dos 46 AIM-NDELs. O eixo Y indica a intensidade de fluorescência em RFU (relative fluorescence units) e o eixo X, a posição do fragmento em pares de base. As setas indicam alguns artefatos da amplificação, que não são prejudiciais à identificação do perfil. Fonte: Este trabalho Destaca-se na figura alguns artefatos causados na reação de amplificação; estes artefatos podem ser gerados por excesso de álcool no processo de purificação ou fluorescência residual da purificação. Neste caso, não foi realizada a purificação do produto de PCR previamente à EC, pois, os artefatos visualizados não interferem na identificação correta do perfil da amostra. 5.4.2. Diversidade gênica e distância genética entre populações O painel de linhagem celular para diversidade do genoma humano (HGDP- CEPH) é uma coleção de 1064 amostras de DNA de indivíduos de populações do mundo todo (CANN et al., 2002). As amostras de DNA do painel de diversidade estão publicamente disponíveis para estudos de variação genética, formando uma 72 base considerável para pesquisa em genética humana (CAVALLI-SFORZA, 2005). Pereira, R. et al. (2012) analisaram as amostras do HGDP-CEPH para os 46 AIM- INDELs e geraram dados para populações africanas, europeias, asiáticas e nativo- americanas. Os dados obtidos no presente estudo, para as populações dos estados de São Paulo e Espírito Santo, foram comparados com dados de populações africanas, europeias e nativo-americanas do HGDP-CEPH (PEREIRA, R. et al., 2012). Não apresentamos aqui a comparação com os dados de populações asiáticas, pois: a história de formação populacional do Brasil indica uma miscigenação entre europeus, africanos e nativo-americanos (BUENO, 2003); trabalhos que utilizaram estes mesmos 46 AIM-INDELs em populações miscigenadas brasileiras não apresentam a comparação de dados com os de populações asiáticas (MANTA et al., 2012b), assim, seguimos o mesmo parâmetro para compararmos nossos dados com os de outras populações brasileiras; e além disso, não identificamos em nossa amostragem das populações de São Paulo e Espírito Santo nenhum indivíduo com evidente proporção de ancestralidade asiática. Os dados também foram comparados com os das seguintes populações brasileiras, provenientes das cinco principais regiões do país: Santa Isabel e Manaus (Norte); Pernambuco e Alagoas (Nordeste); Mato Grosso do Sul e Terena (Centro- Oeste); Minas Gerais, Rio de Janeiro, São Paulo e Espírito Santo (Sudeste) e Paraná, Santa Catarina e Rio Grande do Sul (Sul) (MANTA et al., 2012b) (Tabela 11). Lembrando que as amostras de São Paulo e Espírito Santo analisadas no presente trabalho são diferentes das últimas mencionadas, e foram comparadas visando a identificação de possíveis variações provenientes de efeito amostral. Na análise de estimativa de distância genética (Fst) entre as populações estudadas de São Paulo e Espírito Santo, o valor obtido para a distância genética foi Fst = 0,00179, p = 0,09940, indicando que as populações são bastante próximas geneticamente, como observado também nos dados dos 38 HID-INDELs. 73 Tabela 11 - Distâncias genéticas entre as populações (abaixo da diagonal) e valores de p correspondentes (acima da diagonal). *amostras populacionais de Espírito Santo e São Paulo estudadas neste trabalho. AFR EUR NAM Sta, Isabel Manaus PE AL MS Terena MG ES RJ SP PR SC RS ES* SP* AFR * 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 EUR 0,36515 * 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00149 0,02633 0,00000 0,00000 0,00000 NAM 0,44273 0,29768 * 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 Sta. Isabel 0,38605 0,22896 0,01989 * 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 Manaus 0,28378 0,08085 0,12616 0,06718 * 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 PE 0,19928 0,04762 0,21225 0,15387 0,03067 * 0,07425 0,58875 0,00000 0,47995 0,00000 0,12128 0,37392 0,03366 0,00000 0,00010 0,65706 0,04039 AL 0,21443 0,04950 0,19384 0,13834 0,02030 0,00147 * 0,43867 0,00000 0,01020 0,00000 0,00139 0,05514 0,05811 0,00000 0,00109 0,02416 0,01604 MS 0,21612 0,04507 0,21900 0,15813 0,03032 -0,00027 0,00009 * 0,00000 0,72676 0,00000 0,27077 0,14454 0,18959 0,00000 0,04188 0,76567 0,10593 Terena 0,39929 0,24800 0,02536 0,01655 0,08480 0,16179 0,14511 0,16385 * 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 0,00000 MG 0,20782 0,04337 0,23940 0,17813 0,03948 0,00006 0,00335 -0,00084 0,18570 * 0,00000 0,57856 0,66112 0,04623 0,00069 0,03673 0,93011 0,04703 ES 0,29589 0,01014 0,25249 0,18361 0,04479 0,01422 0,01530 0,01281 0,19722 0,01249 * 0,00000 0,00564 0,72914 0,11930 0,67904 0,00000 0,00010 RJ 0,18190 0,05176 0,22025 0,16468 0,03604 0,00081 0,00343 0,00056 0,17494 -0,00019 0,01868 * 0,18266 0,01168 0,00000 0,00020 0,16691 0,00089 SP 0,23356 0,03689 0,25761 0,18514 0,04066 0,00050 0,00297 0,00199 0,19439 -0,00079 0,00563 0,00136 * 0,47471 0,00347 0,13682 0,44481 0,51836 PR 0,29837 0,01248 0,26107 0,17656 0,03232 0,00686 0,00573 0,00335 0,19253 0,00717 -0,00145 0,00943 0,00045 * 0,48916 0,73765 0,16484 0,35214 SC 0,34219 0,00807 0,30523 0,21891 0,06608 0,02698 0,02713 0,02537 0,24345 0,02143 0,00545 0,03081 0,01729 0,00315 * 0,28562 0,00010 0,00149 RS 0,30366 0,01774 0,25299 0,17310 0,03493 0,01320 0,01169 0,00656 0,18759 0,00727 -0,00078 0,01542 0,00508 -0,00102 0,00707 * 0,02049 0,11702 ES* 0,21479 0,04051 0,22869 0,16555 0,03263 -0,00038 0,00246 -0,00087 0,17651 -0,00163 0,00977 0,00084 0,00026 0,00382 0,02194 0,00777 * 0,09940 SP* 0,22667 0,03709 0,22349 0,16026 0,03318 0,00205 0,00299 0,00178 0,16934 0,00261 0,00830 0,00413 -0,00005 0,00176 0,01671 0,00491 0,00179 * 74 Nesta tabela, é possível perceber que as distâncias genéticas entre as populações parentais, e até mesmo para as populações dos estados brasileiros aqui estudados, obtidas com os 46 AIM-INDELs, são maiores do que as obtidas com os 38 HID-INDELs. Isto é esperado, pois, as características dos marcadores analisados em cada sistema são diferentes. Enquanto os 38 HID-INDELs apresentam alta frequência alélica nas populações visando à identificação de indivíduos, os 46 AIM- INDELs apresentam diferenças alélicas entre as populações, o que permite diferenciá-las com maior eficiência. Os dados de distância genética (Fst) entre as populações foram plotados em escala multidimensional (MDS-plot), conforme a figura 11 a seguir: 75 Figura 11 - MDS-plot da estimativa de distância genética entre europeus (EUR), nativo-americanos (NAM), africanos (AFR), Santa Isabel (SI), Terena, Manaus, Santa Catarina (SC), Rio Grande do Sul (RS), Paraná (PR), Alagoas (AL), Mato Grosso do Sul (MS), Pernambuco (PE), Minas Gerais (MG), Rio de Janeiro (RJ), São Paulo (SP) e Espírito Santo (ES). As populações EUR, AFR, NAM e as de SP e ES analisadas neste estudo estão marcadas em preto. Fonte: Este trabalho. As populações de Espírito Santo e São Paulo analisadas neste trabalho são semelhantes às demais populações miscigenadas brasileiras disponíveis na literatura, mais próximas geneticamente de populações da Europa do que África e Nativo-americanos, com exceção de Silvânia e a tribo Terena. Entretanto, a 76 população de Espírito Santo se mostrou mais próxima das demais populações da região sudeste do Brasil em comparação com os dados da amostragem do Espírito Santo disponíveis na literatura (MANTA et al., 2012b) que, segundo os autores, pode ter sofrido um efeito amostral devido à forma de seleção das amostras no momento da coleta, que foi realizada de professores e alunos de uma universidade. Nas tabelas 12 e 13, são mostradas as frequências alélicas dos 46 AIM- INDELs e os dados obtidos nos cálculos de heterozigosidade observada (Ho), heterozigosidade esperada (He) e teste do equilíbrio de Hardy-Weinberg (P-HWE) nas populações de Espírito Santo e São Paulo. Tabela 12 - Frequências alélicas dos 46 AIM-INDELs nas populações de Espírito Santo e São Paulo. Espírito Santo São Paulo Marcador 1 2 3 1 2 3 1470 0,39899 0,60101 0,39691 0,60309 777 0,35859 0,64141 0,38144 0,61856 196 0,47980 0,52020 0,48454 0,51546 881 0,73737 0,26263 0,80208 0,19792 3122 0,93434 0,06566 0,86082 0,13918 548 0,31818 0,68182 0,30928 0,69072 659 0,12121 0,87879 0,13402 0,86598 2011 0,64141 0,35859 0,53093 0,46907 2929 0,72222 0,27778 0,65464 0,34536 593 0,18182 0,81818 0,24742 0,75258 798 0,44949 0,55051 0,50000 0,50000 1193 0,16162 0,83838 0,15979 0,84021 1871 0,26768 0,73232 0,23711 0,76289 17 0,47980 0,52020 0,46392 0,53608 77 2538 0,30808 0,69192 0,37113 0,62887 1644 0,73232 0,26768 0,78866 0,21134 3854 0,21717 0,78283 0,18041 0,81959 2275 0,20202 0,79798 0,24742 0,75258 94 0,16162 0,83838 0,21134 0,78866 3072 0,72222 0,27778 0,77835 0,22165 772 0,93434 0,06566 0,93299 0,06701 2313 0,21212 0,78788 0,29381 0,70619 397 0,76263 0,23737 0,69588 0,30412 1636 0,63636 0,36364 0,60309 0,39691 51 0,49495 0,50505 0,54639 0,45361 2431 0,09091 0,90909 0,18041 0,81959 2264 0,44444 0,51515 0,04040 0,36598 0,58247 0,05155 2256 0,22222 0,77778 0,25773 0,74227 128 0,27273 0,72727 0,24742 0,75258 15 0,41919 0,58081 0,48969 0,51031 2241 0,32828 0,67172 0,37629 0,62371 419 0,82828 0,17172 0,79381 0,20619 943 0,64141 0,35859 0,67368 0,32632 159 0,68182 0,31818 0,70103 0,29897 2005 0,42424 0,57576 0,52222 0,47778 250 0,73737 0,26263 0,72165 0,27835 1802 0,13131 0,86869 0,12371 0,87629 1607 0,27273 0,72727 0,29381 0,70619 1734 0,76768 0,23232 0,75258 0,24742 78 406 0,57576 0,42424 0,61856 0,38144 1386 0,25758 0,74242 0,20103 0,79897 1726 0,52020 0,47980 0,56701 0,43299 3626 0,48485 0,51515 0,57732 0,42268 360 0,74747 0,23737 0,01515 0,73196 0,25258 0,01546 1603 0,36364 0,63636 0,37629 0,62371 2719 0,36364 0,63636 0,46392 0,53608 Fonte: Este trabalho. Tabela 13 - Heterozigosidade observada (Ho), heterozigosidade esperada (He) e teste exato para o equilíbrio de Hardy-Weinberg (P-HWE) calculados para os 46 AIM-INDELs nas populações de Espírito Santo e São Paulo. Espírito Santo São Paulo Marcador Ho He P-HWE Ho He P-HWE 1470 0,41414 0,48203 0,20835 0,38144 0,48122 0,05425 777 0,49495 0,46234 0,51840 0,55670 0,47433 0,13151 196 0,47475 0,50172 0,68855 0,49485 0,50211 100000 881 0,38384 0,38927 100000 0,33333 0,31915 100000 3122 0,11111 0,12331 0,34354 0,23711 0,24085 100000 548 0,43434 0,43609 100000 0,43299 0,42946 100000 659 0,22222 0,21412 100000 0,24742 0,23332 100000 2011 0,43434 0,46234 0,66104 0,52577 0,50067 0,68486 2929 0,45455 0,40327 0,31430 0,38144 0,45452 0,12356 593 0,28283 0,29903 0,73393 0,30928 0,37434 0,10155 798 0,51515 0,49741 0,83935 0,50515 0,50259 100000 79 1193 0,26263 0,27237 0,71350 0,23711 0,26991 0,25386 1871 0,37374 0,39404 0,61489 0,37113 0,36366 100000 17 0,59596 0,50172 0,06998 0,57732 0,49997 0,15157 2538 0,45455 0,42850 0,63801 0,47423 0,46921 100000 1644 0,33333 0,39404 0,13017 0,27835 0,33508 0,12266 3854 0,37374 0,34174 0,55250 0,25773 0,29726 0,18599 2275 0,32323 0,32405 100000 0,35052 0,37434 0,58607 94 0,24242 0,27237 0,27225 0,31959 0,33508 0,75957 3072 0,35354 0,40327 0,22196 0,31959 0,34683 0,55416 772 0,13131 0,12331 100000 0,09278 0,12569 0,05084 2313 0,32323 0,33595 0,76296 0,38144 0,41713 0,46306 397 0,37374 0,36389 100000 0,36082 0,42546 0,15389 1636 0,36364 0,46516 0,03199 0,40206 0,48122 0,13650 51 0,42424 0,50249 0,16005 0,37113 0,49826 0,01475 2431 0,14141 0,16613 0,17231 0,31959 0,29726 0,72917 2264 0,50505 0,53817 0,78679 0,58763 0,52684 0,58751 2256 0,34343 0,34743 100000 0,41237 0,38459 0,59624 128 0,40404 0,39871 100000 0,39175 0,37434 0,78619 15 0,47475 0,48941 0,83747 0,54639 0,50238 0,42113 2241 0,45455 0,44327 100000 0,38144 0,47182 0,08186 419 0,28283 0,28590 100000 0,26804 0,32904 0,11212 943 0,45455 0,46234 100000 0,48421 0,44199 0,48243 159 0,39394 0,43609 0,35983 0,41237 0,42135 0,81257 2005 0,44444 0,49100 0,41116 0,35556 0,50180 0,00650 250 0,44444 0,38927 0,19575 0,37113 0,40382 0,45064 80 1802 0,18182 0,22930 0,05844 0,20619 0,21794 0,63148 1607 0,44444 0,39871 0,31145 0,44330 0,41713 0,62753 1734 0,32323 0,35851 0,39624 0,41237 0,37434 0,41490 406 0,54545 0,49100 0,30635 0,43299 0,47433 0,39707 1386 0,37374 0,38440 0,79429 0,34021 0,32290 0,75538 1726 0,53535 0,50172 0,54810 0,55670 0,49356 0,22024 3626 0,40404 0,50208 0,06972 0,43299 0,49057 0,29767 360 0,42424 0,38666 0,50574 0,38144 0,40228 0,66725 1603 0,40404 0,46516 0,20003 0,38144 0,47182 0,08271 2719 0,46465 0,46516 100000 0,43299 0,49997 0,22161 Fonte: Este trabalho. *Os maiores e menores valores de Ho de cada população estão em negrito e grifados. Não foram identificados valores de P-HWE significativo após correção por Bonferroni (p < 0,0010) ou de desequilibrio de ligação entre os pares de marcadores (p < 0,000048). 5.4.3 Proporções de ancestralidade Foi realizada a comparação das populações estudadas de São Paulo e Espírito Santo com as populações africanas, europeias e nativo-americanas (PEREIRA, R. et al., 2012) para identificação de proporção de ancestralidade destes três grupos. Estes testes foram realizados com o software STRUCTURE v. 2.3.4 (FALUSH; STEPHENS; PRITCHARD, 2003) com os seguintes parâmetros: 100.000 (burnin length) e 100.000 (repetições Markov Chain Monte Carlo-MCMC), o mínimo de 3 corridas independentes foram realizadas para cada valor de K testado (assumindo que K é o número de grupos formados na análise). Inicialmente, foi realizado um teste sem qualquer informação das origens das amostras usando o modo Admixture, assumindo teoricamente que todas eram 81 desconhecidas, para verificar qual seria o K ideal para análise destas populações, testando K= 1 a K= 7. Neste contexto, K pode ser definido como o número ideal de grupos que conseguem ser formados com os dados fornecidos ao software. A estimativa de probabilidade de dados (2lnP(D)) foi plotada através do site STRUCTURE Harvester v. 0.6.6 (http://taylor0.biology.ucla.edu/ structureHarvester/) (Figura 12). Figura 12 - Estimativa de probabilidade de dados obtida com o software STRUCTURE v. 2.3.4 e plotado usando o site STRUCTURE Harvester v. 0.6.6. A seta indica o K= 3, onde a diferenciação de grupos foi ideal. Fonte: Este trabalho. Verificamos que o K= 3 é o ideal para a análise deste grupo de populações, pois foi onde houve o maior nível de diferenciação, ou seja, três grupos foram formados com estes dados. Como esperado, os três grupos diferenciados foram os africanos, europeus e nativo-americanos, e as populações de São Paulo e Espírito Santo apresentando proporções destes três grupos principais. Posteriormente, as amostras africanas, europeias e nativo-americanas foram utilizadas como referência para as populações de São Paulo e Espírito Santo http://taylor0.biology.ucla.edu/ 82 através da opção “Use Population Information” do software. Nesta análise três comparações independentes foram realizadas apenas para K= 3, conforme os resultados das análises iniciais. Na figura 13 (A) são apresent