Uma ferramenta para predições de epítopos lineares de células B baseada em uma rede neural da teoria da ressonância adaptativa

Carregando...
Imagem de Miniatura

Data

2022-02-11

Autores

La Marca, Anthony Ferreira

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

O sistema público de saúde é extremamente dependente do uso de vacinas para imunizar a população de uma série de doenças infecciosas e perigosas, evitando que o sistema entre em colapso e que milhões de pessoas morram todo ano. No entanto, para desenvolvê-las e monitorar de forma efetiva essas doenças é necessário utilizar métodos de diagnóstico precisos, capazes de identificar regiões altamente imunogênicas dentro de uma determinada proteína patogênica. Os métodos experimentais existentes têm custos elevados, são demorados e exigem um árduo trabalho laboratorial, pois requerem a triagem de um grande número de potenciais epítopos candidatos, tornando os métodos extremamente laboriosos, especialmente para a aplicação em microrganismos maiores. Nas últimas décadas, os pesquisadores desenvolveram métodos de predição in sílico, baseados em aprendizagem de máquina, para identificar esses marcadores, de maneira a reduzir drasticamente a lista de potenciais epítopos candidatos para os testes experimentais, e, consequentemente, diminuir a laboriosa tarefa associada ao seu mapeamento. Apesar dos esforços da última década e da quantidade de dados disponíveis em grandes bases de dados públicas, as ferramentas e métodos desenvolvidos, com o propósito de identificar esses marcadores, ainda apresentam baixa acurácia, aprendizado lento e não utilizam técnicas de aprendizado on-line. Desta forma, a proposta deste trabalho é desenvolver uma ferramenta que utilize uma abordagem inédita, atentando ao treinamento on-line e na melhora da acurácia na identificação de epítopos lineares de células B. Para isso, a ferramenta nomeada BepFAMN (B Epitop Prediction Fuzzy ArtMap Artificial Neural) network, utiliza a Rede Neural Artificial (RNA) ARTMAP-FUZZY, treinada com epítopos anotados de sequências de aminoácidos de proteína, disponíveis no banco de dados do IEDB. Essa base de dados foi particionada utilizando a técnica de validação cruzada quíntupla e operada para treinamento e validação, sendo que os dados, antes de serem apresentados à RNA, foram pré-processados utilizando a escala de propensão de aminoácidos e sua proporção em epítopos positivos e negativos. Para os testes foi utilizado a base de dados do BepiPred-2.0, como uma base independente. Em ambos, validação e teste, os resultados foram promissores, alcançando área sob a curva (AUC) ROC de aproximadamente 0,9289 e 0,7831, respectivamente. Os valores alcançados, principalmente o de teste, demonstram que os melhores resultados, até então alcançados pela ferramenta EpiDope (0,605), foram superados. Este fato, contribui com uma redução considerável do número de potenciais epítopos lineares a serem validados experimentalmente, reduzindo o tempo laboratorial e acelerando o desenvolvimento de testes de diagnósticos, vacinas e abordagens imunoterapêuticas.
The public health system is extremely dependent on the use of vaccines to immunize the population from a range of infectious and dangerous diseases, preventing the system from collapsing and millions of people dying every year. However, to effectively develop and monitor these diseases, it is necessary to use precise diagnostic methods capable of identifying highly immunogenic regions within a particular pathogenic protein. Existing experimental methods have high costs, are time-consuming and require hard laboratory work, as they require the screening of large number of potential candidate epitopes, making the methods extremely laborious, especially for application on larger microorganism. In the last decades, researchers have developed in silico prediction methods, machine learning based, to identify these markers, in order to drastically reduce the list of potential candidate epitopes for the experimental tests, and, consequently, decrease the laborious task associated with their mapping. Despite the efforts of the last decade and the amount of data available in large public databases, the tools and methods developed, with the purpose of identifying these markers, still have low accuracy. Thus, the purpose of this work is to develop a tool that uses an unprecedented approach, focusing on online training and improving the accuracy of identifying linear B-cell epitopes. For this, the tool called BepFAMN, uses the Fuzzy-ARTMAP Artificial Neural Network (ANN) trained considering annotated epitopes from sequences of protein amino acids, available from the IEDB database (Immune Epitope Databases). This database was partitioned using the five-fold cross-validation technique and operated for training and testing, and the data, before being presented to the ANN, were pre-processed using the amino acid propensity scale and its proportion in epitopes positive and negative. For the tests, the BepiPred-2.0 database was used, as an independent database. In both, validation and test, the results were promising, reaching area under the curve (AUC) ROC of approximately 0.9289 and 0.7831, respectively. The achieved values, especially the test one, demonstrates that the best results, hitherto achieved by the EpiDope tool (0.605), were surpassed. This fact contributes to a considerable reduction in the number of potential linear epitopes to be experimentally validated, reducing laboratory time and accelerating the development of diagnosis tests, vaccines and immunotherapeutic approaches.

Descrição

Palavras-chave

Mapeamento de epítopo, Diagnóstico, Predição in sílico, Epítopos lineares de células B, Epitope mapping, Diagnosis, In silico prediction, Linear B-cell epitopes, Artificial neural network, Fuzzy-ARTMAP

Como citar