Machine learning and information retrieval techniques for time series analysis

Rozin, Bionda [UNESP]

Publicação:
Machine learning and information retrieval techniques for time series analysis

dc.contributor.advisor	Pedronette, Daniel Carlos Guimarães [UNESP]
dc.contributor.author	Rozin, Bionda [UNESP]
dc.contributor.institution	Universidade Estadual Paulista (Unesp)
dc.date.accessioned	2024-10-14T11:53:28Z
dc.date.available	2024-10-14T11:53:28Z
dc.date.issued	2024-09-04
dc.description.abstract	Due to the great applicability of time series in diverse scenarios, such as medicine, agriculture, economics, and science, the analysis and processing of this kind of data is demanding. Tools such as information retrieval, classification, and clustering are crucial for analyzing time series in different contexts and with different objectives. Information retrieval tasks in time series data can identify patterns and rank data by similarity. At the same time, classification can label time series based on a training set, and clustering can group time series based on their similarities. Also, semi-supervised classification considers both labeled and unlabeled data to perform classification. In general, Machine Learning and Information Retrieval tasks are extremely dependent on a good computational representation of data, generating more effective results and assertive conclusions about the performed task. In this scenario, one of the main challenges is to obtain good features from Time Series. Also, similarity metrics usually consider only pairwise relations, not considering important information in the neighborhood of the analyzed items in the dataset. The objective of this research is to apply machine learning and information retrieval techniques for obtaining effective results in time series analysis. Four different methods are employed, and different feature extractors are evaluated in all tasks. First, a comparative study of univariate time series representation and ranking through contextual ranked-based distance learning is conducted in 10 different datasets, leading to mAP gains up to 31.78\%. Giving sequence to this research line, we propose multivariate time series analysis by processing each dimension of the series individually and using contextual rank aggregation methods to merge results and obtain a similarity representation used for retrieval and classification, obtaining competitive results to two SOTA methods. A clustering-based framework for data analysis based on temporal graph encoding is also proposed, where data is split using time segmentation criteria, and highly interpretative results are reached in this framework when applied to ball possession analysis in football matches. Last, semi-supervised classification of univariate time series using imaging methods and label propagation is proposed, reaching similar results to supervised classification.	en
dc.description.abstract	Considerando o vasto domínio de aplicações de dados temporais, como o setor médico, agrícola, financeiro e científico, por exemplo, exige-se cada vez mais a análise e processamento desse tipo de dado. Tarefas como recuperação da informação, classificação e agrupamento são cruciais para analisar séries temporais em diferentes contextos e com diferentes objetivos. Recuperação da informação aplicadas em conjuntos de séries temporais permitem a identificação de padrões e ranqueamento dos dados conforme a sua semelhança, enquanto a classificação rotula séries temporais com base em um conjunto de treinamento, e tarefas de \textit{clustering} agrupam séries temporais com base em suas similaridades. Ainda, há a classificação semi-supervisionada, que considera ambos os dados rotulados e não-rotulados para classificar os dados. No geral, as tarefas de aprendizado de máquina e recuperação da informação são extremamente dependentes de uma boa representação computacional dos dados, gerando resultados mais eficazes e conclusões mais assertivas em relação à tarefa executada. Neste cenário, um dos desafios é obter uma boa representação computacional das séries temporais. Além disso, medidas de similaridade geralmente consideram apenas a similaridade par a par, desconsiderando informações importantes presentes na vizinhança dos itens analisados, no conjunto de dados. O objetivo dessa pesquisa é aplicar tecnicas de aprendizado de maquina e recuperação da informação para obter resultados efetivos em análises de séries temporais. Quatro diferentes métodos são empregados e diferentes extratores de características são avaliados em todas tarefas. Primeiro, um estudo comparativo de representação e ranqueamento de séries temporais univariadas por meio de aprendizado contextual de distância baseado em ranqueamento é conduzido em 10 conjuntos de dados diferentes, levando a ganhos de mAP de até 31,78\%. Dando sequência a esta linha de pesquisa, propomos a análise de séries temporais multivariada processando cada dimensão da série individualmente e utilizando métodos de agregação contextual de ranques para mesclar resultados e obter uma representação de similaridade utilizada para recuperação e classificação, obtendo resultados competitivos a dois métodos do estado da arte. Também é proposto um arcabouço baseado em agrupamento para análise de dados baseada na codificação de gráficos temporais, onde os dados são divididos usando critérios de segmentação temporal, e resultados altamente interpretativos são alcançados neste arcabouço quando aplicado à análise de posse de bola em partidas de futebol. Por último, é proposta uma classificação semi-supervisionada de séries temporais univariadas utilizando métodos de representação por imagem e propagação de rótulos, alcançando resultados semelhantes à classificação supervisionada.	pt
dc.description.sponsorship	Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
dc.description.sponsorshipId	FAPESP: 2022/01359-1
dc.description.sponsorshipId	FAPESP: 2023/08087-0
dc.identifier.capes	33004153073P2
dc.identifier.lattes	9359733144863106
dc.identifier.orcid	0000-0002-5993-6570
dc.identifier.uri	https://hdl.handle.net/11449/257737
dc.language.iso	eng
dc.publisher	Universidade Estadual Paulista (Unesp)
dc.rights.accessRights	Acesso aberto	pt
dc.subject	Classification	en
dc.subject	Information retrieval	en
dc.subject	Clustering	en
dc.subject	Semi-supervised learning	en
dc.subject	Machine learning	en
dc.subject	Feature extraction	en
dc.subject	Ranking	en
dc.subject	Time series analysis	en
dc.subject	Classificação	pt
dc.subject	Recuperação da informação	pt
dc.subject	Agrupamento	pt
dc.subject	Aprendizado semi-supervisionado	pt
dc.subject	Aprendizado de máquina	pt
dc.subject	Extração de características	pt
dc.subject	Ranqueamento	pt
dc.subject	Análise de séries temporais	pt
dc.title	Machine learning and information retrieval techniques for time series analysis	pt
dc.title.alternative	Técnicas de aprendizado de máquina e recuperação da informação para análise de séries temporais	pt
dc.type	Dissertação de mestrado	pt
dspace.entity.type	Publication
unesp.campus	Universidade Estadual Paulista (UNESP), Instituto de Geociências e Ciências Exatas, Rio Claro	pt
unesp.embargo	Online	pt
unesp.examinationboard.type	Banca pública	pt
unesp.graduateProgram	Ciência da Computação - FC/FCT/IBILCE/IGCE	pt
unesp.knowledgeArea	Computação aplicada	pt
unesp.researchArea	Sistemas de informação	pt

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: rozin_b_me_rcla.pdf
Tamanho:: 6.53 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.14 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Coleções

Rio Claro - IGCE - Instituto de Geociências e Ciências Exatas

Publicação: Machine learning and information retrieval techniques for time series analysis

Arquivos

Pacote Original

Licença do Pacote

Coleções

Publicação:
Machine learning and information retrieval techniques for time series analysis