Please use this identifier to cite or link to this item: http://tede2.uepg.br/jspui/handle/prefix/3251
metadata.dc.type: Dissertação
Title: Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores
metadata.dc.creator: Fedacz, Gabriel Lucas
metadata.dc.contributor.advisor1: Rocha, José Carlos Ferreira da
metadata.dc.contributor.referee1: Britto Junior, Alceu de Souza
metadata.dc.contributor.referee2: Steffens, Maria Berenice Reynaud
metadata.dc.description.resumo: No meio agrícola, algumas bactérias têm sido utilizadas na promoção do biocontrole e crescimento vegetal. Isto tem motivado o desenvolvimento de ferramentas de software para detectar automaticamente sua presença em amostras coletadas do solo. Uma maneira de proceder tal identificação é o desenvolvimento de classificadores que utilizam padrões de espectros de massa obtido por MALDI/TOF para verificar a frequência de determinados conjuntos de proteínas ribossomais na amostra. A seleção de uma função de classificação adequada para o problema alvo tem grande influência sobre o desempenho do classificador e isto tem incentivado o uso de escores, denominados medidas de complexidade de dados. Tais escores descrevem certas características da base dados e podem fornecer suporte à escolha da função de classificação. Durante o processo de geração dos dados a partir de espectros de massa, é comum a ocorrência do desbalanceamento de classes, o que afeta adversamente as medidas de complexidade de dados. Considerando o exposto, este trabalho aplica um protocolo experimental para verificar a influência do desbalanceamento dos dados sobre o desempenho dos classificadores e nas medidas de complexidade. Os modelos classificadores utilizados nos experimentos foram a regressão logística e o QDA, os quais foram treinados para a identificação de bactérias dos gêneros Bacillus e Rhizobium. O desempenho dos classificadores apresentou relação exponencial com o balanceamento dos dados. Foram propostos dois índices de complexidade de dados, L2B e N3B que foram submetidas aos testes junto aos índices encontrados na literatura. Os resultados mostram que as medidas F3, Density, N3B e L2B estão relacionados ao desempenho dos classificadores treinados com dados desbalanceados. Tais medidas foram avaliadas quanto a capacidade em predizer a acurácia balanceada dos modelos. Na identificação de bactérias do gênero Bacillus, a medida de melhor relação com o desempenho em ambos os modelos foi a medida N3B. No caso da identificação do gênero Rhizobium, a medida de melhor associação ao modelo logístico foi L2B e N3B no modelo quadrático.
Abstract: In the agricultural environment, some bacteria have been used as active in biocontrol and plant growth. This has motivated the development of software tools to automatically detect their presence in soil samples. One way to proceed with this identification is the development of classifiers that use MALDI / TOF mass spectra patterns to check the frequency of certain ribosomal proteins in the sample. The selection of a classification function that fits the target problem has a great influence on the classifier’s performance, this has encouraged the use of scores, called data complexity measures. Such scores describe certain characteristics of the database and may provide support for choosing the classification function. During the process of generating data from mass spectrometry, it is common for data to be unbalanced, which adversely affects the data complexity measures. Considering the above, this work applies an experimental protocol to verify the influence of unbalanced data on the performance of classifiers and on complexity measures. The classifying models used in the experiments were logistic regression and QDA, which were trained to identify bacteria of the genera Bacillus and Rhizobium. The performance of the classifiers showed a strong to moderate relationship with the unbalanced data problem. Two data complexity indexes, L2B and N3B, have been proposed and submitted to tests along with the indexes found in the literature. The results show that the measures F3, Density, N3B and L2B are related to the performance of the classifiers trained with unbalanced data. Such measures were evaluated for their ability to predict the balanced accuracy of the models. When identifying bacteria of the genera Bacillus, the measure of best relation to the performance of the models was the N3B measure. In the case of the identification of the genera Rhizobium, the measure of best association with the logistic model was L2B and N3B for the quadratic model.
Keywords: Complexidade de dados
Espectrometria de Massa
Classificação de Bactérias
Desbalanceamento de dados
Data Complexity
Mass Spectrometry
Bacterial Classification
Imbalanced Datasets
metadata.dc.subject.cnpq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
metadata.dc.language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Estadual de Ponta Grossa
metadata.dc.publisher.initials: UEPG
metadata.dc.publisher.department: Departamento de Informática
metadata.dc.publisher.program: Programa de Pós Graduação Computação Aplicada
Citation: FEDACZ, Gabriel Lucas. Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores. 2020. Dissertação (Mestrado em Computação Aplicada) - Universidade Estadual de Ponta Grossa, Ponta Grossa, 2020.
metadata.dc.rights: Acesso Aberto
Attribution-NonCommercial-NoDerivs 3.0 Brazil
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/br/
URI: http://tede2.uepg.br/jspui/handle/prefix/3251
Issue Date: 28-Jul-2020
Appears in Collections:Programa de Pós Graduação Computação Aplicada

Files in This Item:
File Description SizeFormat 
Gabriel Lucas Fedacz.pdfdissertação completa em pdf5.51 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons