Please use this identifier to cite or link to this item: http://tede2.uepg.br/jspui/handle/prefix/3197
metadata.dc.type: Dissertação
Title: Esquemas de seleção dinâmica para a identificação de bactérias a partir de dados de m/z virtuais de proteínas ribossomais
metadata.dc.creator: Ribeiro, Luis Guilherme
metadata.dc.contributor.advisor1: Rocha, José Carlos Ferreira da
metadata.dc.contributor.referee1: Galvão, Carolina Weigert
metadata.dc.contributor.referee2: Sguario, Mauren Louise
metadata.dc.description.resumo: Um grama de solo pode conter até 8,3 milhões de diferentes espécies bacterianas, entre elas existem as que favorecem a produtividade agrícola, promovendo o crescimento vegetal e protegendo contra pragas e doenças. Uma das abordagens que tem sido utilizada na identificação destes microrganismos é por meio da impressão digital de proteínas ribossomais de bactérias em espectros de massa extraídos através de uma técnica de química analítica chamada de MALDITOF. Esta técnica extrai informações de massa carga (m/z) das moléculas de uma amostra, que podem ser submetidas à classificadores digitais que rotulam os dados da amostra de acordo com seu nível de taxonomia. Porém, na maioria dos casos, estes conjuntos de dados possuem múltiplas classes e alto índice de desbalanceamento, o que tem dificultado o desenvolvimento de classificadores digitais. Assim, os sistemas de múltiplos classificadores proveem maneiras de tratar estes problemas. Neste contexto, os esquemas de seleção dinâmica que usam metaaprendizagem exploram um conjunto de metacaracteristicas, extraídas do conjunto de treinamento, para estimar o nível de competência dos classificadores base e então selecionar o conjunto de classificadores mais aptos para predizer uma amostra. Considerando o exposto, este trabalho avalia o desempenho de diferentes esquemas de seleção dinâmica para identificação de gêneros bacterianos a partir de sua impressão digital em termos de m/z de proteínas ribossomais. O trabalho também apresenta o esquema denominado de METADES-i que estende o esquema METADES, por meio do uso de metacaracterísticas sensíveis a dados desbalanceados. O desempenho dos esquemas de seleção dinâmica foi mensurado em termos de acurácia média, acurácia balanceada, média geométrica e overfitting sobre um conjunto de dados sintéticos, chamado de PUKYU. Nos experimentos foram utilizados diferentes cenários, definidos como subconjuntos do conjunto de dados PUKYU. Além disso, foi analisado a influência da composição dos classificadores base: homogênea ou heterogênea. Os resultados dos experimentos demonstram que o esquema proposto foi significativamente superior aos demais em termos de acurácia balanceada e média geométrica. Em termos de acurácia média, o esquema METADES-i foi superior somente quando utilizou a composição homogênea. No que tange ao overfitting, os esquemas com melhor desempenho foram o METADES-i, KNOP e KNORA-U. A análise multiobjetivo entre a acurácia balanceada e o overfitting indicou que o esquema METADES-i participou da fronteira de dominância em todos os cenários. O resultado relacionado ao procedimento de seleção de metacaracterísticas, indicou que ao aplicar o método Relief ao METADES-i obteve uma melhora nas métricas de assertividade, porém houve queda no desempenho em termos de overfitting. Com relação a composição dos classificadores, a composição heterogênea mostrou-se superior na maioria dos casos. Finalmente, os resultados sugerem que a adequação do subconjunto de metacaracterísticas de esquemas de seleção dinâmica baseado em meta-aprendizagem, pode incrementar o desempenho de sistemas com múltiplos classificadores em termos de assertividade em conjunto de dados desbalanceados.
Abstract: A gram of soil can contain up to 8.3 million different bacterial species, among which are those that favor agricultural productivity, promoting plant growth and protecting against pests and diseases. One approach that has been used in identifying these microorganisms is through the fingerprint ribosomal proteins in bacterial mass spectra extracted by a chemical analytical technique called MALDI-TOF. This technique extracts charge mass information (m/z) from the molecules of a sample, which can be subjected to digital classifiers that label the sample data according to their taxonomy level. However, in most cases, these data sets have multiple classes and high imbalance ratio, making it difficult to develop digital classifiers. Thus, the multiple classifier systems provide ways to treat these problems. In this context, dynamic selection schemes that use meta-learning explore a set of meta-features, extracted from the training set, to estimate the level of competence of the base classifiers and then select the most suitable set of classifiers to predict a sample. Considering the above, this work evaluates the performance of different dynamic selection schemes for the identification of bacterial genera from their fingerprint in terms of m/z of ribosomal proteins. The work also presents the scheme called METADES-i that extends the METADES scheme, through the use of meta-features sensitive to imbalanced data. The performance of the tested dynamic selection schemes was measured in terms of average accuracy, balanced accuracy, geometric mean and overfitting in a PUKYU synthetic data set. In the experiments different scenarios were used, defined as subsets of the data set PUKYU. In addition, the influence of the composition of the base classifiers: homogeneous or heterogeneous was analyzed. The results of the experiments show that the proposed scheme was significantly superior to the others in terms of balanced accuracy and geometric mean. In terms of average accuracy, the METADES-i scheme was superior only when using the homogeneous composition. Regarding overfitting, the schemes with the best performance were METADES-i, KNOP and KNORA-U. The multiobjective analysis between balanced accuracy and overfitting indicated that the METADES-i scheme participated in the dominance frontier in all scenarios. The result related to the meta-featus selection procedure, indicated that when applying the Relief method to METADES-i, there was an improvement in assertiveness metrics, but there was a decrease in performance in terms of overfitting. Regarding the composition of the classifiers, the heterogeneous composition proved to be superior in most cases. Finally, the results suggest that the adequacy of the meta-features subset of dynamic selection schemes based on meta-learning, can increase the performance of multiple classifier systems in terms of assertiveness in imbalanced data sets.
Keywords: Meta-aprendizagem
Aprendizado de Máquina
Metacaracterística
MALDITOF
Meta-Learning
Machine Learning
Meta-features
MALD-TOF
metadata.dc.subject.cnpq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
metadata.dc.language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Estadual de Ponta Grossa
metadata.dc.publisher.initials: UEPG
metadata.dc.publisher.department: Departamento de Informática
metadata.dc.publisher.program: Programa de Pós Graduação Computação Aplicada
Citation: RIBEIRO, Luís Gulherme. Esquemas de seleção dinâmica para a identificação de bactérias a partir de dados de m/z virtuais de proteínas ribossomais. 2020. Dissertação (Mestrado em Computação Aplicada) - Universidade Estadual de Ponta Grossa, Ponta Grossa, 2020.
metadata.dc.rights: Acesso Aberto
Attribution-NonCommercial-NoDerivs 3.0 Brazil
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/br/
URI: http://tede2.uepg.br/jspui/handle/prefix/3197
Issue Date: 10-Aug-2020
Appears in Collections:Programa de Pós Graduação Computação Aplicada

Files in This Item:
File Description SizeFormat 
Luis Guilherme Ribeiro.pdf2.85 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons