SELEÇÃO DE VARIÁVEIS NA MINERAÇÃO DE DADOS AGRÍCOLAS:Uma abordagem baseada em análise de
componentes principais

Jr., Juscelino Izidoro de Oliveira

Please use this identifier to cite or link to this item: http://tede2.uepg.br/jspui/handle/prefix/152

metadata.dc.type:	Dissertação
Title:	SELEÇÃO DE VARIÁVEIS NA MINERAÇÃO DE DADOS AGRÍCOLAS:Uma abordagem baseada em análise de componentes principais
metadata.dc.creator:	Jr., Juscelino Izidoro de Oliveira
metadata.dc.contributor.advisor1:	Rocha, Jose Carlos Ferreira da
metadata.dc.contributor.referee1:	Mathias, Ivo Mario
metadata.dc.contributor.referee2:	Kikuti, Daniel
metadata.dc.description.resumo:	A análise multivariada de dados permite verificar a interação de vários atributos que podem influenciar o comportamento de uma variável de resposta. Tal análise utiliza modelos que podem ser induzidos de conjuntos de dados experimentais. Um fator importante na indução de regressores e classificadores multivariados é o tamanho da amostra, pois, esta determina a contabilidade do modelo quando há a necessidade de se regredir ou classificar a variável de resposta. Este trabalho aborda a questão do tamanho da amostra por meio da Teoria do Aprendizado Provavelmente Aproximadamente Correto, oriundo de problemas sobre o aprendizado de máquina para a indução de modelos. Dada a importância da modelagem agrícola, este trabalho apresenta dois procedimentos para a seleção de variáveis. O procedimento de Seleção de Variáveis por Análise de Componentes Principais, que não é supervisionado e permite ao pesquisador de agricultura selecionar as variáveis mais relevantes de um conjunto de dados agrícolas considerando a variação contida nos dados. O procedimento de Seleção de Variáveis por Análise de Componentes Principais Supervisionado, que é supervisionado e permite realizar o mesmo processo do primeiro procedimento, mas concentrando-se apenas nas variáveis que possuem maior infuência no comportamento da variável de resposta. Ambos permitem que informações a respeito da complexidade da amostra sejam exploradas na seleção de variáveis. Os dois procedimentos foram avaliados em cinco experimentos, mostrando que o procedimento supervisionado permitiu, em média, induzir modelos que produziram melhores pontuações do que aqueles modelos gerados sobre as variáveis selecionadas pelo procedimento não supervisionado. Os experimentos também permitiram verificar que as variáveis selecionadas por ambos os procedimentos apresentavam índices reduzidos de multicolinaridade..
Abstract:	Multivariate data analysis allows the researcher to verify the interaction among a lot of attributes that can influence the behavior of a response variable. That analysis uses models that can be induced from experimental data set. An important issue in the induction of multivariate regressors and classifers is the sample size, because this determines the reliability of the model for tasks of regression or classification of the response variable. This work approachs the sample size issue through the Theory of Probably Approximately Correct Learning, that comes from problems about machine learning for induction of models. Given the importance of agricultural modelling, this work shows two procedures to select variables. Variable Selection by Principal Component Analysis is an unsupervised procedure and allows the researcher to select the most relevant variables from the agricultural data by considering the variation in the data. Variable Selection by Supervised Principal Component Analysis is a supervised procedure and allows the researcher to perform the same process as in the previous procedure, but concentrating the focus of the selection over the variables with more influence in the behavior of the response variable. Both procedures allow the sample complexity informations to be explored in variable selection process. Those procedures were tested in five experiments, showing that the supervised procedure has allowed to induce models that produced better scores, by mean, than that models induced over variables selected by unsupervised procedure. Those experiments also allowed to verify that the variables selected by the unsupervised and supervised procedure showed reduced indices of multicolinearity.
Keywords:	complexidade da amostra dados rotulados redução de dimensionalidade. sample complexity labeled data dimensionality reduction
metadata.dc.subject.cnpq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
metadata.dc.language:	por
metadata.dc.publisher.country:	BR
Publisher:	UNIVERSIDADE ESTADUAL DE PONTA GROSSA
metadata.dc.publisher.initials:	UEPG
metadata.dc.publisher.department:	Computação para Tecnologias em Agricultura
metadata.dc.publisher.program:	Programa de Pós Graduação Computação Aplicada
Citation:	JR., Juscelino Izidoro de Oliveira. SELEÇÃO DE VARIÁVEIS NA MINERAÇÃO DE DADOS AGRÍCOLAS:Uma abordagem baseada em análise de componentes principais. 2012. 88 f. Dissertação (Mestrado em Computação para Tecnologias em Agricultura) - UNIVERSIDADE ESTADUAL DE PONTA GROSSA, Ponta Grossa, 2012.
metadata.dc.rights:	Acesso Aberto
URI:	http://tede2.uepg.br/jspui/handle/prefix/152
Issue Date:	30-Jul-2012
Appears in Collections:	Programa de Pós Graduação Computação Aplicada

Files in This Item:

File	Size	Format
Juscelino Izidoro Oliveira.pdf	607.67 kB	Adobe PDF	View/Open

Show full item record Recommend this item