ALGORITMO K-MEANS PARALELO BASEADO EM
HADOOP-MAPREDUCE PARA MINERAÇÃO DE DADOS AGRÍCOLAS

Veloso, Lays Helena Lopes

Please use this identifier to cite or link to this item: http://tede2.uepg.br/jspui/handle/prefix/127

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Senger, Luciano José
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6880696447532558	por
dc.contributor.referee1	Vaz, Maria Salete Marcon Gomes
dc.contributor.referee1Lattes	http://lattes.cnpq.br/2266103198034845	por
dc.contributor.referee2	Góis, Lourival Aparecido de
dc.contributor.referee2Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4775580P1	por
dc.creator	Veloso, Lays Helena Lopes
dc.creator.Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4404351D3	por
dc.date.accessioned	2017-07-21T14:19:24Z	-
dc.date.available	2015-07-06
dc.date.available	2017-07-21T14:19:24Z	-
dc.date.issued	2015-04-29
dc.identifier.citation	VELOSO, Lays Helena Lopes. ALGORITMO K-MEANS PARALELO BASEADO EM HADOOP-MAPREDUCE PARA MINERAÇÃO DE DADOS AGRÍCOLAS. 2015. 62 f. Dissertação (Mestrado em Computação para Tecnologias em Agricultura) - UNIVERSIDADE ESTADUAL DE PONTA GROSSA, Ponta Grossa, 2015.	por
dc.identifier.uri	http://tede2.uepg.br/jspui/handle/prefix/127	-
dc.description.abstract	This study aimed to investigate the use of a parallel K-means clustering algorithm,based on parallel MapReduce model, to improve the response time of the data mining. The parallel K-Means was implemented in three phases, performed in each iteration: assignment of samples to groups with nearest centroid by Mappers, in parallel; local grouping of samples assigned to the same group from Mappers using a Combiner and update of the centroids by the Reducer. The performance of the algorithm was evaluated in respect to SpeedUp and ScaleUp. To achieve this, experiments were run in single-node mode and on a Hadoop cluster consisting of six of-the-shelf computers. The data were clustered comprise flux towers measurements from agricultural regions and belong to Ameriflux. The results showed performance gains with increasing number of machines and the best time was obtained using six machines reaching the speedup of 3,25. To support our results, ANOVA analysis was applied from repetitions using 3, 4 and 6 machines in the cluster, respectively. The ANOVA show low variance between the execution times obtained for the same number of machines and a significant difference between means of each number of machines. The ScaleUp analysis show that the application scale well with an equivalent increase in data size and the number of machines, achieving similar performance. With the results as expected, this paper presents a parallel and scalable implementation of the K-Means to run on a Hadoop cluster and improve the response time of clustering to large databases.	eng
dc.description.resumo	Este trabalho teve como objetivo investigar a utilização de um algoritmo de agrupamento K-Means paralelo, com base no modelo paralelo MapReduce, para melhorar o tempo de resposta da mineração de dados. O K-Means paralelo foi implementado em três fases, executadas em cada iteração: atribuição das amostras aos grupos com centróide mais próximo pelos Mappers, em paralelo; agrupamento local das amostras atribuídas ao mesmo grupo pelos Mappers usando um Combiner e atualização dos centróides pelo Reducer. O desempenho do algoritmo foi avaliado quanto ao SpeedUp e ScaleUp. Para isso foram executados experimentos em modo single-node e em um cluster Hadoop formado por seis computadores de hardware comum. Os dados agrupados são medições de torres de fluxo de regiões agrícolas e pertencem a Ameriflux. Os resultados mostraram que com o aumento do número de máquinas houve ganho no desempenho, sendo que o melhor tempo obtido foi usando seis máquinas chegando ao SpeedUp de 3,25. Para apoiar nossos resultados foi construída uma tabela ANOVA a partir de repetições usando 3, 4 e 6 máquinas no cluster, pespectivamente. Os resultados da análise ANOVA mostram que existe pouca variância entre os tempos de execução obtidos com o mesmo número de máquinas e existe uma diferença significativa entre as médias para cada número de máquinas. A partir dos experimentos para analisar o ScaleUp verificou-se que a aplicação escala bem com o aumento equivalente do tamanho dos dados e do número de máquinas no cluster,atingindo um desempenho próximo. Com os resultados conforme esperados, esse trabalho apresenta uma implementação paralela e escalável do K-Means para ser executada em um cluster Hadoop e melhorar o tempo de resposta do agrupamento de grandes bases de dados.	por
dc.description.provenance	Made available in DSpace on 2017-07-21T14:19:24Z (GMT). No. of bitstreams: 1 Lays Veloso.pdf: 1140015 bytes, checksum: c544c69a03612a2909b7011c936788ee (MD5) Previous issue date: 2015-04-29	en
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.format	application/pdf	por
dc.language	por	por
dc.publisher	UNIVERSIDADE ESTADUAL DE PONTA GROSSA	por
dc.publisher.country	BR	por
dc.publisher.department	Computação para Tecnologias em Agricultura	por
dc.publisher.program	Programa de Pós Graduação Computação Aplicada	por
dc.publisher.initials	UEPG	por
dc.rights	Acesso Aberto	por
dc.subject	K-Means Paralelo	por
dc.subject	MapReduce	por
dc.subject	Hadoop	por
dc.subject	dados de fluxo	por
dc.subject	mineração de dados	por
dc.subject	Parallel K-Means	eng
dc.subject	MapReduce	eng
dc.subject	Hadoop	eng
dc.subject	flux data	eng
dc.subject	data mining	eng
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.title	ALGORITMO K-MEANS PARALELO BASEADO EM HADOOP-MAPREDUCE PARA MINERAÇÃO DE DADOS AGRÍCOLAS	por
dc.type	Dissertação	por
Appears in Collections:	Programa de Pós Graduação Computação Aplicada

Files in This Item:

File	Size	Format
Lays Veloso.pdf	1.11 MB	Adobe PDF	View/Open

Show simple item record Recommend this item