Grandes volumes de dados vem sendo gerados por ferramentas computacionais. Nes- tes dados, podem haver padroes implicitos, a partir dos quais pode ser possivel extrair novos conhecimentos. A mineracao de dados preocupa-se com a busca de relacoes, es- pecialmente, em grandes quantidades de dados, possibilitando a extracao de novas infor- macoes uteis. O uso de computacao distribuida permite a descentralizacao dos dados e a aceleracao do processo de mineracao. Apache Mahout e uma ferramenta para a minera- cao de dados distribuida, que faz uso do modelo de programacao MapReduce, prometendo escalabilidade ao dividir a carga de trabalho em tarefas independentes entre si. Este traba- lho tem como objetivo verificar o desempenho do Apache Mahout, atraves da selecao de algoritmos implementados pela ferramenta, preparacao de um conjunto de dados, e exe- cucao destes algoritmos, neste conjunto de dados, em diferentes ambientes distribuidos, analisando a escalabilidade da ferramenta, quanto ao ganho de desempenho em relacao ao acrescimo de nodos ou nucleos ao processamento.
CITATION STYLE
Pereira Adriano Charão, A. (2010). Mineração de dados distribuída e escalável usando apache mahout. Dados.
Mendeley helps you to discover research relevant for your work.