Comparing mapreduce-based k-NN similarity joins on hadoop for high-dimensional data

Přemysl Čech; Jakub Maroušek; Jakub Lokoč; Yasin N. Silva; Jeremy Starks

Conference Proceedings

Comparing mapreduce-based k-NN similarity joins on hadoop for high-dimensional data

Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (2017) 10604 LNAI 63-75

DOI: 10.1007/978-3-319-69179-4_5

9Citations

4Readers

Get full text

Abstract

Similarity joins represent a useful operator for data mining, data analysis and data exploration applications. With the exponential growth of data to be analyzed, distributed approaches like MapReduce are required. So far, the state-of-the-art similarity join approaches based on MapReduce mainly focused on the processing of vector data with less than one hundred dimensions. In this paper, we revisit and investigate the performance of different MapReduce-based approximate k-NN similarity join approaches on Apache Hadoop for large volumes of high-dimensional vector data.

Author supplied keywords

Cite

CITATION STYLE

APA

Čech, P., Maroušek, J., Lokoč, J., Silva, Y. N., & Starks, J. (2017). Comparing mapreduce-based k-NN similarity joins on hadoop for high-dimensional data. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol. 10604 LNAI, pp. 63–75). Springer Verlag. https://doi.org/10.1007/978-3-319-69179-4_5

Comparing mapreduce-based k-NN similarity joins on hadoop for high-dimensional data

Abstract

Author supplied keywords

Cite

Register to see more suggestions