Similarity-driven sampling for data mining

Thomas Reinartz

Conference ProceedingsOPEN ACCESS

Similarity-driven sampling for data mining

Reinartz T

Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (1998) 1510 423-431

DOI: 10.1007/bfb0094846

6Citations

5Readers

Abstract

Industrial databases often contain millions of tuples but most data mining algorithms suffer from limited applicability to only small sets of examples. In this paper, we propose to utilize data reduction before data mining to overcome this deficit. We specifically present a novel similarity-driven sampling approach which applies two preparation steps, sorting and stratification, and reuses an improved variant of leader clustering. We experimentally evaluate similarity-driven sampling in comparison to statistical sampling techniques in different classification domains using C4.5 and instance-based learning as data mining algorithms. Experimental results show that similarity-driven sampling often outperforms statistical sampling techniques in terms of error rates using smaller samples.

Cite

CITATION STYLE

APA

Reinartz, T. (1998). Similarity-driven sampling for data mining. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol. 1510, pp. 423–431). Springer Verlag. https://doi.org/10.1007/bfb0094846

Similarity-driven sampling for data mining

Abstract

Cite

Register to see more suggestions