NLPCC 2016 shared task chinese words similarity measure via ensemble learning based on multiple resources

Shutian Ma; Xiaoyong Zhang; Chengzhi Zhang

Book Chapter

NLPCC 2016 shared task chinese words similarity measure via ensemble learning based on multiple resources

Springer Verlag, (2016), 862-869

DOI: 10.1007/978-3-319-50496-4_79

0Citations

5Readers

Get full text

Abstract

Many Chinese words similarity measure algorithms have been introduced since it’s a fundamental issue in various tasks of natural language processing. Previous work focused mainly on using existing semantic knowledge bases or large-scale corpora. However, knowledge base and corpus have limitations for broad coverage and data update. Thus, ensemble learning is then used to improve performance by combing similarities. This paper describes a Chinese word similarity measure using ensemble learning of knowledge and corpus-based algorithms. To be specific, knowledge-based methods are based on TYCCL and Hownet. Two corpus-based methods compute similarities via retrieving on web search engines and deep learning on large-scale corpora (news and microblog). All similarities are combined through support vector regression to get final similarity. Evaluation suggests that TYCCL-based method behaves best according to testing dataset. However, if tuning parameters appropriately, ensemble learning could outperform all the other algorithms. Besides, deep learning on news corpora is better than other corpus-based methods.

Author supplied keywords

Cite

CITATION STYLE

APA

Ma, S., Zhang, X., & Zhang, C. (2016). NLPCC 2016 shared task chinese words similarity measure via ensemble learning based on multiple resources. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol. 10102, pp. 862–869). Springer Verlag. https://doi.org/10.1007/978-3-319-50496-4_79

NLPCC 2016 shared task chinese words similarity measure via ensemble learning based on multiple resources

Abstract

Author supplied keywords

Cite

Register to see more suggestions