Document Clustering Dengan Latent Dirichlet Allocation dan Ward Hierarichal Clustering

  • Herwanto G
N/ACitations
Citations of this article
27Readers
Mendeley users who have this article in their library.

Abstract

Saat ini konten informasi dalam bentuk berita dihasilkan dengan jumlah besar dari berbagai sumber setiap harinya. Banyaknya konten yang dihasilkan ini menuntut organisasi konten yang baik agar pencarian informasi yang diinginkan dapat dilakukan dengan mudah. Organisasi dan manajemen informasi yang efisien terhadap konten informasi elektronik ini menginspirasi penelitian mengenai document clustering. Pada penelitian ini dirancang sebuah metode document clustering dengan melakukan kombinasi pemodelan topik latent dirichlet allocation (LDA) dengan ward hierarchical clustering. LDA digunakan sebagai representasi vektor dokumen yang berupa distribusi topik. Representasi ini bertujuan untuk mengurangi dimensi vektor yang pada umumnya terlalu panjang jika menggunakan tf-idf. Ward Hierarchical Clustering yang memiliki kompleksitas tinggi dapat terbantu prosesnya dengan representasi dari LDA. Selain itu dihasilkan silhouette coefficient yang baik yaitu 0.7. Dalam peneltian ini juga ditemukan bahwa penentuan jumlah topik dalam kaitannya dengan document clustering dapat dilakukan dengan mempertimbangkan silhouette coefficient pada hasil clustering. Performa silhouette coefficient pada representasi pemodelan topik lebih baik dibandingkan dengan representasi dengan tf-idf.

Cite

CITATION STYLE

APA

Herwanto, G. B. (2018). Document Clustering Dengan Latent Dirichlet Allocation dan Ward Hierarichal Clustering. Pseudocode, 5(2), 29–37. https://doi.org/10.33369/pseudocode.5.2.29-37

Register to see more suggestions

Mendeley helps you to discover research relevant for your work.

Already have an account?

Save time finding and organizing research with Mendeley

Sign up for free