Abstract
Identifikasi fitur linguistik pada jenis teks sangat krusial bagi banyak proyek pemerolehan bahasa alami, salah satunya pelabelan kelas kata (part-of-speech tagging). Informasi tersebut bermanfaat bagi penyusunan algoritma untuk meningkatkan akurasi dan kecepatan pelabelan. Densitas leksikal mengukur kompleksitas kebahasaan dalam sebuah teks tertulis atau lisan melalui komposisi kata gramatikal atau kata kontennya (Halliday 1985). Menurut Halliday, bahasa lisan dicirikan dengan struktur kalimat kompleks dengan densitas leksikal rendah (lebih banyak klausa, tetapi lebih sedikit rasio kata konten per klausa), sementara bahasa tertulis dengan struktur kalimat sederhana tetapi dengan densitas leksikal tinggi. Kajian ini bertujuan untuk melihat pengaruh densitas dan diversitas leksikal sebuah teks terhadap pelabelan otomatis kelas kata, khususnya bahasa Jawa. Data dalam kajian ini diambil dari Korpus Bahasa Jawa Universitas Indonesia yang terdiri atas berbagai jenis teks, seperti teks naratif, prosedural, ekspositoris, deskriptif, dan hortatoris (Larson 1984). Pendekatan yang digunakan dalam penelitian ini adalah pendekatan kuantitatif dengan memanfaatkan metode statistika untuk mengetahui perbedaan persebaran antar-jenis teks. Hasil yang diperoleh menunjukkan bahwa distribusi kata tertentu sangat bergantung pada jenis teks tertentu. Temuan tersebut mempunyai implikasi terhadap pelabelan kelas kata yang akan dikembangkan.
Cite
CITATION STYLE
Suhardijanto, T., & Kusumawardani, R. P. (2022). KAJIAN AWAL DENSITAS LEKSIKAL UNTUK PENGEMBANGAN PELABELAN OTOMATIS KELAS KATA BAHASA JAWA. Kongres Internasional Masyarakat Linguistik Indonesia, 404–409. https://doi.org/10.51817/kimli.vi.87
Register to see more suggestions
Mendeley helps you to discover research relevant for your work.