A survey and an experimental comparison of methods for text clustering: application to scientific articles

  • Parhomenko P
  • Grigorev A
  • Astrakhantsev N
N/ACitations
Citations of this article
10Readers
Mendeley users who have this article in their library.

Abstract

П. А. Пархоменко 1,3 А. А. Григорьев 1 Н. А. Астраханцев 1 Институт системного программирования РАН, 109004, Россия, г. Москва, ул. А. Солженицына, д. 25 2 Московский государственный университет имени М.В. Ломоносова, 119991, Россия, Москва, Ленинские горы, д. 1 3 Национальный исследовательский университет «Высшая школа экономики» 101000 Россия, Москва, ул. Мясницкая, д.20 Аннотация. Кластеризация текстовых документов применяется во многих приложениях, таких как информационный поиск, исследовательский поиск, определение спама. Этой задаче посвящено множество научных работ, однако в настоящее время остается недостаточно изученным влияние специфики научных статей, в частности принадлежности документов одной предметной области или недоступности полных текстов, на эффективность кластеризации. В данной работе предлагаются обзор и экспериментальное сравнение методов кластеризации текстовых документов в приложении к научным статьям. Исследуются методы, основанные на мешке слов, извлечении терминологии, тематическом моделировании, а также векторном представлении слов (word embedding) и документов, полученном с помощью искусственных нейронных сетей (word2vec, paragraph2vec). Ключевые слова: кластеризация текстовых документов; мешок слов; извлечение терминологии; тематическое моделирование; векторное представление; искусственные нейронные сети DOI: 10.15514/ISPRAS-2017-29(2)-6 Для цитирования: Пархоменко П.А., Григорьев А.А, Астраханцев Н.А. Обзор и экспериментальное сравнение методов кластеризации текстов. Труды ИСП РАН, том 29, вып. 2, 2017 г., стр. 161-200. DOI: 10.15514/ISPRAS-2017-29(2)-6 1 Эта работа поддержана грантом РФФИ №14-07-00692

Cite

CITATION STYLE

APA

Parhomenko, P. A., Grigorev, A. A., & Astrakhantsev, N. A. (2017). A survey and an experimental comparison of methods for text clustering: application to scientific articles. Proceedings of the Institute for System Programming of the RAS, 29(2), 161–200. https://doi.org/10.15514/ispras-2017-29(2)-6

Register to see more suggestions

Mendeley helps you to discover research relevant for your work.

Already have an account?

Save time finding and organizing research with Mendeley

Sign up for free