В работе проведена количественная и качественная оценка методов отбора признаков документов на основе теории информации. Целью исследования являлась проверка применения ряда критериев для редуцирования множества терминов в коллекции текстов, к которой впоследствии будут применены методы классификации с учителем и без учителя. Входные данные программной реализации были разделены по схожести тематик и, в зависимости от эксперимента, включали наборы из 45 документов трех категорий технических текстов в различных концентрациях. Для расчета критериев использовалась программная система анализа текстовых данных TextStageProcessor, расположенная как проект с открытым исходным кодом. В разделе оценки работоспособности критериев введены две величины. Первая определяет относительное количество документов, которые принадлежат категории и содержат термин. Вторая равна относительному количеству документов, принадлежащих категории и не содержащих термин. Построены графики зависимости упомянутых величин от критериев. Рассмотрены ограничения для указанных параметров. Полученные результаты для критериев MI, CHI, IG не монотонны, что свидетельствует о возможной неработоспособности этих критериев для входной коллекции и необходимости дальнейших исследований. Для второй части эксперимента проведена предварительная обработка текстов, включающая удаление стоп-слов, нормализацию термов и приведение их к нижнему регистру. Качественный вид графиков зависимостей критериев TFD, DF и TF∙IDF от ранга слова в коллекции свидетельствует о том, что с их помощью можно сократить множество входных значимых термов для классификации без потери качества для исследования.
CITATION STYLE
Калабин, А. Л., & Корнеева, Е. И. (2020). Анализ информационных критериев отбора значимых признаков в методах text mining. Вестник ВГУ. Серия: Системный Анализ и Информационные Технологии, (2), 150–159. https://doi.org/10.17308/sait.2020.2/2924
Mendeley helps you to discover research relevant for your work.