Sign up & Download
Sign in

Semantic Web

by Alexander Mikroyannidis
Computer Engineering (2007)

Abstract

Semantic Web ist Vision, Konzept und Programm für die nächste Generation des Internets. Semantik ist dabei ein wesentliches Element in der Transformation von Information in Wissen, sei es um eine effizientere Maschine-Maschine-Kommunikation zu ermöglichen oder um Geschäftsprozess-Management, Wissensmanagement und innerbetriebliche Kooperation durch Modellierung zu verbessern.

Cite this document (BETA)

Available from Computer Engineering
Page 1
hidden

Semantic Web

Использование технологии Semantic Web в системе по-
иска несоответствий в текстах документов

Андреев А.М. Березкин Д.В. Рымарь В.С. Симаков К.В.
НПЦ «ИНТЕЛТЕК ПЛЮС»
arka@inteltec.ru


Аннотация
В статье изложен ряд технологических ре-
шений, принятых при разработке системы
выявления несоответствий в текстах редак-
тируемых документов. Для выявления несо-
ответствий в качестве эталона система ис-
пользует онтологию предметной области.
Приведена функциональная схема системы,
описана логика работы основных модулей.
Введение
Быстро увеличивающееся количество электрон-
ных документов на естественных языках поставило
задачу выявления несоответствия информации, со-
держащейся в них, некоторому эталонному описа-
нию предметной области.
В отличие от предыдущей работы [16], где ос-
новной упор делался на выявление противоречий в
юридических документах, в данной работе решается
задача выявления в текстах документов несоответ-
ствий, таких как: ошибочные должности сотрудни-
ков организаций, ссылки на устаревшие структур-
ные подразделения организаций, неправильные те-
лефонные номера должностных лиц. Выявление не-
соответствий являются частным случаем поиска
противоречий в текстах документов, при этом мо-
дель несоответствия является упрощенным вариан-
том модели противоречия. Несоответствие в данном
случае трактуется как неэквивалентность факта, вы-
явленного при анализе текста, имеющимся в базе
знаний фактам.
Обзор существующих технологий и
стандартов
Задачи хранения, извлечения, получения и
анализа знаний решаются в рамках направления,
получившего названия Semantic Web [2]. В обоих
случаях необходимо иметь структурированные хра-
нилища информации и множества правил вывода,
которые компьютеры бы использовали для
автоматических рассуждений [3]. Учитывая много-
летний опыт разработки, стандартизации и развития
технологий Semantic Web в рамках World Wide Web
Consortium[4], использование существующих разра-
боток в этой области является закономерным.
Сейчас уже создан ряд важнейших технологий
(представленных на рисунке 1): Расширенный Язык
Разметки (Extensible Markup Language, XML) [5],
Система Описания Ресурсов (Resource Description
Framework, RDF)[6], Язык Сетевых Онтологий (On-
tology Web Language, OWL)[1], используемых для
описания, хранения и распространения знаний. Так
же стоит выделить SPARQL Язык запросов к RDF
(SPARQL Query Language for RDF)[7], который 6
апреля 2006 года стал кандидатом к рекомендации
W3C, так же ведутся работы по стандарту протокола
SPARQL для RDF и стандарта, определяющего
XML-формат представления результатов обработки
SPARQL-запросов.

Рис. 1. Рекомендации W3C касательно
Semantic Web.
Применение существующих стандартов и техно-
логий позволит использовать уже готовые про-
граммные продукты и компоненты сторонних раз-
работчиков. При этом в дальнейшем с развитием
технологий Semantic Web можно ожидать появления
еще большего числа разработок в этой области.
Система семантического контроля
текстов редактируемых документов
Одна из основных функций такой системы –
выделение в текстовом документе (например, в
MSWord) словосочетаний с предполагаемым нару-
шением семантических связей. Эту же задачу можно
сформулировать и как поиск противоречий между
знаниями, выявленными в тексте и знаниями, хра-
нящимися в онтологии.
Предложена система, решающая указанные зада-
чи, структура которой представлена на рисунке 2.
На рисунке 2 показаны АРМы пользователей
системы, а также отмечены средства разработки от-
дельных модулей системы.
Page 2
hidden
Анализируемый
документ
Ja
va
/J
e
n
a
Модуль
накопления
Модуль
логического вывода
Java Native Interface
C+
+
/.N
ET
Модуль
управления
Модуль
анализа текста
Сервер анализа текста
Программа
управления
онтологией J
a
va
/J
e
n
a
Se
rv
e
r
M
yS
QL
База знаний
Онтология
Сервер базы данных
Документ
- источник
База
данных
Источник
данных
Программа
управления
анализатором
Набор правил
извлечения
XML XML
Неразмеченные
тексты
документов
Клиентское приложение
Jav
a/J
en
a
JN
I
C+
+/.N
ET
АРМ - Пользователь
АРМ - администратор
«Правил извлечения»
АРМ - администратор
«Серверов анализа текста
и базы данных»
АРМ - администратор
«Онтологии»

Рис. 2. Структура системы семантического
контроля текстов.
С точки зрения работы с системой можно выде-
лить 4 АРМ:
• Пользователь,
• Администратор «Правил извлечения»,
• Администратор «Онтологии»,
• Администратор «Серверов анализа текста и ба-
зы данных».
АРМ – администратор «Серверов анализа текста
и базы данных». Функции этого АРМ сводятся к
первоначальной настройке (или дополнительной
настройке) серверов базы данных и анализа текста.
АРМ – администратор правил извлечения.
Задача данного АРМ – формирование правил извле-
чения, используемых модулем анализа текстов сер-
вера.
АРМ – администратор «Онтологии». Основная
функция – управления онтологией. В частности
создание, удаление, наполнение, выгрузка области
онтологии. Функции:
АРМ – Пользователь. Пользователи системы ра-
ботают в текстовом редакторе (например, MS Word).
С помощью этого АРМа конечные пользователи
реализуют такие функции системы как:
автоматическое (по команде пользователя)
выделение в тексте терминов и словосочетаний,
присутствующих в онтологии;
выделение в тексте словосочетаний с пред-
полагаемым нарушением семантических связей;
просмотр в онтологии терминов и словосо-
четаний, выделенных в тексте автоматически или
пользователем;
В текстовом редакторе, пользователю необ-
ходимо нажать соответствующую какой - либо
функции кнопку. Далее система в автоматическом
режиме выполнит запрос к серверу анализа текста и
по результатам его выполнения внесет соответст-
вующие выделения в текст или выведет справочную
информацию.
Центральной частью системы является «Сервер
анализа текста». Обращение к этому серверу
происходит из программы работы с текстом, ко-
торая подает на обработку серверу рабочий текст
пользователя. После выполнения анализа сервер
возвращает тот же текст с указанием форматирова-
ния отдельных слов, словосочетаний и фраз. Поль-
зователю, работающему с документом в текстовом
редакторе, подсвечиваются словосочетания с пред-
полагаемым нарушением семантических связей.
Среди дополнительных функций можно выделить
выдачу справок на основе информации, имеющейся
в базе знаний. Рассмотрим подробнее функции и
способы реализации каждой из частей.
Функция программы работы с текстом сводятся
к передаче текста документа серверу анализа текста,
получению от него результата анализа и формати-
рование фрагментов текста, на которых следует за-
острить внимание (выделение цветом, подчеркива-
ние и т.п.). Дополнительно эта программа посылает
запросы к серверу анализа текста на выдачу справок
на основе информации, имеющейся в онтологии.
Сервер анализа текста имеет одну точку
подключения для взаимодействия с программой
работы с текстом и прикладными программами ад-
министрирования и управления. Модуль управления
сервера анализа текста имеет ряд функций. Во-
первых, это взаимодействие с программой работы с
текстами и прикладными программами управления
и администрирования. Во-вторых, это ведение жур-
нала транзакций. Заметим, что проблемы
безопасности и доступа к информации решаются на
уровне сервера базы данных на основе учетных
записей пользователя. На этот модуль возложены
функции по обеспечению взаимодействия осталь-
ных модулей сервера и распределения нагрузки.
Текст, поступая в модуль управления, передаётся
в модуль анализа текста. В настоящей работе мы не
будем рассматривать вопросы функционирования
этого модуля, а также метод извлечения фактов из
текстов, который в нем реализован. Этим вопросам
посвящен отдельный представленный на
конференцию доклад авторов «Модель извлечения
фактов из естественно-языковых текстов и метод ее
обучения», здесь же мы сосредоточимся на вопро-
сах, связанных с использованием онтологий для
анализа текстов. Отметим лишь, что в этом модуле
анализа текста происходит выявление знаний в тек-
сте на основе pattern-based модели, основанной на
образцах.
Модель знаний системы основана на онтологии,
записанной на языке OWL. Базовый строительный
блок модели данных – утверждение, пред-
ставляющее собой тройку: ресурс (экземпляр класса
для OWL), именованное свойство и его значение. В
терминологии RDF эти три части утверждения на-
зываются соответственно: субъект, предикат и объ-
ект [6]. Под свойством следует понимать некий ас-
пект, характеристику, атрибут или отношение, ис-

Sign up today - FREE

Mendeley saves you time finding and organizing research. Learn more

  • All your research in one place
  • Add and import papers easily
  • Access it anywhere, anytime

Start using Mendeley in seconds!

Already have an account? Sign in

Readership Statistics

31 Readers on Mendeley
by Discipline
 
 
 
by Academic Status
 
29% Ph.D. Student
 
26% Student (Master)
 
10% Researcher (at an Academic Institution)
by Country
 
26% Germany
 
13% United States
 
10% United Kingdom