Intellectual Partner
INTELPART: Интеллектуальные технологии в бизнесе
• продукты • статьи • методология • проекты • ссп • скачать • контакт • поиск


Предисловие

Часть 1. Машина осмысленного поиска информации

Часть 2. Машина поиска информации с контекстом

Часть 3. Машина поиска информации с контекстом времени

Чвсть 4. Машина категорий. Взаимодействие двух машин

Заключение

Проекты. Осмысленная обработка информации

Часть 1. Типовая машина осмысленного поиска информации
на основе модуля элементарного смысла

Сколько, например, различных слов в мире,
и ни одного из них нет без значения.
Но если я не разумею значения слов,
то я для говорящего чужестранец,
и говорящий для меня чужестранец.

Первое послание к коринфянам Св. Апостола Павла,
раздел 14, строфа 10, 11.

Структуру типового процесса поиска информации можно условно представить в следующем виде:

Пользователь -- Запрос пользователя -- Поисковая матрица -- Поисковой механизм -- Информационное пространство -- Найденная информация
1   2   3   4   5   6

Где:

  1. Пользователь со своими потребностями в информации.
  2. Представленный в определенной форме запрос пользователя на необходимую ему информацию (представление пользователем своих потребностей в информации в виде запроса).
  3. Трансформация поисковой машиной запроса пользователя и создание поисковой матрицы.
  4. Собственно поисковой механизм машины, который идентифицирует поисковую матрицу в информационном пространстве.
  5. Информационное пространство - пространство, в котором осуществляется поиск.
  6. Найденная для пользователя информация.

Отсюда можно сформулировать два полярных принципа работы типовой поисковой машины. Первый - поиск информации по ключевым словам, второй - поиск по аналогиям (в том или ином виде). Принципиальным недостатком типовой поисковой машины, построенной на указанных принципах, является наличие следующего противоречия (противоречия запроса):

  • Если для поиска информации используются ключевые слова, то поисковая машина не находит информационные источники, связанные с запросом по смыслу.
  • Если для поиска информации используются аналогии, то в результатах поиска неограниченно увеличивается количество найденных информационных источников.

При этом проблема организации осмысленного поиска по аналогиям состоит в том, что, в общем случае, количество аналогий (отношений) для любого понятия (в частности, выраженного словесно) бесконечно. Например: прямые аналогии, ассоциации, системные отношения, временные связи и подобия, связи и подобия по свойствам, функциональные подобия, профессиональные подобия, дисциплинарные подобия и т.д.

Но проблема множественности аналогий удобно разрешается за счет использования

аналогий, присущих естественному языку
(субъектно-ориентированных аналогий).

К примеру, толковый словарь естественного языка описывает аналогии, которые наиболее вероятно (т.е. чаще всего) человек подразумевает. Для понятия, обозначенного словом, толковый словарь дает довольно полный, присущий этому понятию, набор аналогий.

Таким образом, для того, чтобы при поиске информации можно было использовать субъектно-ориентированные аналогии, необходимо иметь:

  • Аналогии, присущие понятиям (словам естественного языка).
  • Принципы связи и взаимодействия различных аналогий между собой.
  • Структуру представления понятия языка в виде системы аналогий.

Понятия естественного языка удобно представлять в виде модулей элементарного смысла. Модуль элементарного смысла (МЭС) - это структура, которая отражает смысл предметов и явлений посредством фиксации их существенных свойств и аналогий. МЭС подробно рассмотрен в Дополнении 1.1. Модуль элементарного смысла.

Модуль элементарного смысла позволяет организовать поиск информации по тем понятиям, которые интересуют пользователя или которые он подразумевает. Кроме того, универсальная структура МЭС дает возможность:

  • Объединять несколько понятий в более общее понятие.
  • Разделять одно понятие на понятия, которые его составляют.
  • Трансформировать понятия, имманентно присущие языку, в форму, необходимую пользователю.

Объединение и разъединение понятий позволяет работать с понятиями на уровне осмысленных групп слов - предложений, т.к. само предложение - это тоже понятие. Конкретные механизмы объединения-разъединения понятий и конкретные механизмы представления предложений естественного языка в виде модулей элементарного смысла подробно рассматриваются в Дополнении 1.2. Оперирование модулем элементарного смысла. Представленные в этом Дополнении механизмы позволяют создавать поисковую машину со следующими свойствами:
1) Запрос пользователя на поиск информации может быть задан на естественном языке, так, как он его понимает.
2) Поисковая машина в состоянии выполнять осмысленный поиск сложных понятий.

Общий алгоритм работы такой машины рассматривается в Дополнении 1.3. Машина поиска с модулем элементарного смысла.

Использование поисковой машины, которая оперирует МЭС, позволяет, например:

  • Организовать поиск заданного понятия в информационном пространстве (определение, где находится понятие, что с ним связано; выдача фрагмента текста или полного документа, где об этом говорится или где присутствует искомый смысл).
  • Организовать поиск того, что есть в информационном пространстве по интересующему понятию (поисковая машина формирует приоритетные центры в информационном пространстве с точки зрения заданного понятия).
  • Определять приоритетные центры смысла в информационном пространстве (например, определение, о чем сообщает анализируемый текст).
  • Рассматривать запросы пользователя как команды управления и искать в них смысл, соотнося его с теми или иными исполнительными процедурами. Макет такой системы позволил отдавать команды компьютеру на естественном языке.

Дополнение 1.1. Модуль элементарного смысла

Рассмотрим субъектно-ориентированные аналогии в пределах простого предложения естественного языка. Грамматическая структура предложения в общем виде содержит следующие элементы [см. Карпов В.А., Язык как система. Мн., 1992]:

  • S -- субъект, агенс, деятель, который инициирует действие;
  • A -- действие, инициированное деятелем S;
  • O -- объект, на который непосредственно направлено действие A;
  • Adr -- адресат, в пользу которого S осуществляет действие A;
  • In -- инструмент, с помощью которого S осуществляет действие A;
  • Loc -- место действия A;
  • Topic -- тема;
  • G -- принадлежность;
  • Adv -- признак действия;
  • Atr -- признак предмета;
  • Cause -- причина;
  • Goal -- цель;
  • Time -- время;
  • Condition -- условие;
  • Number -- число, количество;
  • Prep -- предлог;
  • Modal -- модальность действия A и др.

По сути, все перечисленное выше - это различного вида аналогии. Однако в качестве основных элементов предложения удобно рассматривать аналогии, которые соответствуют: а) взаимодействию, б) структуре и в) времени.

Тогда первым значимым признаком явления является взаимодействие и его свойства. Любому явлению типа "действие" присущи свойственные ему "субъекты" (S), которые это действие выполняют (инициируют) и "объекты" (O), на которые это действие направлено. Аналогично явлению типа "субъект" (или "объект", для наших целей это не имеет значения присущи действия (As), которые оно инициирует как субъект, как агенс и действия (Ao), которые на него направлены, действия, которые он воспринимает как объект [см. Мартынов В.В., Универсальный семантический код. Грамматика. Словарь. Тексты. Мн., 1977].

Вторым значимым признаком явления есть присущие ему структурные свойства - надсистемные (НС) и подсистемные (пС) явления. Надсистемой для явления "субъект-объект" есть явления, которые включают его в себя. Подсистема - это явления, из которых "субъект-объект" состоит, то, что он включает. Надсистемой для "действия" являются явления, указывающие, формой чего является рассматриваемое действие. Подсистемой для "действия" будут явления, которые показывают, какие виды рассматриваемого действия существуют.

Третий значимый признак явления - время и свойственный рассматриваемому явлению временной интервал. Для явления типа "действие" время представляется в виде причинно-следственных цепочек, которые показывают, в какие процессы входит действие (t+) и из каких процессов оно состоит (t-). Для явления типа "субъект-объект" время представляется в виде основных качественных фаз существования внутри присущего явлению временного интервала (внутреннее время t-intro) и основных качественных фаз, одной из которых является само явление (внешнее время T-extro).

Представление времени для явления типа "субъект-объект"

Где: t-intro - явления внутреннего времени, T-extro - явления внешнего времени.

В результате получаем модули двух видов (для явления типа "субъект-объект" и для явления типа "действие") с перечисленными выше системами субъектно-ориентированных аналогий. Ключевые "аналогии" для любого слова естественного языка удобно представлять в следующем виде.

МЭС для явления типа "субъект-объект" (S-O).
Явления внешнего времени Кто включает в себя S-O?
Что включает в себя S-O?
 
Что делают с
S-O?
Модуль элементарного смысла для явления типа "субъект-объект" Что делает
S-O?
  Из чего состоит S-O?
Из каких частей состоит S-O?
Что включает S-O?
Явления внутреннего времени

МЭС для явления типа "действие" (A).
В какие процессы
входит A?
Формой чего является A?  
Кто
выполняет A?
Модуль элементарного смысла для явления типа "действие" На что направлено A?
  Какие виды A существуют? Из каких процессов состоит A?

Рассмотрим, каким образом эти два типа модулей отражают грамматическую структуру предложения и как они ею оперируют.

1) Субъект (S) или Объект (O) - являются центрами МЭС типа "субъект-объект" (S-O).
Субъект или Объект

2) Действие (A) - является центром МЭС типа "действие" (A).
Действие

3) Действующий субъект ("субъект S осуществляет действие A") представляется:
СубъектДействие
Для имманентного субъекта (S) конкретное действие (A) отсекает варианты аналогий его возможных действий, тем самым уточняя и конкретизируя этого субъекта. Кроме того, происходит взаимная корреляция и уточнение других осей взаимодействующих МЭС. Появляется возможность свертки этой пары в новое явление "субъект-объект" с новыми уточненными свойствами или в новое явление "действие" с новыми уточненными свойствами. Действие над объектом (O) - представляется аналогично:
ДействиеОбъект

4) Инструмент (In) может быть представлен в двух вариантах.
Вариант А. Инструмент (In) представляется как центр самостоятельного МЭС, который следует за модулем объекта.
СубъектСпецифическое действиеИнструмент
Где: A` - это специфичное действие (имеет, держит, использует), которое связывает субъект (S) и инструмент (In).

Вариант Б. Инструмент (In) является частью специфичного субъекта S` - "субъект с инструментом". Здесь элемент инструмент (In) размещается в подсистеме субъекта S` и корректирует (конкретизирует, уточняет) его остальные оси:
Субъект с инструментом

5) Адресат (Adr) представляется аналогично инструменту (In).
Вариант А. Адресат (Adr) представляется как центр самостоятельного МЭС, который следует за модулем, в данном случае, объекта:
ОбъектСпецифическое действиеАдресат
Где: A` - это специфичное действие (передает, направляет), связывающее объект (O) и адресат (Adr).

Вариант Б. Адресат (Adr) является частью специфичного объекта O` - "объект с адресатом". Здесь элемент адресат (Adr) размещается в подсистеме объекта O` и корректирует (конкретизирует, уточняет) его остальные оси:
Объект с адресатом

6) Тема (Topic) - специфичный объект (O). Представляется аналогично адресату (Adr).

7) Модальность (Modal) - специфичное действие (A). Представляется аналогично адресату (Adr) или инструменту (In), за тем исключением, что имеет отношение к явлению типа "действие".

8) Принадлежность (G) - показывает связь конкретного МЭС с надсистемой и, соответственно, размещается в надсистеме (на надсистемной оси). Например:

Для S:
Принадлежность
Субъект
Для A:
Принадлежность
Действие
Для Adr:
Принадлежность
Адресат

Для остальных элементов грамматической структуры предложения (объект, инструмент, тема, место и т.д.) принадлежность (G) представляется аналогично.

9) Признак действия (Adv) - процедура, которая корректирует подсистему у явления типа "действие".

10) Признак предмета (Atr) - это процедура, которая корректирует подсистемы у явления "субъект-объект". Признак предмета (Atr) имеет отношение к явлениям субъект (S), объект (O), адресат (Adr), инструмент (In), тема (Topic), место (Loc), принадлежность (G), словом, ко всем явлениям, которые представляются МЭС типа "субъект-объект".

11) Причина (Cause) - этот элемент размещается на оси причинно-следственных цепочек. Поддерживается процедурно.

Для явления типа "действие": Для явления типа "субъект-объект":
Причина     Действие  
  Действие или   Причина
Причина     Субъект  
  Субъект или   Причина

12) Цель (Goal) - аналогично причине (Cause), с той особенностью, что цель - это явление, которое следует по времени за рассматриваемым явлением. С этой точки зрения рассматриваемое явление для цели (Goal) становится причиной. Поддерживается процедурно.

13) Условие (Condition) - представляется аналогично причине (Cause) и цели (Goal). Поддерживается процедурно.

14) Число (Number) - это специфичное явление типа "субъект-объект", которое соответствует категории "количество". Специфичность этого явления состоит в том, что ось явлений внутреннего времени (T-extro) у него выглядит как ряд чисел, которые отличаются друг от друга на 1.
Число
Существует и альтернативный вариант. Элементы количества можно рассматривать на оси внутреннего времени (T-extro) как добавление новых качеств. Например:
- количество 1 = качество "один",
- 1 + 1 = 2, количество 2 = новое качество "два",
- 2 + 1 = 3, количество 3 = новое качество "три" (или "третий"...).
Таким образом, при взаимодействии числа с явлением "субъект-объект", число выступает как категория и присутствует одновременно как среди надсистемных, так и среди подсистемных свойств явления.

15) Время (Time) - это специфичное явление типа "субъект-объект", которое соответствует категории "время". Представляется аналогично категории "количество".

16) Место (Loc) - представляется аналогично числу (Number) и времени (Time).

Примечания.
А) По такому же принципу можно работать и с категориями "расстояние", "важность" и др.
Б) С категориями можно работать и используя принцип сведения к прилагательным. Например:
- категория времени "рано" = прилагательное "ранний";
- категория количества "один" = прилагательное "единственный".
Это позволяет рассматривать категории как признак предмета (Atr) или признак действия (Adv).

17) Предлог (Prep) - этот грамматический элемент непосредственно в модуле элементарного смысла не присутствует; его главное назначение - указание на место и тип связей МЭС между собой. Поддерживается процедурно.


Дополнение 1.2. Оперирование модулем элементарного смысла

1.2.1. Перевод предложения естественного языка в вид, который коррелирует с модулем элементарного смысла.

Суть этого перевода заключается в том, что каждое слово в зависимости от своих конкретных грамматических признаков занимает свое конкретное место в грамматической структуре предложения. Грамматические признаки слов можно закодировать и использовать полученный грамматический код для автоматического разбора предложений. Механизм грамматического кодирования по просьбе авторов для них разработал профессор В.А. Карпов. Созданный на этой базе действующий макет программы анализа и разбора предложений естественного языка показал хорошие результаты.

Примечание. Грамматическое кодирование показано на примере русского языка. Однако здесь следует отметить, что при необходимости грамматический код может быть быстро разработан для любого другого языка (английского, немецкого, французского и др.). Кроме того, на основе достаточно полного грамматического словаря можно получить парадигмы образования и изменения слов. Используя эти парадигмы, программа в состоянии автоматически формировать грамматические коды для незнакомых слов и автоматически пополнять грамматический словарь.

Грамматический код является трехзнаковым и позиционным, т.е. значение каждой цифры зависит от позиции, в которой эта цифра стоит. Структура грамматического кода выглядит следующим образом:

цифра значения
в первой позиции
значения
во второй позиции
значения
в третьей позиции
0 отсутствуют - именительный падеж;
- в инфинитиве указывает на возможность создания форм сложного будущего аналитического времени с глаголом-связкой "быть" (буду+писать = 381+300);
- деепричастия совершенного (сделав, прогуляв = 701) и несовершенного (делая, гуляя = 301) вида;
- наречия количества, отвечающие на вопрос "сколько?" (много, мало = 400)
- наречия;
- инфинитив глаголов совершенного (написать = 780) и несовершенного (писать = 300) вида
1 - местоимения (я = 101, ты = 103, он = 105, она = 107, оно = 109, мы = 102, вы = 104, они = 106) - родительный падеж;
- предлоги, управляющие родительным падежом;
- наречия причины, отвечающие на вопрос "почему?" (потому, оттого, поневоле = 410)
- единственное число, 1-ое лицо личных местоимений (я = 101);
- единственное число, 1-ое лицо глаголов (я пишу = 361);
- деепричастия совершенного (сделав, прогуляв = 701) и несовершенного (делая, гуляя = 301) вида;
- сравнительная степень прилагательных и изменяемых наречий
2 - существительные неодушевленные;
- названия и аббревиатуры
- дательный падеж;
- предлоги, управляющие дательным падежом;
- наречия цели, отвечающие на вопрос "зачем?" (нарочно, невзначай, умышленно = 420)
- множественное число, 1-ое лицо личных местоимений (мы = 102);
- множественное число, 1-ое лицо глаголов (мы пишем = 362)
3 - глаголы несовершенного вида ("нерезультативные глаголы") и деепричастия, образованные от них - винительный падеж;
- предлоги, управляющие винительным падежом
- единственное число, 2-ое лицо личных местоимений (ты = 103);
- единственное число, 2-ое лицо глаголов (ты пишешь = 363)
4 - наречия - творительный падеж;
- предлоги, управляющие творительным падежом
- множественное число, 2-ое лицо личных местоимений (вы = 104);
- множественное число, 2-ое лицо глаголов (вы пишете = 364)
5 - прилагательные - предложный падеж;
- предлоги, управляющие предложным падежом
- мужской род;
- единственное число 3-е лицо мужской род личных местоимений (он = 105);
- единственное число 3-ое лицо мужской род глаголов (он писал = 375)
6 - числительные - настоящее время глагола (пишу = 361);
- краткая форма прилагательного;
- наречия времени, отвечающие на вопрос "когда?" (вчера, завтра, утром = 460);
- союзы
- множественное число;
- множественное число 3-е лицо личных местоимений (они = 106);
- множественное число 3-ое лицо глаголов (они пишут = 366, они писали = 376)
7 - глаголы совершенного вида ("результативные глаголы") и деепричастия, образованные от них
- прошедшее время глагола (написал = 771);
- сравнительная степень прилагательных и изменяемых наречий;
- наречия образа действия, отвечающие на вопрос "как?" (верхом, быстро = 470);
- частицы
- женский род;
- единственное число 3-е лицо женский род личных местоимений (она = 107);
- единственное число 3-ое лицо женский род глаголов (она писала = 377)
8 - существительные одушевленные;
- имена собственные
- будущее простое время глагола (напишу = 781);
- глагол-связка "быть" (я буду = 381, мы будем = 382, ты будешь = 383, вы будете = 384, он будет = 385, она будет = 387, оно будет = 389, они будут = 386);
- наречия направления, отвечающие на вопрос "куда?" (туда, вдаль = 480);
- междометия
- вопросительные операторы, связываются с вопросительными словами, входящими в различные части речи (сколько? = 408, почему? = 418, зачем? = 428, когда? = 468, как? = 478, куда? = 488, откуда? = 498)
9 - служебные части речи (предлоги, частицы, союзы, междометия) - повелительное наклонение глагола (напиши! = 793, напишите! = 794);
- страдательные причастия;
- наречия, связанные с указанием места и отвечающие на вопрос "откуда?" (оттуда, издалека, там, рядом = 490);
- не изменяемые существительные (кофе = 299) и прилагательные
- средний род;
- единственное число 3-е лицо средний род личных местоимений (оно = 109);
- единственное число 3-е лицо средний род глаголов (оно писало = 379)

Примечание. Возможно дальнейшее совершенствование грамматического кода в направлении детализации наречий, союзов и частиц по другим семантическим разрядам и т.п. Например, разработка экспертно-аналитической системы "Интеллектуальный партнер" потребовала создания пятизначного кода.

Описание грамматического кода.

Цифра в первой позиции.

Обозначает часть речи:
1 - местоимение,
2 - существительное неодушевленное,
3 - глагол несовершенного вида и деепричастие,
4 - наречие,
5 - прилагательное,
6 - числительное,
7 - глагол совершенного вида и причастие,
8 - существительное одушевленное,
9 - служебная часть речи (предлог, союз, частица, междометие).

Цифра во второй позиции.

Для местоимений, существительных, прилагательных и числительных цифра во второй позиции обозначает падеж:
0 - именительный,
1 - родительный,
2 - дательный,
3 - винительный,
4 - творительный,
5 - предложный.

Для прилагательных цифра во второй позиции обозначает:
6 - краткую форму;
7 - сравнительную степень.

Для глаголов цифра во второй позиции обозначает время и наклонение:
0 - в инфинитиве указывает на создание форм сложного будущего времени, которые используются совместно с глаголом-связкой "быть";
6 - настоящее время,
7 - прошедшее время,
8 - будущее простое время;
9 - повелительное наклонение.

Для наречий цифра во второй позиции обозначает тот или иной семантический разряд. Причем, вторая цифра в кодах наречий и в кодах соответствующих им вопросительных операторов (вопросительных слов) совпадает. Сравните:

Класс наречий:
400 - наречие количества,
410 - наречия причины,
420 - наречия цели,
460 - наречие времени,
470 - наречие способа действия,
480 - наречие направления,
490 - наречие места,
Вопросительный оператор:
сколько? - 408;
почему? - 418;
зачем? - 428;
когда? - 468;
как? - 478;
куда? - 488;
откуда? - 498.

Служебные слова по цифрам во второй позиции разделяются на:
910 - предлоги, управляющие родительным падежом,
920 - предлоги, управляющие дательным падежом,
930 - предлоги, управляющие винительным падежом,
940 - предлоги, управляющие творительным падежом,
950 - предлоги, управляющие предложным падежом,
960 - союзы,
970 - частицы,
980 - междометия.

Цифра в третьей позиции.

Для местоимений и глаголов обозначает лицо:
1 - первое лицо единственного числа,
2 - второе лицо единственного числа,
3 - первое лицо множественного числа,
4 - второе лицо множественного числа.

Для существительных, прилагательных, местоимений в третьем лице единственного числа и глаголов в прошедшем времени цифра в третьей позиции обозначает род:
5 - мужской род,
7 - женский род,
9 - средний род.

Для существительных, прилагательных, местоимений в третьем лице множественного числа и глаголов в прошедшем времени цифра "6" в третьей позиции указывает на множественное число.

Цифра "8" в третьей позиции указывает на вопросительный оператор. Например:

кто? - 108,
кого? - 118,
кому? - 128,
кого? - 138,
кем? - 148,
о ком? - 158,
что? - 208;
чего? - 218;
чему? - 228;
что? - 238;
чем? - 248;
о чем? - 258;
сколько? - 408;
почему? - 418;
зачем? - 428;
когда? - 468;
как? - 478;
куда? - 488;
откуда? - 498 и т.д.
 

1.2.2. Алгоритм построения поисковой матрицы запроса.

Механизмы, описанные в Дополнении 1.1, позволяют представить запрос пользователя (предложение естественного языка) в виде связанной структуры МЭС (субъектно-ориентированной картины мира предложения). Это дает возможность получить поисковую матрицу запроса, содержащую субъектно-ориентированные аналогии. Ниже приводится описание возможного алгоритма построения матрицы запроса.

Примечание. На момент написания книги в 2000 году авторы располагали программой, выполняющей только грамматический разбор предложений. Вопросы построения модуля элементарного смысла на тот момент еще не были полностью решены. На сегодняшний день уже разработаны программы автоматической генерации словаря элементарных смыслов, построения запросной матрицы и осмысленного извлечения знаний из неструктурированных данных (см. программу "Интеллектуальный партнер"). С этих позиций приведенный ниже алгоритм и следующий за ним пример можно кардинально доработать и уточнить. Однако мы не стали этого делать, т.к. это вряд ли добавит понимания к сути происходящего. Алгоритм и пример являются иллюстративными. Их главная цель - показать принципиальную возможность создания матрицы запроса на основе МЭС. Алгоритм и пример не претендуют на полноту и отражение всех нюансов разбора предложения, формирования МЭС и запросной матрицы - действующая программа, естественно, будет гораздо сложнее.

Принципиальный алгоритм построения матрицы запроса выглядит следующим образом.
1) В предложении-запросе определяем грамматические коды для каждого слова. Грамматические коды определяются по словарю и по системе окончаний (если слово в словаре отсутствует).

2) Выполняем грамматический разбор предложения. Суть грамматического разбора состоит в том, чтобы разделить предложение на фрагменты и, используя грамматические коды слов, установить в подчиненность слов во фрагментах. Правила грамматического разбора определяются грамматикой конкретного языка. Приведем некоторые из принципов и правил, характерных для русского языка:
- в любой паре связанных слов есть главное и зависимое слово;
- согласование главного и зависимого слов выполняется на основе грамматического кода В.А. Карпова;
- главное слово не только имеет зависимые слова, но, в свою очередь, само может зависеть от другого слова;
- при согласовании у прилагательного и существительного должны быть одинаковые коды падежа, числа и рода (вторая и третья цифры в коде);
- предлог всегда стоит перед существительным, которым управляет;
- если два слова согласованы по определенному грамматическому коду, то остальные варианты кодов для них можно исключить, т.к. слова не могут одновременно обладать двумя различными грамматическими категориями (например, одновременно быть и существительным и глаголом);
- слово в родительном падеже показывает на принадлежность к надсистеме;
- если действие (A) имеет множественное число, то субъект действия (S) также должен иметь множественное число;
- и т.д.

3) По результатам грамматического разбора предложения формируем модули элементарного смысла для слов предложения и составляем матрицу запроса. Конкретный вид матрицы запроса зависит от целей и задач поисковой машины. В простейшем случае, матрица запроса представляет собой всего три связанных между собой МЭС: субъект+действие+объект (SAO), каждый со своими зависимыми словами. При этом основой матрицы запроса является МЭС действия (A). Поэтому:
а) Определяем в предложении группу глагола. В группу глагола входят все зависимые от глагола слова, за исключением объекта (O) - этот элемент обладает особым статусом.
а) Находим действие (слово, имеющее грамматический код глагола).
б) Формируем МЭС для действия (A), который является прототипом матрицы запроса.

4) Определяем в предложении группу субъекта и группу объекта. В группу субъекта входят все слова, которые зависят от субъекта (S) - того, кто инициирует действие. Соответственно, в группу объекта входят все слова, зависящие от объекта (O) - на кого действие направлено.

5) Обрабатываем группу субъекта.
а) Ищем в группе субъекта главное слово - деятеля.
б) Строим модуль элементарного смысла для субъекта (S).
в) Уточняем матрицу запроса. Для этого стыкуем МЭС субъекта (S) с МЭС действия (A), а затем взаимно корректируем оси аналогий каждого из модулей.
г) Если требуется построение более сложной матрицы запроса, то для каждого слова из группы субъекта формируем собственный МЭС и встраиваем его в матрицу запроса аналогично п. 5в).

6) Аналогично п. 5) обрабатываем группу объекта.

7) Обрабатываем "выпавшие" слова. "Выпавшие" (или "потерянные") - это слова предложения, которые по каким-то причинам не вошли (не связались) в матрицу запроса. "Выпадение" слов может происходить по следующим причинам:
- список правил грамматического разбора (п. 2) неполон;
- правила грамматического разбора (п. 2) противоречивы;
- правило связи слов не может быть сформулировано, т.к. связь "выпавшего" слова с остальными словами предложения не грамматическая, а семантическая (например, соединение слов посредством примыкания).
В этом случае возникает необходимость работы со смыслом слова. Вот здесь целесообразно использовать словарь, в котором каждое слово представлено не в виде набора символов, а в виде МЭС.

Тогда "выпавшее" слово может быть связано со сформированной запросной матрицей следующим образом:
а) Если "выпавшее" слово присутствует в словаре (Внимание! В данном случае речь идет не о грамматическом словаре, а о словаре элементарных смыслов, в котором описан смысл каждого слова).
- Находим в словаре модуль элементарного смысла для "выпавшего" слова.
- Определяем пересечения осей между модулем "выпавшего" слова и матрицей запроса.
- На основании установленных пересечений определяем место "выпавшего" слова в матрице запроса.
- Позиционируем "выпавшее" слово в матрице запроса.
б) Если "выпавшее" слово в словаре элементарных смыслов отсутствует.
- Формируем модуль элементарного смысла для "выпавшего" слова на основании связей предложения.
- Пополняем словарь элементарных смыслов, а затем заносим "выпавшее" слово в матрицу запроса.
- Если модуль элементарного смысла для "выпавшего" слова сформировать не удается, то можно обратиться с вопросом к пользователю: "что это такое?".
- Если запрос пользователя представлен в виде текста, то "выпавшее" слово можно отложить до возможного последующего его уточнения (объяснения) в другом предложении текста.

Возможные способы пополнения словаря:
- Контрольные вопросы (уточнить у пользователя, что имеется ввиду).
- Поиск слова, например, в толковом словаре и построение модуля элементарного смысла на основе информации из этого словаря.

Примечание. Одна из важнейших задач - создание словаря элементарных смыслов. Первое решение, которое приходит в голову - это создавать словарь вручную, но это крайне непроизводительно. Однако проблемы здесь нет, поскольку существует процедура автоматического пополнения словаря. Суть ее заключается в следующем: если слово в словаре отсутствует, но оно позиционировалось в запросной матрице за счет грамматических правил, то элементы сформированной запросной матрицы являются аналогиями для данного слова и формируют для него модуль элементарного смысла. Именно этот МЭС и следует для начала записать в словарь. Если же слово в словаре элементарных смыслов уже присутствует, то к существующим в словаре аналогиям слова из запросной матрицы необходимо добавить только те, которые встретились впервые. Таким образом, проблема составления словаря элементарных смыслов заключается в четком описании грамматических правил, а эта задача уже многими решена.

8) В результате получаем матрицу запроса, которая соответствует исходному предложению. В простейшем случае матрица запроса представляет собой три связанных между собой МЭС:
СубъектДействиеОбъект

Примечание. После составления матрицы появляется возможность осмысленно уточнить у пользователя, что ему, собственно, нужно. Ответы пользователя будут отсекать те аналогии, которые не имеют отношения к интересующей его теме.

1.2.3. Пример построения матрицы запроса.

Рассмотрим как строится матрица запроса, если пользователь ввел предложение "В семье Барадулиных любят спорт".

1) Для каждого слова предложения определяем грамматические коды (напомним, что грамматические коды определяются по грамматическому словарю, а если слово в словаре отсутствует - по системе окончаний).

Слова предложения Грамматические коды Пояснение
В 930, 950 Предлог "в" может употребляться как с винительным, так и с творительным падежом
семье 227, 257 Словоформа "семье" соответствует неодушевленному существительному женского рода в дательном и предложном падежах единственного числа
Барадулиных 816, 836, 216, 236 Словоформа "Барадулиных" соответствует одушевленному существительному во множественном числе, в родительном и винительном падежах. В общем случае, программа может и не знать, что слово "Барадулиных" - это одушевленное существительное, поэтому к списку кодов следует добавить еще два: 216 и 236, соответствующих неодушевленным существительным
любят 366 "Любят" - глагол несовершенного вида настоящего времени множественного числа
спорт 205, 235 Словоформа "спорт" соответствует неодушевленному существительному мужского рода в именительном и винительном падежах единственного числа

2) Находим слово с грамматическим кодом глагола - "любят" (код 366). Формируем МЭС для глагола "любят".

МЭС для глагола "любят"

3) Определяем в предложении, какие слова стоят перед глагола, а какие - после. Слова, стоящие перед глаголом, считаем группой субъекта, а те, что стоят после - группой объекта.

Группа субъекта (S) В = 930, 950
семье = 227, 257
Барадулиных = 816, 836, 216, 236
Глагол (A) любят = 366
Группа объекта (O) спорт = 205, 235

4) Ищем в группе субъекта слова, которые имеют код субъекта (деятеля). Это должны быть существительные в именительном падеже. Рассматриваем слова:

В = 930, 950
семье = 227, 257
Барадулиных = 816, 836, 216, 236

К сожалению, слов с кодом деятеля не обнаружено, значит субъект только подразумевается, но не указан явно. Тогда обозначим его через "X". Достраиваем матрицу запроса:

Достройка МЭС для глагола "любят"

Продолжаем обработку группы субъекта. Используем правила:
- В любой паре согласующихся слов есть главное слово и зависимое, причем главное, в свою очередь может быть зависимым от другого слова.
- У прилагательного и существительного должны быть одинаковые коды падежа, рода и числа.
- Предлог стоит перед существительным, которым он управляет.

Таким образом, если рассмотреть пару "в"+"семье", то среди всевозможных комбинаций кодов (930+227, 930+257, 950+227, 950+257) слова согласуются только по единственной паре: 950+257. Это означает, что остальные варианты кодов у этих слов ошибочны и их можно отбросить. Таким образом, установлено, что "в семье" - это существительное с предлогом в предложном падеже.

Далее используем правило:
- Предлог "в" в предложном падеже указывает на связь с надсистемным явлением.

По этому правилу размещаем слово "семья" в матрице запроса:

Достройка МЭС для глагола "любят"

Теперь рассмотрим оставшееся слово: "Барадулиных". Оно имеет четыре кода: 816, 836, 216, 236.

Используем правило:
- Если существительное находится в группе субъекта, то коды объекта у него можно удалить.

Таким образом у слова "Барадулиных" остается только два кода 816 и 216.

Примечание. По грамматическому коду невозможно определить, является ли существительное "Барадулиных" одушевленным или неодушевленным - эта информация лежит вне грамматики. Однако задача имеет решение. Его предложил профессор В.А. Карпов. Существуют глаголы, которые относятся только к живым существам (если это не метафора) - так называемые "одушевленные глаголы". Например, чихать, смотреть, любить, смеяться, отдыхать, наказывать, ругать, умирать и т.п. Наличие подобных глаголов с высокой вероятностью указывает, что речь идет о живом существе. По одному предложению окончательный вывод сделать сложно. Но если проанализировать целый текст о семье Барадулиных, то можно безошибочно установить, что существительное "Барадулиных" является одушевленным.

Используем правило:
- Слово в родительном падеже указывает на принадлежность к надсистемному явлению.

Достройка МЭС для глагола "любят"

Если воспользоваться правилом:
- Если глагол "любят" стоит во множественном числе, то отсюда следует, что субъект "X" тоже имеет множественное число.

Теперь можно частично восстановить код субъекта "X" = _06.

5) Обрабатываем группу объекта. Рассматриваем слово "спорт". Оно имеет два кода 205, 235.

Используем правило:
- Если существительное находится в группе объекта, то коды субъекта у него можно удалить.

Тогда получаем, что у слова "спорт" остался только единственный код - 235.

6) Получаем матрицу запроса с субъектно-ориентированными аналогиями, построенную на предложении "В семье Барадулиных любят спорт":

Окончательный вид запросной матрицы

Как видно из рассмотренного примера, помимо аналогий, присущих отдельным элементам, имеем комплексные аналогии типа: "X любит спорт"; "семья любит спорт"; "Барадулины любят спорт" и т.д. Здесь появляется возможность осмысленно уточнить у пользователя, что ему нужно и какие из проекций смысла его интересуют.

Итог.
Поскольку явления языка - это то существенное, что повторяется в связях и в движении элементов (смысл), то на этой основе можно построить субъектно-ориентированную картину мира предложения и использовать ее для поиска информации.


Дополнение 1.3. Машина поиска с модулем элементарного смысла

Общий алгоритм.

1) Проанализировать предложение запрос.
а) Определить состав предложения.
б) Сформировать структуру предложения.

2) Формируется поисковая матрица и предоставляется пользователю для ознакомления и коррекции смысла запроса. В общем виде поисковая матрица выглядит так:
СубъектДействиеОбъект

3) Организуется поиск необходимой информации. Поисковая матрица запроса является своеобразным "центром кристаллизации", с которым начинают стыковаться предложения из анализируемого информационного пространства:
а) Если предложение состыковалось с матрицей запроса, то это означает, что оно содержит элементы искомого смысла. А конкретный порядок связи описывает, каким конкретно образом запрос соотносится с найденным смыслом.
б) Если же предложение не стыкуется с матрицей запроса, то это означает, что оно искомых смыслов не содержит.

Итог.
1) Использование изложенного выше подхода позволяет задавать уровни (или глубину, охват) поиска информации в зависимости от того, какие понятия используются для поиска. Например:
- аналогии первого порядка - поиск идет непосредственно по элементам запроса: S-A-O;
- аналогии второго порядка - ассоциативный поиск выполняется по ближайшим к S-A-O понятиям и связям;
- аналогии третьего порядка - ассоциативный поиск идет по более дальним понятиям и связям;
- и т.д.
Уровни (глубина) поиска информации при использовании МЭС

2) Вернемся к рассмотрению структуры процесса поиска информации. При использовании в поисковой машине модулей элементарного смысла процесс поиска изменяется (см. схему, приведенную в самом начале Части 1):
На шаге 2: Запрос пользователя на необходимую ему информацию представляется в виде обычного предложения на естественном языке.
На шаге 3: Создание поисковой матрицы сводится к построению картины мира предложения на основе использования субъектно-ориентированных аналогий (базой является модуль элементарного смысла).
На шаге 4: Основу поискового механизма составляет принцип "кристаллизации". Сущность этого принципа состоит в том, что поисковая матрица запроса связывается (идентифицируется) только с теми предложениями в анализируемом информационном пространстве, которые соответствуют непосредственно искомому смыслу или близкому по субъектно-ориентированным аналогиям.

Далее: Типовая машина поиска с контекстом Далее



Вверх Intellectual Partner, Интеллектуальный Партнер, INTELPART, ИНТЕЛПАРТ, логотип IP, РЕЙТИНГ-АНАЛИЗ, ИНТЕЛПАРТ РЕЙТИНГ-АНАЛИЗ являются товарными знаками либо зарегистрированными товарными знаками, права на которые принадлежат ОДО "Интеллектуальный Партнер".
Авторское право (C) 2000 С.Александров, П.Фадеев. Все права защищены.
Авторское право (C) 2001-2017 INTELLECTUAL PARTNER. Все права защищены.
Условия использования материалов сайта.
Locations of visitors to this page