litceysel.ru
добавить свой файл
1

Выделение словосочетаний для индексирования полнотекстовых документов

Л.В. Найханова, Н.Н. Аюшеева, А.В. Шаманаев

Восточно-Сибирский государственный технологический университет

При решении задач информационного поиска важную роль играет процесс индексирования документа. Среди методов индексирования наиболее распространенным является метод индексирования по ключевым словам. Выделение ключевых слов особенно актуально при индексировании документов научно-технического и образовательного характера.

Различные реализации метода индексирования по ключевым словам предполагают выделение информативных слов документа и группы слов, например, с наибольшими значениями частот включают в список ключевых слов документа. Вместе с тем содержание документа лучше описывается не отдельными словами, а понятиями и терминами, представляющими собой совокупность слов или словосочетания.

В автоматизированных информационных системах широко используются понятия, выраженные именными словосочетаниями. В именных словосочетаниях главным словом (основным носителем смысла) является, как правило, первое слева существительное, а остальные слова служат для уточнения значения главного слова [1].

Именные словосочетания могут включать в свой состав следующие классы слов: существительные, прилагательные, предлоги, сочинительные союзы и наречия. Количество слов в именных словосочетаниях колеблется от двух до пятнадцати и в среднем составляет три слова [2, с.128].

Изучение видов именных словосочетаний, приведенных в [2, c.129], показало, что существование рядом стоящих существительных в словосочетаниях требует проведения морфологического анализа, выполнение которого не предусмотрено в данный момент. Это обусловило отказ от рассмотрения понятий и терминов, выраженных именными словосочетаниями, схемы которых содержат рядом стоящие существительные.

Понятия и термины чаще всего выражаются простыми словосочетаниями, состоящими из двух полнозначных слов. Вместе с тем существует большое количество сложных словосочетаний для обозначения понятий и терминов, состоящих из трех и более значимых слов. Однако выражение понятий и терминов словосочетаниями в пять и более слов встречается крайне редко, при этом такие словосочетания представляют собой композицию словосочетаний, состоящих из двух, трех или четырех слов. Поэтому если выбирать словосочетания, образованные двумя, тремя или четырьмя полнозначными словами, то можно учесть все словосочетания данного документа.


Анализ полнотекстовых документов показал, что словосочетания вида «существительное + прилагательное + прилагательное» являются редко используемыми.

Таким образом, для выделения понятий и терминов необходимо идентифицировать именные словосочетания, соответствующие следующим пяти схемам:

прилагательное + существительное;

прилагательное + прилагательное + существительное;

прилагательное + прилагательное + прилагательное + существительное;

существительное + прилагательное + существительное в родительном падеже;

существительное + прилагательное + прилагательное + существительное в родительном падеже.

Выделение понятий и терминов, выраженных словосочетаниями, виды которых соответствуют указанным выше пяти схемам, осуществляется на основе нормализованного потока слов L, полученного при препроцессорной обработке документа, с учетом знаний о части речи каждого слова по следующему алгоритму:

а) Выделение m слов из потока слов L, где m – число полнозначных слов словосочетания. На этом этапе учитывается то, что существование словосочетания возможно только в пределах предложения.

б) Определение части речи каждого слова из m.

в) Если слова из m образуют именное словосочетание одного из указанных выше видов, то данное словосочетание заносится в массив словосочетаний этого вида с указанием частоты встречаемости по документу. В случае, если такое словосочетание было определено ранее, необходимо изменить частотные характеристики этого словосочетания.

г) Сдвиг на одно слово вправо в потоке слов L; если до конца потока осталось менее m слов, то конец алгоритма, в противном случае – переход на пункт а.

Таким образом, в результате выделения понятий и терминов документа получаем совокупность пяти множеств: LПС, LППС, LПППС, LСПС, LСППС.


LПС = ,

LППС = ,

LПППС = ,

LСПС = ,

LСППС = ,

где i-ое словосочетание соответствующего вида;
– частота встречаемости i-го словосочетания в документе.

Результирующее множество словосочетаний, выделенных в тексте документа, представляется как объединение этих множеств:

L = LПС  LППС  LПППС  LСПС  LСППС .

В настоящее время разработано программное обеспечение для экспериментальной проверки алгоритма выделения словосочетаний, выражающих понятия и термины предметной области. На вход данного приложения поступает нормализованный поток слов индексируемого документа, на выходе получаем выделенные словосочетания документа, соответствующие вышеприведенным схемам, для которых подсчитана частота встречаемости в рассматриваемом документе.

В перспективе предполагается включение процедуры морфологического анализа с целью выделения словосочетаний типа «существительное + существительное в родительном падеже». Это связано с тем, что существует достаточно много понятий, выраженных словосочетанием указанного типа.

___________________


1. Беловольская Л.А. Синтаксис словосочетания и простого предложения. Таганрог, 2001.

2. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М.: Наука, 1983.