litceysel.ru
добавить свой файл
1 2 ... 4 5


Министерство образования и науки Российской федерации
Федеральное агентство по образованию

Новосибирский государственный университет

Факультет информационных технологий

Кафедра Систем Информатики.


Выпускная квалификационная работа магистерская диссертация


ЗАРУБИН Александр Леонидович

Алгоритмы и методы выбора информации в неструктурированных документах


Научный руководитель,

к.т.н, зав. Лабораторией

компьютерной техники ФИТ

А.А. Романенко


Новосибирск 2007

СОДЕРЖАНИЕ


ВВЕДЕНИЕ 4

Глава 1. Постановка задачи 6

1.1 Описание проблемы 6

1.2 Требования к системе 7

1.3 Обзор существующих систем 8

Глава 2. Особенности реализации системы 12

2.1 Основные части системы 12

2.2 Описание реализации частей. 13

Глава 3. Тестирование 29

Заключение 30

Публикации 31

Литература 32

ВВЕДЕНИЕ


Сейчас в Интернете существует большое количество систем поиска различного рода информации, от картинок (стандартное средство давно предоставляемое крупнейшими поисковиками) до фамилий и организаций. Поисковые системы изо дня в день пытаются улучшить свои поисковые машины, добавляя разные сервисы и услуги (например, поиск людей, к сожалению, поисковая машина не очень удачная [1], или поиск картинок в Google [2]) своим клиентам, появляются новые поисковые порталы, ориентированные на поиск конкретной информации [3]. Именно поэтому поиск информации в неструктурированных документах и является одной из животрепещущих тем для развития Интернета и информационных технологий в целом[4].

Некоторые поисковые машины уже сейчас производят поиск по документам, но, к сожалению, в них ищут только слова, и найти все фамилии в документе не представляется возможным.


Решено было посмотреть на эту проблему с другой, более практической стороны. Из-за большого количества “образцов” каждое резюме не похоже на произвольное другое, и наблюдаются очень большие различия между ними как в их оформлении, так и в написании. Поэтому, их можно считать неструктурированными документами, с некоторым набором обязательных сведений, таких как Фамилия Имя Отчество и контакты, так и не обязательных, таких как адрес и пр.

С другой стороны сотрудники отдела по работе с персоналом в больших компаниях зачастую в процессе найма сотрудников тратят много времени на работу, которую они вынуждены выполнять в ручную, из-за того, что нет достойной программы, автоматизирующей их деятельность. Так же большую часть информации, и путь до нее, они вынуждены держать в “уме”, например, какие кандидаты претендуют на конкретную вакансию. Та же ситуация происходит с отчетами о “рекрутинге” – процессе поиска и найма сотрудников, по которым руководство компании судит о качестве работы отдела по работе с персоналом.

Зачастую, большую часть бизнес-процесса приходится делать “руками” в Microsoft Word, Excel и других офисных приложениях, согласуя работу с другими сотрудниками через ICQ, e-mail и пр. Так же, если у компании есть несколько офисов, территориально удаленных, встает проблема координации – например одному и тому же кандидата в одно и то же время могут назначить собеседование в разных местах.

Пожалуй, одной из наиболее затратных по времени и неудобных по хранению информации, является работа с резюме. Так как не существует единого стандарта написания резюме - фактически в данный момент резюме является неструктурированным текстом, с набором различной информации о конкретном человеке написанных на разных языках (русский, английский), была поставлена задача в рамках работы над системой автоматизации процесса рекрутинга разработать функциональность, которая максимально точно разбирает основные поля в резюме (такие как Фамилия, Имя, Отчество, e-mail, телефон и пр.), и, после проверки пользователем, заносила данные в базу данных. Именно данная часть процесса рекрутинга наименее автоматизирована, и сотрудники вынуждены выполнять вышеописанную процедуру “руками”, на что тратится достаточно большая часть рабочего времени.


В кадровых агентствах для покрытия данной части бизнес-процесса поиска и работы с кандидатами, нанимают специального человека, который просматривает резюме, и записывал в специальную форму данные о нем (пример такой формы можно найти на любом многих порталах средних IT фирм, например [5]).

После этой процедуры остальная часть системы может использовать и различно представлять данную информацию. Это бы позволяло значительно облегчить работу с кандидатом, и позволяло бы наглядно показывать и сравнивать опыт и навыки различных кандидатов, позволяя остановить выбор на более квалифицированном кандидате, и именно ему назначить собеседование, и в дальнейшем принять на работу.

Именно об этой функциональности, обеспечивающей поиск информации в неструктурированных документах различного формата и будет идти речь в дальнейшей части данного диплома.

Диплом выполнен в рамках работы над проектом автоматизации процесса рекрутинга “HRSOFT” в учебной лаборатории SWSOFT НГУ.

Глава 1. Постановка задачи



следующая страница >>