litceysel.ru
добавить свой файл
1

Синтаксически аннотированный корпус чешского языка

The Prague Dependency Treebank


Недолужко А. (nedoluzko@ufal.mff.cuni.cz), Гаич Я. (hajic@ufal.mff.cuni.cz), и кол.


Институт формальной и прикладной лингвистики, физико-математический факультет, Карлов университет, Прага, Чехия (ÚFAL MFF UK)


The Prague Dependency Treebank (PDT 2.0) – это корпус текстов чешского языка, аннотированный на трех связанных между собой уровнях – морфологическом (2 млн словоупотреблений), поверхностно-синтаксическом (1.5 млн) и глубинно-синтаксическом (0.8 млн). На глубинно-синтаксическом уровне аннотируется также актуальное членение предложений и именная кореференция. PDT 2.0 основан на пражской лингвистической традиции, адаптированной к требованиям современной компьютерной лингвистики. Аннотация корпуса проводится частично автоматически.

Помимо обширного корпуса чешских текстов разрабатывается проект параллельных текстов на чешском и английском языках (The Prague Czech-English Dependency Treebank), где подобным образом аннотируются тексты из Wall Street Journal и их переводы на чешский язык. Целью проекта является подготовка текстовой базы для обучения компьютера машинному переводу.

В реферате я представлю общую схему аннотации с особым акцентом на глубинно-синтаксический уровень, расскажу о системе синтаксических функторов узлов на этом уровне и словаре моделей управления предикатов, встроенном в проект, а также отвечу на все возникшие вопросы.


The Prague Dependency Treebank


Nedoluzhko А. (nedoluzko@ufal.mff.cuni.cz), Hajič J. (hajic@ufal.mff.cuni.cz)& Co.

Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, Prague, Czech Republic


The Prague Dependency Treebank 2.0 (PDT 2.0) contains a large amount of Czech texts with complex and interlinked morphological (2 million words), syntactic (1.5 MW) and complex semantic annotation (0.8 MW); in addition, certain properties of sentence information structure and coreference relations are annotated at the semantic level. PDT 2.0 is based on the long-standing Praguian linguistic tradition, adapted for the current Computational Linguistics research needs. The corpus itself uses the latest annotation technology.

Besides the large corpus of Czech, a corpus of Czech-English parallel resources (The Prague Czech-English Dependency Treebank) is being developed. English sentences from the Wall Street Journal and their translations into Czech are being annotated in the same way as in PDT 2.0. This corpus is suitable for experiments in machine translation, with a special emphasis on dependency-based (structural) translation.

In the report, the basic annotation scheme is represented, with special reference to complex semantic (tectogrammatical) level. The system of syntactic functors and valency lexicon VALLEX are also discussed.


1. Общие сведения

Синтаксически аннотированный корпус чешского языка (PDT) – это проект лингвистического (морфологического, синтаксического, семантического, прагматического и др.) аннотирования текстов, разрабатываемый в настоящее время в Институте формальной и прикладной лингвистики физико-математического факультета Карлова университета в Праге. Последняя версия проекта, PDT 2.0, содержит большое количество чешских текстов (2 млн. словоупотреблений) с аннотацией (взаимосвязанной) на трех уровнях – морфологическом (2 млн. слов), поверхностно-синтаксическом (1.5 млн. слов) и глубинно-синтаксическом (0.8 млн. слов). Корпус использует самые современные способы аннотации (раздельная аннотация уровней с использованием XML, RelaxNG). К корпусу также прилагается отдельная поисковая программа Netgraph, позволяющая производить сложный поиск по многим параметрам и собирать материал и статистические данные для лингвистических исследований.


Аннотирование синтаксических уровней производится вручную на основе предварительных автоматических аннотаций, т.е. фактически аннотирующий лингвист просматривает уже готовую аннотацию, дополняет ее и исправляет ошибки. Аннотирование синтаксических уровней проводится с помощью специальной программы для аннотирования корпусных данных TrEd (од tree editor), разработанная на ÚFAL MFF UK. Аннотирование вручную проводится аннотаторами с лингвистическим образованием, причем регулярно проводится тест на т.наз. «соответствие аннотаторов», т.е. все аннотаторы, работающие на данном проекте, аннотируют одни и те же тексты, на которых затем проводится автоматическая проверка соответствия.

Лингвистическая основа PDT восходит к традициям пражской лингвистической школы и функционально-грамматическому описанию языка, разработанному в шестидесятых годах двадцатого века чешским лингвистом П. Сгаллом и его учениками.

PDT - один из нескольких десятков проектов синтаксически аннотированных корпусов, разрыбатываемых в настоящее время в мире. Идейным вдохновителем проекта послужил американский PennTreebank (