В настоящее время на отделении прикладной и математической
лингвистики филологического факультета
Санкт-Петербургского государственного Университета
разрабатывается AGFL грамматика русского зыка. Главной целью проекта является создание компьютерной системы
морфосинтаксического анализа текстов на русском языке (парсера). Подобная задача подразумевает создание
эффективной AGFL грамматики и обширного лексикона русского языка. Название системы - Rus4IR - означает
"Russian parser for Information Retrieval" (парсер текстов на русском языке для задач информационного поиска)
В нашем проекте мы используем систему генерации парсеров, созданную группой
Кееса Костера в университете Ниймегена, Голландия. Как следствие,
Rus4IR обладает теми же возможностями, что и другие современные парсеры, основанные на формализме AGFL
(т.е. наличие различных методов представления информации: в виде дерева зависимостей или скобочной записи; возможность
использовать механизм трансдукции и т.д.)
Наш парсер является первым парсером для русского языка, базирующимся на AGFL грамматиках, которые уже
подтвердили перспективность их использования (на материале других европейских языков) для представления языка в NLP
технологиях. RusForIR, являясь инструментом информационного поиска, предназначен для работы не только с
грамматически правильными предложениями, но так же и с "сегментами", выделяемыми из текста. Таким образом,
наш парсер может обрабатывать грамматически неверные или неполные предложения, которыми буквально заполнен
современный Internet. Как результат, вся система оказывается гибкой и устойчивой.
(c) Первая версия AGFL парсера русского языка, И.В.Азарова, СПбГУ, 1995.
(c) RusForIR, И.В.Азарова, СПбГУ, 2004.
И.В.Азарова, доцент отделения прикладной и математической лингвистики,
филологический факультет Санкт-Петербургского государственного Университета, Россия.
|