Кустова Г.И. , Толдова С.Ю. Национальный корпус русского языка: семантические фильтры для разрешения многозначности глаголов
В докладе рассматриваются способы автоматического разрешения многозначности глагола в текстах корпуса, основанные на использовании аргументной структуры (падежной рамки). Большинство существующих систем разрешения многозначности использует специализированные электронные ресурсы (WordNet, FrameNet). Мы исследовали возможность снижения многозначности на основе информации, извлеченной из существующих словарей глагольного управления и из морфологической и семантической разметки Корпуса. В качестве материала использовался подкорпус НКРЯ со снятой морфологической омонимией. Задача состояла в том, чтобы сократить число тегов в семантической разметке глаголов. Эксперимент показал, что информации, извлеченной из словарей управления, обычно недостаточно, она должна дополнительно обрабатываться с помощью тренировочного корпуса, что позволяет идентифицировать малочастотные значения, имеющие специфичные валентности. Дополнительно использовались простейшие семантические и лексико-грамматические признаки существительных (абстрактность-конкретность и одушевленность-неодушевленность), что позволило улучшить результат.
Назад