КОРПУСНАЯ ЛИНГВИСТИКА-2008

Конференция Темы Организационный комитет Контакты English/Русский
 
 
Конференция
Темы
Организационный комитет
Контакты
English/Русский 
 
Крижановский А.А.

Эксперименты с индексной базой данных, построенной по корпусу текстов Википедии

Новый тип документов в вики-разметке всё более завоёвывает просторы Интернет. Это выражается не только в количестве таких интернет-страниц, но также и в популярности вики-проектов (в частности, Википедии), поэтому всё более актуальной становится задача поиска в вики-текстах. Предложен и реализован способ индексации текстов Википедии на трёх языках: русский, английский, немецкий. Разработана архитектура системы индексирования, включающая программные модули GATE и Lemmatizer. Построены индексные базы Русской Википедии и Википедии на английском упрощённом языке, выполнено сравнение основных показателей баз данных (число слов, лексем), подтверждающих, что размер Русской Википедии на порядок больше. При этом обнаружен более быстрый рост английской, а именно: за пять месяцев (сент. 2007 - февр. 2008) скорость роста числа статей была больше на 12% и на 6% быстрее чем в русской пополнялся лексикон Википедии на английском упрощённом языке. Весь исходный код системы индексирования и построенные индексные БД доступны по открытой лицензии GNU GPL.

Назад