Andrew Krizhanovsky » Публикация

Поделиться публикацией:
Опубликовать в блог:
Опубликовано 2008-08-12 Опубликовано на SciPeople2008-08-14 17:19:59


Индексная база данных вики-ресурсов: модель, эксперимент, результаты
Крижановский А.А. / Andrew Krizhanovsky
FLINS-08, Корпусная лингвистика-08, AIS/CAD-08, 2008
Аннотация Новый тип документов в вики-разметке всё более завоёвывает просторы Интернет. Это выражается не только в количестве таких интернет-страниц, но также и в популярности вики-проектов (в частности, Википедии), поэтому всё более актуальной становится задача поиска в вики-текстах. Предложен и реализован способ индексации текстов Википедии на трёх языках: русский, английский, немецкий. Рассмотрена архитектура системы индексирования, включающая программные модули GATE и Lemmatizer. Описаны правила преобразования вики-текстов в тексты на ЕЯ. Построены индексные базы Русской Википедии и Википедии на английском упрощённом языке, выполнено сравнение основных показателей баз данных (число слов, лексем), подтверждающих, что размер Русской Википедии на порядок больше. При этом обнаружен более быстрый рост английской, а именно: за пять месяцев (сент. 2007 — февр. 2008) скорость роста числа статей была больше на 12% и на 6% быстрее чем в русской пополнялся лексикон Википедии на английском упрощённом языке. Выполнена проверка выполнения закона Ципфа для текстов Русской Википедии и Википедии на английском упрощённом языке. В качестве возможных приложений индексной БД рассмотрены методология фильтрации текстовой информации и метод визуализации результатов поиска. Весь исходный код системы индексирования и построенные индексные БД доступны по открытой лицензии GNU GPL.
Ключевые слова публикации:
                 

Комментарии

Вам необходимо зайти или зарегистрироваться для комментирования
Этот комментарий был удален
Этот комментарий был удален