Andrew Krizhanovsky » Публикация

Поделиться публикацией:
Опубликовать в блог:
Опубликовано 2009-04-27 Опубликовано на SciPeople2012-03-27 22:16:13 ЖурналИзвестия РАН. Теория и системы управления


К вопросу об индексировании вики-текстов
А.А. Крижановский, А.В. Смирнов / Andrew Krizhanovsky
Известия РАН. Теория и системы управления. N4, С.121-129, 2009.
Аннотация Новый тип документов в вики-разметке завоёвывает Интернет. Это выражается не только в увеличении количества интернет-страниц в этой разметке, но также и в популярности вики-проектов (в частности, Википедии), поэтому всё более актуальной становится задача поиска в вики-текстах. Предложен и реализован способ индексации текстов Википедии на трёх языках: русский, английский и немецкий. Рассмотрена архитектура системы индексирования, включающая программные модули GATE и систему лемматизации Lemmatizer. Описаны правила преобразования вики-текстов в тексты на ЕЯ. Построены индексные базы Русской Википедии и Simple English Wikipedia. Проверено выполнение закона Ципфа для текстов Русской Википедии и Simple English Wikipedia.
Ключевые слова публикации:
                 

 wikindex.pdf   402,3 Kb

Комментарии

Вам необходимо зайти или зарегистрироваться для комментирования
Этот комментарий был удален
Этот комментарий был удален
Этот комментарий был удален