Andrew Krizhanovsky » Публикация

Поделиться публикацией:
Опубликовать в блог:
Опубликовано 2010-06-25 Опубликовано на SciPeople2010-06-25 17:52:58


Сравнение тезаурусов Русского и Английского Викисловарей, преобразованных в машинно-читаемый формат
Крижановский Андрей / Andrew Krizhanovsky
Аннотация Викисловарь – это уникальный, значимый и богатый ресурс для автоматической обработки текста (NLP). В статье вслед за особенностями Викисловаря рассматривается архитектура парсера Викисловаря, в котором учтены эти особенности. Не оставлены без внимания открытые вопросы Викисловаря и сложности в реализации парсера. Построенный парсер извлекает значения слова, семантические отношения и переводы из Английского и Русского Викисловарей. Статья может быть интересна учёным и программистам, которые хотят использовать построенный машинный словарь для решения NLP задач либо желают построить парсер на основе данного проекта для обработки ещё одного из оставшихся неохваченными 170 Викисловарей. Выполнено сравнение словарных статей Английского и Русского Викисловарей, а именно были сравнены количество и тип семантических отношений, число значений слов, число переводов. Английский Викисловарь оказался больше по числу семантических отношений в полтора раза (157 и 100 тыс), однако в Русском Викисловаре больше слов «богатых» на отношения (например, в полтора раза больше словарных статей с числом семантических отношений больше трёх). Сравнение позволило выявить некоторые методологические недостатки викисловарей.

Комментарии

Вам необходимо зайти или зарегистрироваться для комментирования
Этот комментарий был удален
Этот комментарий был удален