Резюме Публикации

Публикация

Лингвистика Компьютерная лингвистика
Опубликовать в блог:
Опубликовано 25 июн 2010 На SciPeople 25 июн 2010

Сравнение тезаурусов Русского и Английского Викисловарей, преобразованных в машинно-читаемый формат

Крижановский Андрей / Andrew Krizhanovsky
25 июн 2010

Аннотация

Викисловарь – это уникальный, значимый и богатый ресурс для автоматической обработки текста (NLP). В статье вслед за особенностями Викисловаря рассматривается архитектура парсера Викисловаря, в котором учтены эти особенности. Не оставлены без внимания открытые вопросы Викисловаря и сложности в реализации парсера. Построенный парсер извлекает значения слова, семантические отношения и переводы из Английского и Русского Викисловарей. Статья может быть интересна учёным и программистам, которые хотят использовать построенный машинный словарь для решения NLP задач либо желают построить парсер на основе данного проекта для обработки ещё одного из оставшихся неохваченными 170 Викисловарей. Выполнено сравнение словарных статей Английского и Русского Викисловарей, а именно были сравнены количество и тип семантических отношений, число значений слов, число переводов. Английский Викисловарь оказался больше по числу семантических отношений в полтора раза (157 и 100 тыс), однако в Русском Викисловаре больше слов «богатых» на отношения (например, в полтора раза больше словарных статей с числом семантических отношений больше трёх). Сравнение позволило выявить некоторые методологические недостатки викисловарей.

Теги

pdf  

Нет комментариев

Вам необходимо зайти или зарегистрироваться для комментирования