Andrew Krizhanovsky » Публикация
Поделиться публикацией:
Опубликовано
2009-04-27
Опубликовано на SciPeople2012-03-27 22:16:13
ЖурналИзвестия РАН. Теория и системы управления
К вопросу об индексировании вики-текстов
Известия РАН. Теория и системы управления. N4, С.121-129, 2009.
Аннотация
Новый тип документов в вики-разметке завоёвывает Интернет. Это выражается не только в увеличении количества интернет-страниц в этой разметке,
но также и в популярности вики-проектов
(в частности, Википедии), поэтому всё более актуальной становится задача поиска в вики-текстах. Предложен и реализован способ индексации текстов Википедии на трёх языках: русский, английский и немецкий. Рассмотрена архитектура системы индексирования, включающая программные модули GATE и систему лемматизации Lemmatizer. Описаны правила преобразования вики-текстов в тексты на ЕЯ. Построены индексные базы Русской Википедии и Simple English Wikipedia. Проверено выполнение закона Ципфа для текстов Русской Википедии и Simple English Wikipedia.
wikindex.pdf
402,3 Kb
Комментарии
Вам необходимо зайти или зарегистрироваться для комментирования
Этот комментарий был удален
Этот комментарий был удален
Этот комментарий был удален