Основная цель проекта — создание инструмента, позволяющего автоматически извлекать семантические отношения из русскоязычных текстов. Для работы используется программа Unitex, в которой создаются графы, где прописываются паттерны для извлечения. На данном этапе работы написанные графы были проверены на корпусе тектов DBPedia (1,325,858 sentences, ~47,000,000 tokens). В результате мы получаем извлеченные бинарные отношения. Подробное описание...
Краткое описание паттернов и сводку результатов можно посмотреть здесь .
С текущими результатами проекта вы можете ознакомиться здесь .
Перед Вами откроются извлеченные гипо-гиперонимические отношения по результатам запуска паттернов на тексте DBPedia (1,325,858 sentences, ~47,000,000 tokens). Числа — ссылки на полный текст из корпуса (на них можно не обращать внимание). Вквадратных скобках стоят размеченные слова, справа от них —...