Open source инструменты для анализа и структурирования текста?

Существуют ли инструменты, которые могут проанализировать текст и создать описание документа, привязав конкретные строки к определенным полям.

Зачем это надо — иметь возможность искать по параметрам текста, а не использовать полнотекстовый поиск по plain text.


Допустим есть текст новости: Петя поехал в Саратов, встретился с Васей.


Участники: Петя, Вася

Действие: поехал, встретился

Куда: Саратов


Имена, действия, места — словари.


Должна же быть готовая либа, принимающая на вход схему и словари и на выходе давать табличку. Как-то так.
  • Вопрос задан
  • 4141 просмотр
Решения вопроса 1
@lightcaster
То что вы описали очень похоже на NER — Named Entity Recognition. Тут есть ссылки на готовые инструменты en.wikipedia.org/wiki/Named-entity_recognition

Но это не полное «структурирование», а т.н. поверхностное. Вы получите что-то вроде:
Person: Вяся, Петя
Location: Саратов

Для полного смотрите в сторону семантического анализа (парсинга). Правда, на практике такие системы все еще плохо работают.
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
becks
@becks
Посмотрите на AOT (aot.ru), на сайте есть online-демо. Он может по одному предложению строить поверхностно семантический граф. Сам компонент, по-моему, называется seman.

Я проводил некоторый анализ по теме извлечения фактов из текста, сам пытался что-то стоящее сляпать из Open source (из того же аот). У самого ничего хорошего не получилось, ну тут вероятно просто руки кривые, но как вам написали выше и у других подобных систем пока выхлоп небольшой.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы