TTA
@TTA
Мутировавший технарь :)

Извлечение информации из большого количества документов. Чем?

Салют! есть задача: есть несколько тысяч однотипных текстовых документов, в которых есть общие логические блоки (не путать со схемой документа). Из этих документов надо извлечь знания и привести их к цифрам. простые функции вроде регулярок не подходят. Надо чтото более продвинутое. Никогда не сталкивался с этими направлениями, не могу понять с помощь каких алгоритмов и инструментов такую задачу можно решить. Понял что это textmining а дальше куда смотреть не понятно
  • Вопрос задан
  • 1133 просмотра
Пригласить эксперта
Ответы на вопрос 4
al_gon
@al_gon
Несовсем понятно к каким именно цифрам вы хотите/должны извлечённую информацию превести.
В общем задача похожа на проблемы которые решает NER https://en.wikipedia.org/wiki/Named-entity_recognition

Изветные инструменты:

https://en.wikipedia.org/wiki/OpenNLP
nlp.stanford.edu/software/CRF-NER.shtml
https://en.wikipedia.org/wiki/General_Architecture...
https://ru.wikipedia.org/wiki/UIMA

Могу представить, что UIMA это чего вам более чем хватит.
Ответ написан
dimonchik2013
@dimonchik2013
non progredi est regredi
NLTK
Ответ написан
Комментировать
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Комментировать
Alf162
@Alf162
Стоит посмотреть в сторону алгоритмов вроде word2vec (doc2vec, lda2vec и т.п.) Если нужно попроще, то подойдет что-то типа tf-idf. Все это реализовано на питоне, slkearn, gensim
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы