Извлечение информации из большого количества документов. Чем?
Салют! есть задача: есть несколько тысяч однотипных текстовых документов, в которых есть общие логические блоки (не путать со схемой документа). Из этих документов надо извлечь знания и привести их к цифрам. простые функции вроде регулярок не подходят. Надо чтото более продвинутое. Никогда не сталкивался с этими направлениями, не могу понять с помощь каких алгоритмов и инструментов такую задачу можно решить. Понял что это textmining а дальше куда смотреть не понятно
уточняю есть чтото вроде отчета о проделанной работе и ее оценка в конце. Пример:
Дмитрию по договору №123 надо было перевезти посылку из пункта а в пункт б
....
В результате Дмитрий (1)опоздал/(2)привез вовремя/(3)привез но повредил упаковку (эти описания результатов в произвольной форме).
В идеале получить таблицу: Поле Dogovor: 123; Поле Worker: Дмитрий; Поле Result: (1)Opozdal; (2)Ok; (3)Slomal.
Стоит посмотреть в сторону алгоритмов вроде word2vec (doc2vec, lda2vec и т.п.) Если нужно попроще, то подойдет что-то типа tf-idf. Все это реализовано на питоне, slkearn, gensim