Извлечение информации из большого количества документов. Чем?

Question

Тимур Туз @TTA

Мутировавший технарь :)

Извлечение информации из большого количества документов. Чем?

Салют! есть задача: есть несколько тысяч однотипных текстовых документов, в которых есть общие логические блоки (не путать со схемой документа). Из этих документов надо извлечь знания и привести их к цифрам. простые функции вроде регулярок не подходят. Надо чтото более продвинутое. Никогда не сталкивался с этими направлениями, не могу понять с помощь каких алгоритмов и инструментов такую задачу можно решить. Понял что это textmining а дальше куда смотреть не понятно

Вопрос задан более трёх лет назад
1139 просмотров

Комментировать

Подписаться 9 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

ИИ в медицине: как использовать в работе каждый день

8 недель

Далее
Академия Эдюсон

Нейросети в строительстве

2 месяца

Далее
Бруноям

ИИ-агенты и n8n

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

Простой
Как решить проблему с генерацией видео в Kling AI?
- 1 подписчик
- 09 июл.
- 59 просмотров
1

ответ
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 106 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 283 просмотра
2

ответа
Нейронные сети

Средний
Как в AI ToolKit для тренировки LorA указать свои модели?
- 1 подписчик
- 09 июн.
- 69 просмотров
1

ответ
Нейронные сети

Простой
Есть ли нейросети для интерактивной работы с изображениями?
- 2 подписчика
- 13 мая
- 285 просмотров
2

ответа
Боты

+1 ещё

Простой
Какие посоветуете лучшие доступные LLM, для организации на её базе офисного бота?
- 2 подписчика
- 06 мая
- 402 просмотра
5

ответов
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 245 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Возможно ли создать ии агента для автоматической рассылки сообщений на сайте знакомств?
- 1 подписчик
- 19 мар.
- 195 просмотров
3

ответа
Карьера в IT

+2 ещё

Простой
Какие нейросети помимо ChatGPT эффективны в IT?
- 1 подписчик
- 03 мар.
- 1285 просмотров
9

ответов
Нейронные сети

+1 ещё

Простой
Можно ли настроить диалог с нейросетью как диалог с персонажем с заданными характеристиками?
- 2 подписчика
- 02 мар.
- 341 просмотр
1

ответ
Показать ещё Загружается…

Answer 1 · 2016-12-04 11:30:06

Несовсем понятно к каким именно цифрам вы хотите/должны извлечённую информацию превести.
В общем задача похожа на проблемы которые решает NER https://en.wikipedia.org/wiki/Named-entity_recognition

Изветные инструменты:

https://en.wikipedia.org/wiki/OpenNLP
nlp.stanford.edu/software/CRF-NER.shtml
https://en.wikipedia.org/wiki/General_Architecture...
https://ru.wikipedia.org/wiki/UIMA

Могу представить, что UIMA это чего вам более чем хватит.

Answer 2 · 2016-12-04 09:51:21

Dimonchik @dimonchik2013

non progredi est regredi

NLTK

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2016-12-04 11:34:58

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

https://nlpub.ru/Mystem
Обработка текста с помощью mystem на php

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2016-12-08 10:33:14

Стоит посмотреть в сторону алгоритмов вроде word2vec (doc2vec, lda2vec и т.п.) Если нужно попроще, то подойдет что-то типа tf-idf. Все это реализовано на питоне, slkearn, gensim

Извлечение информации из большого количества документов. Чем?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт