Автоматизация большого объема информации?

Question

alekseyizmaylov @alekseyizmaylov

Автоматизация большого объема информации?

Всем доброго дня,
уважаемые спецы, нужен Ваш совет:
есть БОЛЬШОЙ объем информации - нормативные документы в области строительства,
как можно программными способами, при помощи какого-либо языка программирования, автоматизировать эту кучу информации, чтобы каждый раз не перечитывать эти тонны норм, а быстро и непринужденно находить нужную информацию?
Выполнить это задачу хочу сам, опыт в программировании мал, но грызть гранит науки готов - нужно правильное направление вгрызания ))
Как и на каком языке? Простота и эффективность приветствуется )

Вопрос задан более трёх лет назад
266 просмотров

4 комментария

Подписаться 3 Простой 4 комментария

DDDsa @DDDsa

Насколько помню из лекций в институте, автоматизация — это выполнение какого-либо процесса без участия человека. Фраза "автоматизировать информацию" не имеет смысла, то есть, сначала нужно определить, что именно нужно автоматизировать.

Просто для быстрого поиска достаточно распознать (если это сканы печатного текста) и сохранить в любом формате. Если информации слишком много для простого поиска по тексту или нужен анализ данных — распарсить и загнать, например, в БД.

Нужно больше информации по задаче : )

Написано более трёх лет назад
alekseyizmaylov @alekseyizmaylov Автор вопроса

Документы будут в формате doc или pdf
Предполагается, что в меню вводятся определенные параметры, например: тип здания, высота, ширина, площадь и т.д. и по нажатии кнопки ок выводится выборка всех требований согласно запроса.
можно если необходимо, загнать текст документов в саму программу....
желательно все без лишних танцев с бубнами, чтобы самому это реализовать - с# как вариант например?

Написано более трёх лет назад
DDDsa @DDDsa

alekseyizmaylov, Тогда совершенно любой язык общего назначения, они все работают с БД. Главная задача тут будет — распарсить набор документов. Если у документов строгая структура, то работа над программой будет заключаться в том, чтобы определить эту структуру и по ней вытащить информацию из всех файлов. Примерный план действий сейчас напишу в ответе

Написано более трёх лет назад
alekseyizmaylov @alekseyizmaylov Автор вопроса

Спасибо за дельный совет ) с нетерпением жду план )

Написано более трёх лет назад

Решения вопроса 2

1 комментарий

2 комментария

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Windows

+2 ещё

Средний
Дублирование действий на клавиатуре и мышке во всех окнах?
- 1 подписчик
- 12 часов назад
- 165 просмотров
1

ответ
Программное обеспечение и интернет-сервисы

Средний
Duolingo сайт не загружается. Надо DNS настроить?
- 1 подписчик
- 21 час назад
- 114 просмотров
0

ответов
PHP

+3 ещё

Средний
Как организовать автоматическую выдачу цифровых товаров после оплаты на чистом PHP?
- 2 подписчика
- 20 апр.
- 284 просмотра
3

ответа
Linux

+1 ещё

Простой
Можно ли настроить программный RAID в ORICO-9958C3?
- 2 подписчика
- 23 мар.
- 324 просмотра
2

ответа
Программное обеспечение и интернет-сервисы

Средний
Из-за чего не заходит на сайт через burp suite?
- 1 подписчик
- 19 мар.
- 133 просмотра
0

ответов
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Существуют ли ремонтно-инструментальные LiveDVD/USB, пригодные для работы с современными ноутами, требующими RST driver?
- 2 подписчика
- 19 мар.
- 306 просмотров
2

ответа
Компьютерные сети

+2 ещё

Простой
Обновление Samsung скачивается через браузер, но не скачивается без VPN в системе. Почему?
- 1 подписчик
- 19 мар.
- 1612 просмотров
2

ответа
Языки программирования

Простой
Как преобразовать программу на rocq или аналоге в pdf — документ с математическими символами, а не кодом?
- 2 подписчика
- 12 мар.
- 238 просмотров
0

ответов
Программное обеспечение и интернет-сервисы

Простой
Не открывается сайт генератора GRID?
- 1 подписчик
- 11 мар.
- 114 просмотров
0

ответов
Автоматизация

Простой
Как настроить автоматизацию действий в игре майнкрафт в программе HETIC X1000?
- 1 подписчик
- 11 мар.
- 206 просмотров
1

ответ
Показать ещё Загружается…

Менеджер по качеству (эквайринг, терминалы, ККТ, банкоматы, АДМ)

ИТ-Холдинг Т1 • Санкт-Петербург

До 130 000 ₽

Выездной инженер технической поддержки

ИТ-Холдинг Т1 • Великий Новгород

от 70 000 до 70 000 ₽

Менеджер по качеству (эквайринг, терминалы, ККТ, банкоматы, АДМ)

ИТ-Холдинг Т1 • Москва

До 130 000 ₽

Насколько помню из лекций в институте, автоматизация — это выполнение какого-либо процесса без участия человека. Фраза "автоматизировать информацию" не имеет смысла, то есть, сначала нужно определить, что именно нужно автоматизировать.

Просто для быстрого поиска достаточно распознать (если это сканы печатного текста) и сохранить в любом формате. Если информации слишком много для простого поиска по тексту или нужен анализ данных — распарсить и загнать, например, в БД.

Нужно больше информации по задаче : )
Документы будут в формате doc или pdf
Предполагается, что в меню вводятся определенные параметры, например: тип здания, высота, ширина, площадь и т.д. и по нажатии кнопки ок выводится выборка всех требований согласно запроса.
можно если необходимо, загнать текст документов в саму программу....
желательно все без лишних танцев с бубнами, чтобы самому это реализовать - с# как вариант например?
alekseyizmaylov, Тогда совершенно любой язык общего назначения, они все работают с БД. Главная задача тут будет — распарсить набор документов. Если у документов строгая структура, то работа над программой будет заключаться в том, чтобы определить эту структуру и по ней вытащить информацию из всех файлов. Примерный план действий сейчас напишу в ответе
Спасибо за дельный совет ) с нетерпением жду план )

Answer 1 · 2018-06-25 10:22:48

1. Определяем виды и структуру документов. Для парсинга потребуются либо ключевые слова (например первое число после фразы "Высота:" или вся строка после фразы "Задание: ") либо расположение абзацев, знаков (Например, последний абзац — всегда описание или список, начинающийся с - или * — это перечень материалов и т д). Если структура произвольная, то тут два выхода:
- либо сохраняем весь текст целиком (но тут сложный поиск не реализовать);
- либо обрабатываем вручную каждый документ (трудоёмко, если документов много).

2. Выбираем язык, который больше нравится; ищем для этого языка библиотеки для работы с нужными форматами (doc, PDF) или способы выкрутиться, например, сконвертировать в другой формат, с которым работать удобнее и т д.

3. Выбираем БД и библиотеку для работы с ней нашего языка. Создаём схему (таблицы), которая соответствует задаче.

4. По определённой в пункте 1 структуре начинаем парсить документы. Сначала берём один документ и пишем парсер для него, потом пытаемся примерить этот парсер для другого документа — понимаем, что нужно изменить, расставляем условия и т д. В итоге должен получиться набор данных, вроде массива объектов, где каждый объект — распарсенный документ.

5. Сохраняем полученный массив объектов в БД, по пути правим схему, потому что наверняка в п. 3 мы учли не всё.

6. По сути, на этом можно закончить, далее поиск можно осуществлять запросами, средствами БД. Но если интересно, или если данными будут пользоваться другие люди — можно написать интерфейс. Это уже следующая большая задача: выбор интерфейса и его реализация.

Answer 2 · 2019-05-11 13:44:40

Просто для поиска неструктурированной текстовой информации можно взять готовое ПО, например, DocFetcher.
Это такой поисковик с открытым исходным кодом для файлов на компьютере на основе Apache Lucene.
Если нужно что-то более специализированное, тогда берем в руки подходящий язык программирования (например, Java) и ищем подходящие библиотеки для работы с документами, например, Apache Tika. Ну а самая сложная часть - это анализ текста с целью извлечения характеристик, Information Extraction (IE).

Answer 3 · 2018-06-25 13:49:16

Если вам хочется сделать систему с нуля для саморазвития, и важен сам процесс и экспа - делайте.
Если нужнее результат, а не процесс, то стоит погуглить готовые системы типа того-же архивариуса, например.

Answer 4 · 2019-05-11 13:33:04

Годится любой язык программирования общего назначения.

Из специфического под документы - разве что СУБД типа FTS (например, SphinxSearch)

Автоматизация большого объема информации?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт