Как правильно поставить задачу по разработке приложения или какое готовое приложение использовать?

Question

YaTe @YaTe

Как правильно поставить задачу по разработке приложения или какое готовое приложение использовать?

Стоит задача:
Разбирать документы из относительно неструктурированного вида и трансформировать данные из них в структурированный вид для загрузки в БД, при этом список полей в БД конечен и заранее известен.

Нюансы:
1) Документы могут быть в разных форматах, например Excel, PDF, а иногда это просто веб-страница на сайте
2) Как следствие, данные поступающие из различных источников представлены в разном виде. При этом, если в excel'ке данные более структурированные (почти все содержится в таблице), то в PDF'е часть данных может быть представлена текстом и быть общей для всех представленных элементов
3) Задача повторяющаяся, то есть в любом формате со временем будет несколько документов
4) Есть вероятность, что в каких-то документах недостаточно данных для полного заполнения БД, тогда в идеале должна быть возможность добавить дополнительный документ

Чтобы было нагляднее возьмем пример: спецификации каких-нибудь железок, к примеру жестких дисков. Хотим составить БД со спеками дисков. Есть определенный набор параметров, который мы хотим в нашу базу занести.
У самсунга на сайте есть PDF'ки со спецификациями их дисков (как пример, 983-я серия. Большая часть нужных спецификаций лежит в таблице. Там представлены диски сразу в двух форм-факторах, соответственно, например, размерные характеристики будут общими для двух разных семейств: 2.5" и М.2 дисков. А какая-то информация, например, интерфейс или наработка на отказ, будет общей для всех дисков. В таком случае, ячейки будут объединяться. А какая-то часть информации будет доступна в тексте, а не таблице, и ее оттуда тоже надо вытащить.
А вот у тошибы спецификации представлены прямо на сайте. Но информация там структурирована по другому и объем ее отличается. А у условного производителя XYZ на сайте будут лежать эксели и информация будет структурирована иным образом.

Вопрос:
Какая дисциплина позволяет решить задачу по наполнению данными БД? Изучение описание таких дисциплин (процессов), как Data Mining, Data Wrangling и прочим не помогуают понять, в какую сторону именно смотреть. То есть тут с одной стороны не надо ничего предсказывать и искать insights, про которые по идее говорит Data Mining, с другой стороны для Data Wrangling'а информация слишком плохо структурирована. То есть скорее всего нужен какой-то инструмент эксплуатирующий машинной обучение / нейронные сети (для повышения качества вычленения информации, особенно из нетабличных блоков), но непонятно как спросить у гугла про правильный инструмент или как поставить задачу разработчикам. Идеальный ответ - какой инструмент (если он существует) решает такую задачу, а если не существует, то какого профиля разработчиков искать, чтобы разработать приложение, рещающее данную задачу.

Спасибо.

Вопрос задан более трёх лет назад
98 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Машинное обучение

10 месяцев

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее
Яндекс Практикум

Инженер машинного обучения

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 175 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 166 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 194 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент.
- 188 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент.
- 61 просмотр
0

ответов
Веб-разработка

+1 ещё

Простой
Какие есть ML-инструменты, которые по структуре или изображению лендинга предсказывают зоны внимания пользователей?
- 1 подписчик
- 28 авг.
- 399 просмотров
3

ответа
Видеокарты

+1 ещё

Средний
Целесообразно ли использование двух RTX 5080 для обучения нейросетей?
- 1 подписчик
- 24 авг.
- 426 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 473 просмотра
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 65 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 148 просмотров
3

ответа
Показать ещё Загружается…

Fullstack Разработчик | NodeJS, React

ООО "Технологии" • Казань

от 120 000 до 250 000 ₽

Backend developer/ software engineer (Python) в команду DCIM

Яндекс • Москва

от 350 000 ₽

Аналитик с опытом работы в букмекере

Gravity Group

от 1 000 до 150 000 ₽

Answer 1 · 2018-11-04 21:24:49

В общем случае - такое решается наемом персонала, который будет писать парсеры для каждого производителя
Или покупкой апи или всего массива информации

Парсить пдф/ексель - занятие слабо подьемное

Тем более, что все уже есть в вебе
https://www.samsung.com/semiconductor/minisite/ssd...

Answer 2 · 2018-11-04 21:27:32

Dimonchik @dimonchik2013

non progredi est regredi

тамита парсер

но вообще простого решения нет, как sim3x и сказал, обычно пишется набор парсеров

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2018-11-11 16:32:52

Если я правильно понимаю, то парсеры - это решение, которое было доступно и в "прошлой жизни", то есть их можно было написать и 10 лет назад. Весь смысл в том, чтобы избавиться от написания жестко алгоритмизированных парсеров за счет новых технологий (ML/нейросети/...), особенно с учетом того, что данные могут меняться от документа к документу (состав, формат) даже у одного "вендора"

Есть еще идеи?

Как правильно поставить задачу по разработке приложения или какое готовое приложение использовать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт