Возможно ли создать универсальное решение для процесса синхронизации данных от разных поставщиков?

Question

tiveli3655 @tiveli3655

Программирование

Возможно ли создать универсальное решение для процесса синхронизации данных от разных поставщиков?

Есть проект в котором нужно "синхронизировать" данные присылаемые в (.csv/.xlsx и.т.д файлах) от разных поставщиков. Загвоздка в том, что процесс не удаётся структуризовать в виду постоянных сюрпризов от заказчиков, вот несколько таких:

- Заголовки у каждого поставщика отличаются в зависимости от используемой ими сторонней системы или могут отсутствовать вовсе
- Некоторые поставщики шлют статус изделия (одна запись для изделия в файле), а некоторые его историю (много записей для одного изделия в файле)
- Ещё могут быть всякие приколы, например поставщик ведёт учёт изделий в 2 системах, одна присылает данные точные, а другая нет, но содержит данные которых нет в первой, в результате бизнес-процесс требует мёржа двух присылаемых файлов
и уже потом синхронизации с базой и это только для этого поставщика, у другого например нужно делать запрос по API для получения недостающей инфы и.т.д
- Каждая компания использует свою уникальную систему кодов по которой нужно определять характеристики изделия
- У некоторых поставщиков данных об изделиях в файлах "мусорные" и для каждого поставщика присылаемые файлы нужно фильтровать по своему

Можно ли как-то попытаться структуризовать всё это/придумать другое решение? Или придётся и дальше для каждого поставщика отдельный обработчик писать?

Вопрос задан более года назад
265 просмотров

1 комментарий

Подписаться 2 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1285 просмотров
6

ответов
JavaScript

+2 ещё

Простой
Можно ли заменить кликанье мышью по веб-интерфейсу cli-командой?
- 3 подписчика
- 13 сент.
- 1071 просмотр
2

ответа
Программирование

Простой
Оператор, операция, функция, процедура — что всё это значит?
- 1 подписчик
- 05 авг.
- 414 просмотров
2

ответа
Программирование

Простой
Какие есть источники, помогающие понять бизнес-логику проекта?
- 3 подписчика
- 30 июл.
- 915 просмотров
2

ответа
Программирование

Простой
Как готовиться к ВСоШ по информатике 9-11 классов/олимпиадам по программированию вообще?
- 1 подписчик
- 20 июл.
- 282 просмотра
3

ответа
Программирование

+1 ещё

Простой
Ответьте на вопрос по информатике?
- 1 подписчик
- 10 июл.
- 808 просмотров
3

ответа
Программирование

+1 ещё

Средний
Редактирование прошивки китайской камеры видеонаблюдения?
- 1 подписчик
- 01 июл.
- 475 просмотров
2

ответа
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 318 просмотров
3

ответа
Программирование

+3 ещё

Средний
Какой лучше выбрать мини пк под сервер?
- 2 подписчика
- 19 июн.
- 4030 просмотров
16

ответов
Программирование

+1 ещё

Простой
Нужна ли магистратура программисту какие есть ограничения в ее отсутвии?
- 1 подписчик
- 14 июн.
- 4569 просмотров
6

ответов
Показать ещё Загружается…

Backend developer

Creative Code

До 160 000 ₽

IDE Plugin Engineer

IForce connect ltd • Лондон

от 3 000 до 6 000 €

Backend developer

BCraft

До 4 000 $

оооо, у нас такая же боль.
Куча поставщиков, у всех разный формат данных, бывает несколько файлов, причём товар один, а sku немного отличается в разных файлах (видимо поставщик заполняет вручную и не парится).

У нас на каждого поставщика отдельный обработчик.

Но всё же бОльшая часть поставщиков адекватные, и дают нормальный формат, который можно хоть как-то подогнать под общую гребёнку, дав возможность менеджерам самим настраивать что-то (например в какой колонке в xlsx лежит sku, цена, остаток и тп.)

Поэтому в планах сделать какое-то более менее универсальное решение, но там, где поставщик совсем неадекват формат даёт - оставить возможность делать кастомный обработчик (уже силами программиста).

Answer 1 · 2024-05-27 02:18:04

Если кратко - то да. Можно.

Если более подробно - то это долго. Мучительно. И где то в конце вы создадите свой собственный
язык (DSL) который будет описывать все бизнес-преобразования данных.

Общая идея такая. Вы пишете одинаковый софт на Python для всех поставщиков данных а различия
реализуете как часть конфигураций. Пример (совершенно выдуманный):

datasources:
  - datasource: Bitcoin
    format: xls
    header: on
  - datasource: Market
    format: csv
    header: off

transformations:
  - name : Bitcoin
    filter: "WHERE payload is not null"

sink:
  - name : Bitcoin
    dest: jdbc:thin:oracle@....

Существует разумный баланс между DSL и частным решением для каждого провайдера
данных. Например с точки зрения передачи знаний для новых разработчиков решение
на DSL всегда плохое. По личному опыту коллегам всегда не нравится то, что вам кажется
красивым и концептуальным. И чаще всего DSL языки тихо умирают с уходом с проекта
главного создателя и идеолога этих всех DSL.

В качестве основы для DSL не обязательно нужен Yaml. Это можно делать на Python, Lua, Lisp
и вообще даже на основном языке. Главное чтобы конфигурационная часть была декларативной
и не содержала циклов и проверок условий.

Answer 2 · 2024-05-29 11:15:28

Такая-же боль на работе имеется: куча приборов химического анализа от кучи разных производителей - практически у каждого свой формат вывода.
И таки да - под каждый прибор свой метод разбора результатов: у одного можно напрямую к БД подключиться, у другого разбирать файлы с сетевой папки куда несколько однотипных приборов скидывают результаты, у третьего экселевские таблицы ковырять и т.д.
Итого у меня все это происходит в два этапа-
1 - получить в промежуточную таблицу данные с прибора (часть уникальная для каждого прибора, или каждого производителя), эта таблица содержит все возможные поля для данных, которые могу вообще поспать с любых приборов.
2 - универсальная часть, которая уже из промежуточной таблицы, по имеющимся данным раскидает их в рабочую базу ЛИМСа.

Как и сказал mayton2019 практически написался свой язык для парсинга результатов с приборов, так как никогда не угадаешь, какой прибор купят завтра и какие извраты с экспортом результатов в нем будут использоваться :)

Answer 3 · 2024-05-26 22:03:48

Разные форматы/особенности данных - разные обработчики.
Максимум, можешь использовать полиморфизм и оформить обработчики под каждого поставщика как классы с общим предком/интерфейсом и использовать паттерн "Цепочка ответственности".

Answer 4 · 2024-05-30 00:01:47

Сейчас работаю над аналогичной задачей:
- сотни источников данных, на разных языках и в разных региональных форматах
- данные фрагментированы, разные атрибуты одной и той же записи приходят из разных источников
- встречаются опечатки и мусор в данных

Что попробовали, но работает не очень:
- собственный DSL. Слишком дорого в поддержке, онбоардинг разработчиков превращается в ад.
- Использование шаблонов и маппингов специфичных для каждого истончика с помощью специфичного софта типа Xceptor. Опять таки дорого в поддержке и недостаточно гибко.

Что работает хорошо:
- Разделение процесса на этапы, все по классике Data Science: очистка данных от мусора, стандартизация форматов и т.п. Это позволяет не дублировать одну и ту же логику в отдельном обработчике для каждого источника, а консолидировать правила в одном месте.
- Elastic для перевода, синонимов и обработки опечаток
- Кросс проверки с дополнительными источниками данных, где это возможно

Возможно ли создать универсальное решение для процесса синхронизации данных от разных поставщиков?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт