Кто сможет раскритиковать/улучшить алгоритм распознавания прайс-листа?

Question

cbv @cbv

Кто сможет раскритиковать/улучшить алгоритм распознавания прайс-листа?

Есть поставщики с разными форматами прайсов (какие колонки есть, каких нет, названия колонок). Более того, форматы прайсов у одного поставщика постоянно меняются, поэтому необходимо написать функцию, которая сама будет определять, что содержится в данной колонке прайса.
Возможны следующие колонки: артикул, код, штрихкод, наименование, остаток, гарантия, цена опт, цена мелкоопт, цена розничная. Значение в какой-то ячейке может отсутствовать.
Предлагаю следующий алгоритм:
1. Определить колонки в которых есть данные, так как есть пустые колонки.
2. Сделать запрос в БД - поиск значений из первых 50 строк прайса в каждом поле. Где результат будет близок к 100 % - там нужное поле.
3. Останутся колонки с ценами и остатком, для определения, что в них, использовать следующие фильтры, по которым определить, где цена, а где - остаток:
1) количество - это не цифра, а примерное обозначение <5, ** и т.д.
2) цена, как правило, содержит валюту
3) если у нас остается, например, 4 колонки, то можно найти, значения в каких колонках связаны, а в каких - нет
4) если колонки 2 - количество - меньшая.

Как его улучшить?

Вопрос задан более трёх лет назад
641 просмотр

3 комментария

Подписаться 5 Оценить 3 комментария

Алексей Кулаков @carbon88

А нельзя ли сделать ООПешненько и подставлять нужный ридер под нужного поставщика? вот с этим бешеным поставщиком который переделывает прайс постоянно будет морока конечно, но он один такой. вообще какие-то отличительные особенности каждого конкретного прайса есть? ну там может определенный префикс перед каждым номером айтема прайса или еще что?

Написано более трёх лет назад
cbv @cbv Автор вопроса

Алексей Кулаков: Они все этим отличаются... Сейчас у меня жестко забито в каком прайсе что в какой колонке должно быть, но перед этим проверяется по заголовкам, и не зря. Каждый день то колонка пропадает, то заголовков нет, то названия колонок меняются и т.д. Но менять постоянно настройки, учитывая, что прайсы полностью автоматически обрабатываются, тоже не вариант.

По артикулу - да, есть поставщики, у которых он одной длины, но есть те, у которых они разной длины.

Написано более трёх лет назад
Алексей Кулаков @carbon88

не повезло вам. тут все обработать сложно. могут быть конфликты, кто знает что взбредет в голову поставщика в этот раз? какое-то участие пользователя для разрешения конфликтов предусматривается?

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 6

Комментировать

2 комментария

3 комментария

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- вчера
- 83 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 593 просмотра
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 203 просмотра
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 456 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 248 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 191 просмотр
3

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 317 просмотров
0

ответов
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 154 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2466 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 344 просмотра
6

ответов
Показать ещё Загружается…

А нельзя ли сделать ООПешненько и подставлять нужный ридер под нужного поставщика? вот с этим бешеным поставщиком который переделывает прайс постоянно будет морока конечно, но он один такой. вообще какие-то отличительные особенности каждого конкретного прайса есть? ну там может определенный префикс перед каждым номером айтема прайса или еще что?
Алексей Кулаков: Они все этим отличаются... Сейчас у меня жестко забито в каком прайсе что в какой колонке должно быть, но перед этим проверяется по заголовкам, и не зря. Каждый день то колонка пропадает, то заголовков нет, то названия колонок меняются и т.д. Но менять постоянно настройки, учитывая, что прайсы полностью автоматически обрабатываются, тоже не вариант.

По артикулу - да, есть поставщики, у которых он одной длины, но есть те, у которых они разной длины.
не повезло вам. тут все обработать сложно. могут быть конфликты, кто знает что взбредет в голову поставщика в этот раз? какое-то участие пользователя для разрешения конфликтов предусматривается?

Answer 1 · 2016-03-30 20:21:35

Слишком много сайд еффектов придется обработать
Те слишком дорогая получится автоматизация
Если у тебя сервис по парсингу прайс-листов, то оно того стоит

Тебе же проще ввести понятие пресета, те привязки номера колонки к типу данных.

Показываешь пользователю 20 рандомных строк из файла
Он выбирает пресет
Дальше ты процессиш

Если поместить все в транзакцию БД с роллбеком, то даже данные не попортишь

Если обьем такой работы буде увеличиваться, то ты можешь начать собирать статистику
прайс - данные - куда попала строка из прайса в бд
И вот тут уже можно будет подумать про модные технологии

Answer 2 · 2016-03-30 19:30:04

Если это эксель - проще потратить 3 минуты и перетусовать колонки вручную. Выделить всю колонку и перетащить мышой - 5 сек. Да, это обезьянья работа, но это проще чем потом чистить базу от ошибочного прсинга. На крайняк загружать в админке колонки(скажем первые 10 значений из прайса) и селектами расставить что есть что.
Для автомата(если уж решили писать) проще будет использовать регулярки чем сравнение с базой. Например артикул всегда определенной длинны? Или штрихкод? Цена имеет 2 знака после запятой? Название начинается с букв обычно, и содержит только буквы, цифры и пробельные символы? Кароче определить уникальность поля и использовать в регулярке.

Answer 3 · 2016-03-30 19:58:30

Что если не привязываться к порядку колонок, а выводить прайс как есть в эксельке. Соответственно в базу пишем не каждую колонку/ячейку отдельно, а всю таблицу в виде серрииализованного массива.

Могу даже плагин подогнать для WP

Answer 4 · 2016-03-30 22:49:04

я вижу вариант как обработки шапки прайса и определение расположения колонок по сравнению с текущей конфигурацией разметки, то есть если в конфиге указано что 2 колонка артикул, то новый прайс от поставщика ты проверяешь 2 колонку а конкретно шапку на наличие вариантов article,code,артикул, код и т.д. если не соответствует то выводить сообщение для ручной перенастройки разметки.
Если шапки нет то только анализ первый 100-200 строк на ожидаемые данные с помощью регулярок, но тут как то все не стабильно, но другого варианта не вижу.

Answer 5 · 2020-06-27 10:48:02

InExSu @InExSu

Привет!
Уже сделал

Ответ написан более трёх лет назад

Комментировать

Answer 6 · 2021-09-22 11:35:57

Если еще актуально. Загружаю в pandas, затем передаю "распознавателю колонок" (ищет заголовки в первых n строках (по количеству совпадений ключевых слов) и переименовывает их в принятые в программе имена (для возможности слияния нескольких документов от разных поставщиков), сообщает о колонках которых нет в словаре (ConfigParser), если критично - дополняю конфиг новыми подписями).
В зависимости от набора колонок к каждой применяются методы обработки (валидация, конвертирование к единому формату).
Результат обработки, ошибки, предупреждения, лог накапливаются в экземпляре датакласса. Для слияния, анализа, выборки, построения графиков - все загружаю в синглтон, а потом - pythondocx, matplotlib, pyqt, экспорт по фильтрам в Excel...
Хотел попробовать прикрутить машинное обучение по распознаванию колонок, но в интернетах ничего похожего не нашел и опыта не имею(((. Предполагал, что веса можно выставить по косвенным признакам (уникальных значений в колонке, количество символов, типы, совпадение по словарю, относительная позиция и т.д.). Если у кого-то будут идеи или направления гугления, буду благодарен.

Кто сможет раскритиковать/улучшить алгоритм распознавания прайс-листа?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт