Ответы пользователя Oleh_Oleinikov

Задать вопрос

Ответы

Кто сможет раскритиковать/улучшить алгоритм распознавания прайс-листа?

Oleh_Oleinikov @Oleh_Oleinikov

Если еще актуально. Загружаю в pandas, затем передаю "распознавателю колонок" (ищет заголовки в первых n строках (по количеству совпадений ключевых слов) и переименовывает их в принятые в программе имена (для возможности слияния нескольких документов от разных поставщиков), сообщает о колонках которых нет в словаре (ConfigParser), если критично - дополняю конфиг новыми подписями).
В зависимости от набора колонок к каждой применяются методы обработки (валидация, конвертирование к единому формату).
Результат обработки, ошибки, предупреждения, лог накапливаются в экземпляре датакласса. Для слияния, анализа, выборки, построения графиков - все загружаю в синглтон, а потом - pythondocx, matplotlib, pyqt, экспорт по фильтрам в Excel...
Хотел попробовать прикрутить машинное обучение по распознаванию колонок, но в интернетах ничего похожего не нашел и опыта не имею(((. Предполагал, что веса можно выставить по косвенным признакам (уникальных значений в колонке, количество символов, типы, совпадение по словарю, относительная позиция и т.д.). Если у кого-то будут идеи или направления гугления, буду благодарен.

Ответ написан более трёх лет назад

Комментировать

Комментировать

Самые активные сегодня

Aragorn
- 2 ответа
- 1 вопрос
Dupych
- 2 ответа
- 0 вопросов
Xard471
- 0 ответов
- 1 вопрос
alekseyHunter
- 0 ответов
- 1 вопрос
3w4kn3
- 0 ответов
- 1 вопрос
Артём Дайнов
- 1 ответ
- 0 вопросов

Кто сможет раскритиковать/улучшить алгоритм распознавания прайс-листа?

Войдите на сайт