Как подступиться к такой задаче классификации и поиска?

Question

zod ggs @zodchiy

Фуллстэк с 2005

Как подступиться к такой задаче классификации и поиска?

Задача - необходимо разбить на составные части (название, вес, количество, производитель) и (ИЛИ) связать между собой два набора. Один представляет собой запись наименований принятый у поставщика (а поставщиков 2000, и у всех разные правила), а второй уже приведенный к нормализованному наименованию, с соблюдением всех правил.

Первый набор (7млн записей), пример наименований:
Банан 1000 штук ящик 1ц
Банан 1000шт 100 килограмм ФрутПрод
Банан N1000 уп. 100кг Фрут-компани
Банан 1000 ящ 1 центнер
Фига 2000 шт. ящик 0.6ц
ФрутПрод Фига 2000ш 60кг
Фига 2000 ящик 0.06 тонн
Фига N2000 0.06т

Второй набор (100к нормализованных наименований), пример:
Банан 1000 штук ящик 100кг
Фига 2000 штук ящик 60кг

Хорошее в том, что большая часть второго набора МНОГОКРАТНО была связана с большей частью первого набора.
Т.е. вариаций названия "Банан 1000 штук ящик 100кг" в первом наборе 50-100 штук, и из них 20-30 уже связано со вторым набором.
Есть уже связанная выборка для обучения на 2,7млн записей.

Старый алгоритм (если коротко - количество вхождений буквенных пар и чисел), использует очень жирный индекс (в данный момент боле 450млн записей и рост 5-7млн записей в неделю) и уже проваливается по скорости и ресурсоемкости.

Коллеги подсказали, что мне стоит смотреть на алгоритмы машинного обучения и ИНС. Что вы посоветуете?

Вопрос задан более трёх лет назад
305 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

7 комментариев

ivodopyanov @ivodopyanov

Согласен. По-моему, такие строки должны довольно легко парситься регулярными выражениями.

Написано более трёх лет назад
zod ggs @zodchiy Автор вопроса

ivodopyanov: Перебор 7 000 000 * 100 000 строк с помощью регулярки? 0_о
Или 100 000 регуляток, под каждое наименование писать?
Или вы о разборе на составные части? Тогда могу сказать что вес, количество и производителей очень много, 2 года назад составляли справочники по ним, там от 2000 до 12000 записей получается на каждую из частей.

Написано более трёх лет назад
ivodopyanov @ivodopyanov

zod ggs: наименование - нет, а вот различные варианты написания веса и количеств - да.

Написано более трёх лет назад
zod ggs @zodchiy Автор вопроса

ivodopyanov: простите, отредактировал текст, когда вашего ответа еще не было.
вес, количество и производителей очень много, 2 года назад составляли справочники по ним, там от 2000 до 12000 записей получается на каждую из частей.

Написано более трёх лет назад
ivodopyanov @ivodopyanov

zod ggs: мне просто кажется, что вес и количество должны описываться примерно одинаковым шаблоном - число+единица измерения, опционально с пробелом между ними или 'N' перед числом. Если их выкинуть, останется наименование+производитель, которые можно просто сравнивая со словарем определить.

Написано более трёх лет назад
Dimonchik @dimonchik2013

словарный запас человека составляет 5-7 тыс слов
я не знаю как написать слово "ящик" хотя бы 10 словами
я
ящ
ящи
ящик
ящик! ( тут ! и прочие знаки отбрасываем)
то же - центнер
то же - собственные имена фруктов овощей

вы как-то странно смотрите на задачу

Написано более трёх лет назад
zod ggs @zodchiy Автор вопроса

dimonchik2013: форм хранения (я про ящики) 2 000. Это нормированных данных, ящик там как ящик, а не "ящ.".
С вашим подходом форм хранения будет 20-25 тысяч.

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 147 просмотров
2

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 493 просмотра
2

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 321 просмотр
0

ответов
Машинное обучение

+1 ещё

Простой
Какие темы в статистике нужно изучить прежде всего, чтобы начать решать простые задачи машинного обучения?
- 2 подписчика
- 25 мая
- 224 просмотра
2

ответа
IT-образование

+1 ещё

Простой
Важны ли алгоритмы и структуры данных для ML-инженера?
- 2 подписчика
- 25 мая
- 513 просмотров
2

ответа
Карьера в IT

+1 ещё

Простой
Стоит ли беспокоится, если иду в NLP, но я плох на числовых табличных данных?
- 1 подписчик
- 11 мая
- 468 просмотров
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 370 просмотров
1

ответ
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 386 просмотров
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 218 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 280 просмотров
4

ответа
Показать ещё Загружается…

Answer 1 · 2017-06-06 18:42:09

примерно так и подступайтесь - стройте поиск названия, потом поиск упаковки, потом количества и измерений
название, скорее всего, почти всегда легко
затем в паре с ним легко классиицировать цифру (ящики это или штуки или упаковки)

некоторыми функциями можно выполнить предподготовку ("ц" не входит в ящик и упаковку и т.п.)
дальше определить какие содержат все компоненты , а какие нет

ну и посмотрите на нынешний алгоритм, может, проще его оптимизировать

посомтрите Тамита парсер (хз как он для такого, но там можно строить свое)

Answer 2 · 2017-06-06 22:44:18

Задача видится в построении некой многомерной метрики для входных строк.
Т.о. расстояния между уже классифицированной строкой и строкой которая должна быть связана с этой классифицированной должно быть минимально.
Построением этой метрики должна заниматься рекурентная нейронная сеть.

Как все это сделать, лучше не спрашивайте.

Как подступиться к такой задаче классификации и поиска?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт