Обязательно ли заполнять матрицу с примерами всем словарем возможных слов?

Question

zaartix @zaartix

Машинное обучение

Обязательно ли заполнять матрицу с примерами всем словарем возможных слов?

Решаю типичную задачу из учебника - классификация объектов. В моем случае товары. Выбрал простейший алгоритм NaiveBayes.

php-ml.readthedocs.io

Для начала создаю обучающую матрицу для рубрикатора верхнего уровня, т.е. авто, услуги, одежда и т.д. (без вложенных подрубрик).

Алгоритм действий такой:
Все слова преобразовываются в леммы (базовые формы слов), дальше в идентификатор леммы (айдишник).
После этого, как я понял, нужно создавать матрицу, где строкой является товар (в моем случае), а столбцами - "вес" слова в названии товара (TF-IDF значение). Вопрос как раз про эту часть. Из учебника как я понял, нужно, чтоб строка этой матрицы была размером с весь словарь, т.е. выглядеть будет примерно так

[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.4,0,0,0,0,0,0,0.7,0,0,0,1.2,0,0,0]

Т.е. размерность матрицы будет равна: "весь словарь возможных слов" на "количество товаров", т.е. на тестовой выборке из 10 тыс товаров у меня получился словарь уникальных слов размером 15 тыс. Таким образом матрица получается размерностью 15к на 10к.
Так и должно быть? Если да, тогда я не учень понимаю как можно пополнять обучающую базу, ведь если изменится размерность словаря, то придется составлять всю матрицу заново, т.к. ее размерность в ширину должна будет измениться.

При размерности датасета 15к на 10к это нормально, что для обучения отжирается 20гиг памяти?

Вопрос задан более трёх лет назад
77 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Data Scientist с нуля

10 месяцев

Далее
Академия Эдюсон

Machine Learning: тариф Базовый

7 месяцев

Далее
Бруноям

Data Scientist

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

4 комментария

zaartix @zaartix Автор вопроса

Спасибо, я в задачке описал, что уже использую его, правда не стал применять эту библиотеку, т.к. словарь лежит в базе. Я считаю TF-IDF по формуле одним запросом к базе, получается существенно быстрее, чем если прогонять эти данные через TfIdfTransformer (как понимаю аналог вашей либы, только встроенный в PHP-ML).

Но спасибо, не подумал про то, что можно исключить слова со слабой "силой".

Но я правильно понимаю, при изменении словаря возможных слов, придется полностью заново составлять датасет и переобучать заново? Нет каких-то методик "пополнения"? Обучение всегда происходит "заново"?

Написано более трёх лет назад
Данил @DanilBaibak

Да, при появлении новых документов, придется обучать заново.

Написано более трёх лет назад
zaartix @zaartix Автор вопроса

Данил, Проверил ваше предложение. Исключил из выборки все слова, чей вес меньше, чем AVG по всем товарам, так же исключил все предлоги, союзы и т.д.

В итоге качество распознавания уменьшилось с 0.98 до 0.64. Но самое плохое в том, что на потреблении ресурсов (ЦПУ + память) никак не сказалось ощутимо. Таким образом получается, что нет смысла уменьшать размерность ширины матрицы.

Спасибо за предложенный вариант, но не подходит, увы (

Написано более трёх лет назад
Данил @DanilBaibak
Хммм, давайте посмотрим, что нам предлагает тот же sklearn - три основных эвристики:

limit - build a vocabulary that only consider the top max_features ordered by term frequency across the corpus. Мы ограничиваем словарь на заданную длину, отсортировав его по частоте слова во всем корпусе.
high - When building the vocabulary ignore terms that have a document frequency strictly higher than the given threshold. Исключаем слова, которые встречаются чаще заданного порога во многих документах. Можно рассматривать, как стоп-слова.
low - ignore terms that have a document frequency strictly lower than the given threshold. Исключаем слова, которые встречаются реже заданного порога во многих документах. К стати, можно указывать, какой процент документов является "во многих документах". Тут нужно быть аккуратным, иначе можно исключить важные слова, которые описывают определенные товары.

Основная идея в том, что для классификации товаров алгоритму не нужны слова, которые встречаются одинаково часто во всех описаниях.
Написано более трёх лет назад

3 комментария

zaartix @zaartix Автор вопроса

Спасибо, попробую почитать про такой способ, насколько его возможно применить.

Написано более трёх лет назад
zaartix @zaartix Автор вопроса

А насколько это широкая практика, использовать такие матрицы? в документации ничего не нашел про такую возможность.

Написано более трёх лет назад
Александр Скуснов @AlexSku

В Матлабе они есть.
А что касается ассоциативных списков (словарей), то обычно ключ (индекс массива) это строка. Но если в качестве ключа брать число (два числа), то получаем обычный разреженный вектор (матрицу).

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 147 просмотров
2

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 495 просмотров
2

ответа
Машинное обучение

+1 ещё

Простой
Какие темы в статистике нужно изучить прежде всего, чтобы начать решать простые задачи машинного обучения?
- 2 подписчика
- 25 мая
- 224 просмотра
2

ответа
IT-образование

+1 ещё

Простой
Важны ли алгоритмы и структуры данных для ML-инженера?
- 2 подписчика
- 25 мая
- 514 просмотров
2

ответа
Карьера в IT

+1 ещё

Простой
Стоит ли беспокоится, если иду в NLP, но я плох на числовых табличных данных?
- 1 подписчик
- 11 мая
- 468 просмотров
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 370 просмотров
1

ответ
Машинное обучение

Простой
Необходимо разработать модель классификации, поможете с выбором парадигмы решения задачи?
- 2 подписчика
- 22 янв.
- 154 просмотра
0

ответов
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 140 просмотров
0

ответов
Машинное обучение

Простой
Можно ли получить сразу полный список чего-либо от LLM по определённому критерию?
- 1 подписчик
- 28 дек. 2025
- 136 просмотров
1

ответ
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек. 2025
- 328 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2019-07-25 10:15:03

Размер словоря можно ограничить, взяв топ, например, 5 тыс слов (предварительно отсортировав по "весу").

Существует ряд эвристик, которы так же можно применить:

Исключить стоп-слова
Не включать слова, которые встречаются "реже чем..."
Не включать слова, которые встречаются "чаще чем..."

Рекомендую посмотреть на реализацию TfidfVectorizer от scikit-learn.

Answer 2 · 2019-07-25 11:15:19

Есть такое понятие, как разреженная матрица. Запоминаются только ненулевые элементы (с координатами). Можно использовать обычный словарь (ассоциативный список).

Обязательно ли заполнять матрицу с примерами всем словарем возможных слов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт