Как классифицировать большие данные с использованием Sklearn?

Question

Astrohas @Astrohas

Python/Django Developer

Как классифицировать большие данные с использованием Sklearn?

Итак имеется относительно большая база данных размером в 50Гб, которая состоит из отрывков 486 000 диссертаций по 780 специальностям.
В научных целях нужно провести обучение модели на основе этих данных. Но увы ресурсы ограничены мобильным процессором, 16 Гб памяти (+ 16 SWAP) и ограниченным времени вселенной.
Был проведен анализ с использованием набора из 40 000 элементов (10% базы) (4,5 Гб) и классификатором SDGClassifier, и потребление памяти было в районе 16-17 гб.

Поэтому вот прошу помощи сообщества по этому поводу.

основной код логики таковой (наборы очищены от стоп слов и некоего мусора):

text_clf = Pipeline([
     ('count', CountVectorizer()),
     ('tfidf', TfidfTransformer()),
     ('clf', SGDClassifier(n_jobs=8),)
 ],
 )
texts_train, texts_test, cat_train, cat_test = train_test_split(texts, categories_ids, test_size=0.2)
text_clf.fit(texts_train, cat_train)

PS: Увы использовать другие технологии возможности нету. Только scikit-learn

Вопрос задан более трёх лет назад
262 просмотра

Комментировать

Подписаться 3 Сложный Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 4

3 комментария

Astrohas @Astrohas Автор вопроса

https://docs.google.com/spreadsheets/d/1IRGV1mH8hf...

Значения в пределах 70-75 процентов.
База - спарсенные данные из https://www.dissercat.com/

Написано более трёх лет назад
Данил @DanilBaibak
Что можно сделать для начала:
Посмотреть learning curve для SGDClassifier
Если график покажет, что модель можно улучшить большим количеством данных, SGDClassifier поддерживает partial_fit
Воспользоваться classification_report для оценки модели
Посмотреть confusion_matrix - скорее всего, есть специальности по которым очень легко различить тексты. А улучшить классификацию по похожим специальностям может оказаться очень сложно
Написано более трёх лет назад
Astrohas @Astrohas Автор вопроса

Благодарствую

Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- вчера
- 174 просмотра
1

ответ
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 18 окт.
- 175 просмотров
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 129 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 516 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 110 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 531 просмотр
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 143 просмотра
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 124 просмотра
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 555 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Answer 1 · 2019-05-21 20:41:25

Пару уточняющих вопросов:

Вы делаете классификатор по 780 специальностям?
Какие метрики используете для оценки? Каковы результаты сейчас?

Для начала можно воспользоваться learning curve. Возможно для текущей модели больше данных и не нужно.

Answer 2 · 2019-05-22 00:38:24

Посмотрите, что именно потребляет память. С дивана кажется, что это огромные матрицы внутии CountVectorizer и TfidfTransformer; если это так, можно, например, на сабсете сначала подобрать наиболее сильные фичи, а потом слабые отфильтровать вместо со стоп-словами. Или посмотреть в сторону hasing trick, как в https://scikit-learn.org/stable/modules/generated/...

Answer 3 · 2019-05-23 10:59:20

Не грузите все данные в память сразу, а работайте с итераторами. Разбиение на train и test в этом случае можно будет сделать по файлам.

Answer 4 · 2019-05-24 18:40:15

Ответ на мой вопрос из SO https://stackoverflow.com/a/56243314/11535126

You can utilize warm_start=True and call .partial_fit() (instead of .fit()).

See the documentation here for the model you are using where it describes that argument and function respectively.

Basically, you would load only a portion of the data at a time, run it through your pipeline and call partial_fit in a loop. This would keep the memory requirements down while also allowing you to train on all the data, regardless of the amount.

EDIT

As noted in the comments, the above mentioned loop will only work for the predictive model, so the data pre-processing will need to occur separately.

Here is a solution for training the CountVectorize...
This question contains a TFIDF implementation tha...

So the final solution would be to preprocess the data in two stages. The first for the CountVectorizer and the second for the TFIDF weighting.

Then to train the model you follow the same process as originally proposed, except without a Pipeline because that is no longer needed.

Перевод

Вы можете использовать warm_start=Trueи позвонить .partial_fit()(вместо .fit()).

См. Здесь документацию по используемой модели, где она описывает этот аргумент и функцию соответственно.

По сути, вы будете загружать только часть данных за раз, запускать их через конвейер и вызывать Partical_fit в цикле. Это снизит требования к памяти, а также позволит вам тренироваться на всех данных, независимо от их количества.

РЕДАКТИРОВАТЬ

Как отмечено в комментариях, вышеупомянутый цикл будет работать только для прогнозирующей модели, поэтому предварительная обработка данных должна будет выполняться отдельно.

Вот решение для многократного обучения CountVectorizer.

Этот вопрос содержит реализацию TFIDF, которая не требует загрузки всех данных в память.

Таким образом, окончательным решением будет предварительная обработка данных в два этапа. Первый для CountVectorizer и второй для взвешивания TFIDF.

Затем, чтобы обучить модель, вы следуете той же процедуре, что и первоначально предложенная, за исключением того, что без конвейера, потому что это больше не нужно.

Answer 5 · 2019-05-21 20:19:25

в чем вопрос то? либо обучайте модель итерациями - обучили на одном куске данных, сохранили модель, взяли другой кусок данных. Либо как вариант, обучить десять моделей на разных данных, а предикт делать по результатам этих моделей.

Как классифицировать большие данные с использованием Sklearn?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт