OUGHT
@OUGHT
Junior Ruby & RoR fan

Классификация больших текстов через обучение с учителем — какие подходы существуют?

Здравствуйте, товарищи.

Я недавно начал изучение нейросетей, но уже загорелся этой тематикой, и начинаю обдумывать свои пришедшие в голову pet project-ы.
Собственно, мне очень хочется сделать нейросеть, классифицирующую большие (от 5кБ до 100-200 кБ) тексты на русском языке на несколько заранее известных групп. Проблема в том, что я никак не могу найти информации по поводу обучения с учителем на больших текстах - те статьи, что я находил, описывают случаи небольших (менее 1 кБ) текстов. Будут ли эти примеры работать, будучи смасштабированы в сто раз?
К тому же, второстепенная проблема в том, что я не совсем знаю, какие дополнительные сложности принесет обработка текстов на русском, а не английском языке. Падежи, роды и числа наверняка без специальной обработки будут смущать сеть.
И наконец, я не совсем уверен, что такая задача по силу моим вычислительным мощностям. Обучаться на (десятках?) тысяч текстов размером от пары килобайт до пары сотен килобайт - по силам ли эта задача средненькому компьютеру, или для такого размаха нужны десятки серверов, и мне с моими возможностями следует урезать леща?

Собственно, прошу советов опытных товарищей - по возможностям ли мне эта задача, и какие подходы можно использовать для ее решения?..
  • Вопрос задан
  • 455 просмотров
Решения вопроса 1
angrySCV
@angrySCV
machine learning, programming, startuping
А какой смысл вам переживать, получится или не получится? начните делать, хуже от этого никому не будет.
По поводу подводных камней, само собой если вы принимаете за фитчу (сигнал), в нейросети например 1 слово, то увеличивая количество слов вы усиливаете этот сигнал - тексты где больше слов будут выдавать большие значения сигналов, где меньше слов - меньшие значения, поэтому вам нужно использовать нормализацию этих сигналов, грубо говоря например делить размер сигнала на количества слов в тексте, для каждого текста (ну и так будет "честнее" сравнивать, тексты разного обьема).
По поводу падежей, родов - для этого используют стемминг, предварительную очистку текста от такой специфики (приведение текста в нейтральный вид). По поводу английский или русский - разницы никакой (только спемминг нужно под русский сделать), само обучение не имеет разницы.
Для обучения по текстам, можно даже компьютеры из 90х использовать, все будет работать.
Ответ написан
Пригласить эксперта
Ответы на вопрос 2
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Хотелось бы узнать перед ответом:
1. Что уже Вы прочитали?
2. Что попробовали делать?
3. Что получилось и на чём остановились?
Ответ написан
dimonchik2013
@dimonchik2013
non progredi est regredi
хотеть не вредно

рекомендую все же идти классическим путем, осваивать инструменты и понятия, это избавит от неверных (и зачастую, идиотских) предпосылок

например, уж что-что, а большой текст классифицировать легко обычным TF IDF + векторной близостью
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы