Классификация больших текстов через обучение с учителем — какие подходы существуют?

Question

Страга Севера @OUGHT

Junior Ruby & RoR fan

Нейронные сети

Классификация больших текстов через обучение с учителем — какие подходы существуют?

Здравствуйте, товарищи.

Я недавно начал изучение нейросетей, но уже загорелся этой тематикой, и начинаю обдумывать свои пришедшие в голову pet project-ы.
Собственно, мне очень хочется сделать нейросеть, классифицирующую большие (от 5кБ до 100-200 кБ) тексты на русском языке на несколько заранее известных групп. Проблема в том, что я никак не могу найти информации по поводу обучения с учителем на больших текстах - те статьи, что я находил, описывают случаи небольших (менее 1 кБ) текстов. Будут ли эти примеры работать, будучи смасштабированы в сто раз?
К тому же, второстепенная проблема в том, что я не совсем знаю, какие дополнительные сложности принесет обработка текстов на русском, а не английском языке. Падежи, роды и числа наверняка без специальной обработки будут смущать сеть.
И наконец, я не совсем уверен, что такая задача по силу моим вычислительным мощностям. Обучаться на (десятках?) тысяч текстов размером от пары килобайт до пары сотен килобайт - по силам ли эта задача средненькому компьютеру, или для такого размаха нужны десятки серверов, и мне с моими возможностями следует урезать леща?

Собственно, прошу советов опытных товарищей - по возможностям ли мне эта задача, и какие подходы можно использовать для ее решения?..

Вопрос задан более трёх лет назад
469 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

ИИ в медицине: как использовать в работе каждый день

8 недель

Далее
Академия Эдюсон

Нейросети в строительстве

2 месяца

Далее
Бруноям

ИИ-агенты и n8n

2 месяца

Далее

Решения вопроса 1

7 комментариев

xmoonlight @xmoonlight

дима кубитский,
"Наши корабли бороздили просторы до тех пор, пока не наткнулись на искомую станцию." - тематика?)

Написано более трёх лет назад
⚡ Kotobotov ⚡ @angrySCV

xmoonlight, для меня очевидно, что например слово "станция" дало бы большой вес для тематик - "космос", "фантастика", остальные вполне нейтральные слова, еще корабли бы дали какую-нибудь тематику - морскую и космическую, ну суммарно было бы космическая на первом месте, морская на втором.
для его алгоритма будет зависеть от обучения, и количества признаков. Мало слов хуже определяет тематичность, больше слов - точнее определять будет.

Написано более трёх лет назад
xmoonlight @xmoonlight

дима кубитский, так..., а если добавим кавычки к слову "корабли"?
Наши "корабли" бороздили просторы до тех пор, пока не наткнулись на искомую станцию.
Поменяется ли что-нибудь в весах тематик?

Написано более трёх лет назад
⚡ Kotobotov ⚡ @angrySCV

xmoonlight, если не очищать, то это будет для модели как отдельное слово, можно и такому научить, если часто встречать например слова с кавычками, но лучше использовать стемминг - что позволяет очищать все слова, приводя к "нормальному" виду, например все слова с маленькой буквы, без всяких спец символов, без окончаний и тд.

Написано более трёх лет назад
xmoonlight @xmoonlight

дима кубитский, ну вот, поэтому нужно не по словам делать определение тематики, а по смыслу текста :)
Даже в таком простом случае, как этот - определение точной тематики не представляется возможным даже Вам, не говоря уже про анализ компьютерным алгоритмом...

Написано более трёх лет назад
⚡ Kotobotov ⚡ @angrySCV

xmoonlight, есть задача например классификации текста, а не ПОНИМАНИЯ его смысла. Мы классифицируем по признакам, это успешно работает, и решает например задачу классификации.
Можно высасывать из пальца какие при этом проблемы есть, я смотрю на то что нам это дает.
А дает нам это очень много, например возможность создания рекомендательных систем.

Написано более трёх лет назад
Страга Севера @OUGHT Автор вопроса

Спасибо за советы, товарищи. Примерно это я и мечтаю сделать =-)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

9 комментариев

Страга Севера @OUGHT Автор вопроса

Это - моя мечта, а не проект, который я буду пытаться делать прямо сейчас. Для меня очевидно, что это будет крайне сложная система, и мне нужно будет прочитать куда больше книг, чем "Make Your Own Neural Network", которую я дочитываю сейчас. Я просто заранее хотел узнать подводные камни и overview методик, которые можно будет применить при реализации моей мечты - примерно то, что ответил дима кубитский =-)

Написано более трёх лет назад
xmoonlight @xmoonlight

Страга Севера, поймите простую вещь: можно считать количество слов и проставлять веса и получить нечто, похожее на ожидаемое, но АБСОЛЮТНО не работающее.
А можно сделать сразу нормально и создать систему, анализирующую СМЫСЛ контентного содержания (отношения и связи между частями речи и т.д.) и получить КОРРЕКТНУЮ систему классификации текстов.
Понимаете?

Вот явный пример:
Наши "корабли" бороздили просторы до тех пор, пока не наткнулись на искомую станцию.
Никто так и не вспомнил про пустыню и верблюдов, про пшеничные поля и комбайны, про одну из компьютерных игр и т.д. ...
Верный ответ: Данный текст не поддаётся классификации, т.к. "веса" по всем возможным классам не имеют перевеса, т.е. они - одинаковые.

Это самый простой пример, показывающий, что не всё так радужно)

Написано более трёх лет назад
Страга Севера @OUGHT Автор вопроса

Именно поэтому я хочу анализировать тексты в десятки килобайтов, а не в доли килобайта =-)

Впрочем, ваш аргумент понятен. И каким же образом, по-вашему, стоит анализировать "смысл"?

Написано более трёх лет назад
xmoonlight @xmoonlight

Страга Севера, с помощью алгоритмов тензорфлоу, марковских "цепей", морфологии и т.д.

Написано более трёх лет назад
Страга Севера @OUGHT Автор вопроса

Благодарю вас, почитаю информацию по этим алгоритмам =-)

Написано более трёх лет назад
⚡ Kotobotov ⚡ @angrySCV

Страга Севера,
Человек пытается вас запутать (возможно потому что сам запутался, с подходами и методами), ВАМ на первых порах важно сосредоточится на фундаментальных подходах, а не на всей этой мишуре, с названиями и фреймворками. Чтоб не попасть в ловушку когда люди изучают сотни все новых и новых технологий/фреймворков которые делают ОДНО и тоже одними и темеже методами, подавая это под разными соусами. Даже сами подходы типа марковские цепи, метод опорных векторов, деревья решений, нейросети, все является лишь классификаторами входящих сигналов, и все они работают примерно по одним и темже принципам и дают примерно одни и теже результаты и практически друг от друга не отличаются.

Написано более трёх лет назад
Страга Севера @OUGHT Автор вопроса

Большое спасибо и вам. Буду изучать как "фундаментальные" методы, так и "мишуру", чтобы составить собственное представление об их сравнительной применимости =-)

Написано более трёх лет назад
xmoonlight @xmoonlight

дима кубитский,
все они работают примерно по одним и темже принципам и дают примерно одни и теже результаты и практически друг от друга не отличаются.
Ну, да... А все же кругом - дураки?!)

Написано более трёх лет назад
⚡ Kotobotov ⚡ @angrySCV

xmoonlight, что значит дураки? вы сами там что-то выдумали, я этого не говорил.
Мне очень сложно в рамках сообщений, обосновать вам то что большинство методов отличаются в совсем незначительных деталях, и фактически об одном и томже.
Что например логистическая регрессия, это частный случай регрессии, а нейросеть это набор логистических регрессий, что метод опорных векторов это частный случай нейросети и тд и тому подобное.
Но мне этого и не требуется делать, пускай человек разбирается изучает теорию, и для себя приходит к каким-то выводам.
П. С.
я заметил что вы очень много говорите, но мало по делу.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

Простой
Как решить проблему с генерацией видео в Kling AI?
- 1 подписчик
- 09 июл.
- 62 просмотра
1

ответ
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 109 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 286 просмотров
2

ответа
Нейронные сети

Средний
Как в AI ToolKit для тренировки LorA указать свои модели?
- 1 подписчик
- 09 июн.
- 69 просмотров
1

ответ
Нейронные сети

Простой
Есть ли нейросети для интерактивной работы с изображениями?
- 2 подписчика
- 13 мая
- 287 просмотров
2

ответа
Боты

+1 ещё

Простой
Какие посоветуете лучшие доступные LLM, для организации на её базе офисного бота?
- 2 подписчика
- 06 мая
- 404 просмотра
5

ответов
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 245 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Возможно ли создать ии агента для автоматической рассылки сообщений на сайте знакомств?
- 1 подписчик
- 19 мар.
- 195 просмотров
3

ответа
Карьера в IT

+2 ещё

Простой
Какие нейросети помимо ChatGPT эффективны в IT?
- 1 подписчик
- 03 мар.
- 1285 просмотров
9

ответов
Нейронные сети

+1 ещё

Простой
Можно ли настроить диалог с нейросетью как диалог с персонажем с заданными характеристиками?
- 2 подписчика
- 02 мар.
- 341 просмотр
1

ответ
Показать ещё Загружается…

Answer 1 · 2017-10-15 11:53:30

А какой смысл вам переживать, получится или не получится? начните делать, хуже от этого никому не будет.
По поводу подводных камней, само собой если вы принимаете за фитчу (сигнал), в нейросети например 1 слово, то увеличивая количество слов вы усиливаете этот сигнал - тексты где больше слов будут выдавать большие значения сигналов, где меньше слов - меньшие значения, поэтому вам нужно использовать нормализацию этих сигналов, грубо говоря например делить размер сигнала на количества слов в тексте, для каждого текста (ну и так будет "честнее" сравнивать, тексты разного обьема).
По поводу падежей, родов - для этого используют стемминг, предварительную очистку текста от такой специфики (приведение текста в нейтральный вид). По поводу английский или русский - разницы никакой (только спемминг нужно под русский сделать), само обучение не имеет разницы.
Для обучения по текстам, можно даже компьютеры из 90х использовать, все будет работать.

Answer 2 · 2017-10-15 11:55:02

Хотелось бы узнать перед ответом:
1. Что уже Вы прочитали?
2. Что попробовали делать?
3. Что получилось и на чём остановились?

Answer 3 · 2017-10-15 11:56:07

хотеть не вредно

рекомендую все же идти классическим путем, осваивать инструменты и понятия, это избавит от неверных (и зачастую, идиотских) предпосылок

например, уж что-что, а большой текст классифицировать легко обычным TF IDF + векторной близостью

Классификация больших текстов через обучение с учителем — какие подходы существуют?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт