Как присвоить мусорным описаниям книг дефолтную рубрику в датасете?

Question

sur-pavel @sur-pavel

Нейронные сети

Как присвоить мусорным описаниям книг дефолтную рубрику в датасете?

Есть код для обучения модели предсказывать рубрику книги по ее описанию. И есть датасет с описаниями книги и уже присвоенными рубриками. Список рубрик неизменен. Описание одной книги в основном занимает максимум 2 строки. Среди описаний есть такие, по словам которых можно точно определить рубрику, а есть такие по которым точно нельзя. Как присвоить описаниям, по которым нельзя определить рубрику, дефолтную рубрику без ручной обработки датасета в 70000 строк?

Вопрос задан более двух лет назад
109 просмотров

1 комментарий

Подписаться 1 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Stepik

AI-программирование | Экспресс-курс

2 недели

Далее
Skillbox

Нейросети: практический курс

3 месяца

Далее
Skillfactory

Data Scientist с нуля до PRO

25 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

6 комментариев

sur-pavel @sur-pavel Автор вопроса

Пустых рубрик нет. Для всех описаний есть рубрики. Можно ли на основе наличия, например, 5 связанных по семантике с рубрикой слов, вычленить разумные описания и использовать только их для обучения?

Написано более двух лет назад
Максим Припадчев @Maksim_64

sur-pavel, Ну это другой вопрос уже. То есть все labels у нас есть. Что значит вычислить? У тебя представление что есть некие формулы которые понимают текст? Твой текст будет закодирован в векторную форму many-to-many hot encodeing твой labels тоже будет закодирован в векторную форму one-to-many hot encoding. Далее он будет "учить" параметры модели которые минимизируют accuracy это будет метрика у loss функции. Остальное это вопрос препроцессинга, как входных так и выходных данных, что бы сделать обучение более простым и эффективным.

Написано более двух лет назад
sur-pavel @sur-pavel Автор вопроса

Максим Припадчев, есть какие-то модели, обученные на связанных по семантике словах. Их можно использовать для фильтрации дата-сета

Написано более двух лет назад
Максим Припадчев @Maksim_64

sur-pavel, Есть это предтренированные модели. У модели уже есть Матрицы весов для каждого слоя. Ты загружаешь модель, и используешь. Например huggingface, имеет в том числе и модели для распознования текста. К твоем вопросу это не имеет отношения никакого, ты собирался в вопросе тренировать модель. Предтренированные модели имеют уже веса. Их не тренируют, так настраивают параметры "тюнят". https://huggingface.co/docs/transformers/tasks/seq....

В общем закругляемся в нашем диалоге, это пустая трата времени на тебя, ты не понимаешь то что о чем спрашиваешь.

Написано более двух лет назад
sur-pavel @sur-pavel Автор вопроса

Максим Припадчев, так может предтренированная модель присвоить мусорную рубрику (одну для всех случаев, чтобы было ясно, что модель не справилась), если ее правильно натюнить? Или в этом просто не смысла?

Написано более двух лет назад
Vindicar @Vindicar

sur-pavel, ты можешь попробовать оценивать мусорность по уверенности модели. Т.е., условно, 5 рубрик, тебе модель сообщает что данный текст относится к первой рубрике с вероятностью 80%, а к остальным - порядка 5% (в сумме будет 100%). Это один случай, когда модель уверена в классификации. Если у первой рубрики 40%, а у остальных по 15% - это другой случай. Если у всех рубрик примерно по 20% - это третий случай. Тебе придётся определить, где на шкале "уверена - не уверена" ты проведешь черту. Но и тогда будут ошибки - модель может дать уверенную ложную классификацию.

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Системное администрирование

+2 ещё

Средний
Сервер с GPU предназначен ли для запуска фронтенда/бэкенда или он для вычислений?
- 1 подписчик
- 08 нояб.
- 300 просмотров
1

ответ
Нейронные сети

Простой
Как работать с планами в CursorAi?
- 2 подписчика
- 26 окт.
- 128 просмотров
1

ответ
Нейронные сети

Простой
Как надиктовывать текст голосом в Cursor?
- 1 подписчик
- 24 окт.
- 104 просмотра
1

ответ
Нейронные сети

Средний
Имеют ли нейросети или надстройки над ними возможность анализа «полноты» вопроса?
- 1 подписчик
- 23 окт.
- 91 просмотр
2

ответа
Нейронные сети

Сложный
Как организовать разбивку по таймкодам текста из 30000 слов?
- 1 подписчик
- 18 окт.
- 77 просмотров
0

ответов
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент.
- 99 просмотров
1

ответ
Нейронные сети

Средний
Каков объём данных, передаваемых между узлами ComfyUI и где они хранятся (RAM/VRAM/...)?
- 1 подписчик
- 28 сент.
- 88 просмотров
1

ответ
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1445 просмотров
5

ответов
Нейронные сети

Простой
Отечественные нейронки для кодинга и не только сентябрь 2025?
- 1 подписчик
- 22 сент.
- 264 просмотра
4

ответа
Нейронные сети

Простой
Какая AI модель дешевле в пересчете на решение задачи в программировании?
- 1 подписчик
- 21 сент.
- 283 просмотра
3

ответа
Показать ещё Загружается…

WordPress (PHP, HTML/CSS) разработчик

Epiic

от 90 000 ₽

Tech Lead Vue Frontend

Icons8

от 350 000 ₽

Маркетинговый аналитик

МТС Web Services • Грозный

от 60 000 ₽

Если нет кода python, не ставьте тэг python.

Answer 1 · 2023-09-29 11:24:25

Непонятна проблема. Ты пишешь

а есть такие по которым точно нельзя

Ну если нельзя точно - тогда делай нечетко. Ввведи метрику близости. Пускай это будет дистанция
по Левенштейну или по bi-gram, tri-gram. И раскладывай книжки по дистанции.

Вообще я-бы ввел рубрику "Прочее" и спокойно бы туда положил весь остаток.

Это знаешь как в зоологии. Когда открыли Австралию и узнали что среди животных есть утконос
- то пришлось всю классификацию зверей переделать. И ни у кого не было желания
впихивать бедного утконоса к утками или к барсукам.

Answer 2 · 2023-09-29 09:23:45

Не очень мне понятно в чем проблема.

1. То есть ты собираешься построить классификатор, на вход описание на выход, рубрика (Препроцессинг ты еще не делал, то есть пока там текст обычный). И вот все эти рубрики (target) заполнены кроме одной. А как оно у тебя хранится. Есть массив или pandas фрейм и там есть колонка рубрика с категориями, все заполнены а одна категория нет, на ее месте что пропущенные значения? Ну сделай замену всех пропущенных на свою дефолтную категорию. Там разные значения? Ну сделай проверку если значение принадлежит сету категорий (в которые ты можешь классифицировать), то оставляешь категорию не тронутой, если нет значит заменяешь на дефолтную.

2. глянь вот это https://medium.com/analytics-vidhya/labeling-an-un... (открывается с впн)

3. сделай кластерный анализ и потом каждому кластеру присвой свою категорию.

4. Надо помнить, что иногда бывают случаи что даже в big tech присваивают labels ручками. Да посмотри объявления все они нанимают просто людей видео смотреть (например) и затем его в определенную категорию классифицировать и т.д. То есть при подготовке тренировочных датасетов в качестве "разметчика" категорий принимают участие люди.

Имей ввиду, в ML нельзя задать детерменистическое поведение. Твоя функция активации на последнем слое переведет полученные значения в интервал от (0,1) при чем не 0 не 1 в него не войдут Ну и эти цифры будут использоваться как вероятности при классификации. У тебя будет вектор длинной количество категорий который складывается в 1 (100%). то есть например втрое значение 0.3 это 2 категория 30%. Ну и соответсвенно, он будет выбирать максимальное значение брать его индекс и это и будет категория. Но там никогда не будет значения со 100% или 0%. То есть те катеогории которые нельзя классифицировать он будет иногда ошибаться и классифицировать.

Как присвоить мусорным описаниям книг дефолтную рубрику в датасете?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт