Где найти мне датасет для обучения малюсенькой LLM?

Question

Filipp42 @Filipp42

Где найти мне датасет для обучения малюсенькой LLM?

Добрый день!
Я мечтаю обучить свою небольшую LLM. Думаю, что размер её будет около 16 мегабайт.
Я хочу посмотреть, как она научится действительно понимать текст. Хотя бы на небольшой предметной области.

Мне важно, чтобы LLM научилась действительно понимать текст, а не просто его заучила. Для этого нужно избежать переобучения. Полагаю, что для этого датасет должен быть достаточно большим. Больше самой модели.

Скажите пожалуйста, где можно найти такой датасет? Мне желательно, чтобы к нему прилагались тесты.

LLM у меня на нестандартной архитектуре.

Заранее спасибо!

Вопрос задан 07 апр.
217 просмотров

8 комментариев

Подписаться 2 Средний 8 комментариев

Rsa97 @Rsa97

> чтобы LLM научилась действительно понимать текст

Не научится. LLM - это всего лишь продвинутый статистический анализатор. Никаким пониманием там не пахнет.

Написано 07 апр.
Filipp42 @Filipp42 Автор вопроса

Rsa97, Ну... Как посмотреть. Генерируемые тексты имеют смысл. А у маленьких моделей он часто имеет только структуру. У больших ЛЛМ ответ закрывает поставленную задачу.

Написано 07 апр.
Ronaldo @SWA512

Не выйдет, понимающие (плохо) текст модели начинаются от 1 гигабайта. Это сильно фильтрованные и сжатые производные от больших моделей. Потому что обучать модель на только на понимание текста (предмета) очень дорого. (просто предметную область нельзя обучить, нужные "начальные" веса "понимания" текста вообще)

Открытые датасеты есть например тут - https://huggingface.co/datasets

Написано 07 апр.
Filipp42 @Filipp42 Автор вопроса

Ronaldo, Хм... Даже не знаю... У меня вообще нет никакой возможности обучать модель на целый гигабайт!

Может быть, можно хоть как-то обучить модель так, чтобы она подавала признаки жизни? Чтобы можно было хоть как-то оценить, нормально она обучилась, или нет.

Написано 07 апр.
Filipp42 @Filipp42 Автор вопроса

Ronaldo, Мне нужно, чтобы модель научилась хоть как-то генерировать что-то минимально осмысленное. Тексты, которые генерирует модель, обученная на Шекспире пока больше похожа на зубрилу.

Написано 07 апр.
Filipp42 @Filipp42 Автор вопроса

Я думал обучить модель на арифметику...

Написано 07 апр.
Ronaldo @SWA512

Я не знаю вашу задачу. MiniGPT не даст ничего стоящего на мелких датасетах вроде Шекспира и одной видеокарты.
Чтобы модель вменяемо отвечала, нужны тысячи видеокарт и огромные датасеты.

Написано 07 апр.
d'Ivan @2ord

Filipp42, необязательно обучать модель арифметике.
Можно использовать модели, обученные для вызова функций (калькулятора, допустим), такие как FunctionGemma.

Написано 08 апр.

Помогут разобраться в теме Все курсы

Нетология

ИИ в медицине: как использовать в работе каждый день

8 недель

Далее
Академия Эдюсон

Нейросети в строительстве

2 месяца

Далее
Московская Бизнес Академия

Нейросети на практике

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинный перевод с одного языка на другой

+1 ещё

Сложный
Кто писал собственный NLP-пайплайн перевода слов?
- 1 подписчик
- 19 мая
- 73 просмотра
1

ответ
Нейронные сети

Простой
Есть ли нейросети для интерактивной работы с изображениями?
- 2 подписчика
- 13 мая
- 246 просмотров
2

ответа
Боты

+1 ещё

Простой
Какие посоветуете лучшие доступные LLM, для организации на её базе офисного бота?
- 2 подписчика
- 06 мая
- 344 просмотра
5

ответов
Нейронные сети

+1 ещё

Простой
Возможно ли создать ии агента для автоматической рассылки сообщений на сайте знакомств?
- 1 подписчик
- 19 мар.
- 179 просмотров
3

ответа
Карьера в IT

+2 ещё

Простой
Какие нейросети помимо ChatGPT эффективны в IT?
- 1 подписчик
- 03 мар.
- 1095 просмотров
9

ответов
Нейронные сети

+1 ещё

Простой
Можно ли настроить диалог с нейросетью как диалог с персонажем с заданными характеристиками?
- 2 подписчика
- 02 мар.
- 310 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Какую нейронку с API и web поиском можете посоветовать?
- 1 подписчик
- 01 мар.
- 160 просмотров
1

ответ
Нейронные сети

Простой
Можно ли запустить LLM без GPU?
- 1 подписчик
- 25 февр.
- 443 просмотра
3

ответа
Видео

+1 ещё

Простой
Существует ли хоть одна адекватная нейронка для создания видео 10-20 сек?
- 1 подписчик
- 16 февр.
- 418 просмотров
2

ответа
Показать ещё Загружается…

> чтобы LLM научилась действительно понимать текст

Не научится. LLM - это всего лишь продвинутый статистический анализатор. Никаким пониманием там не пахнет.
Rsa97, Ну... Как посмотреть. Генерируемые тексты имеют смысл. А у маленьких моделей он часто имеет только структуру. У больших ЛЛМ ответ закрывает поставленную задачу.
Не выйдет, понимающие (плохо) текст модели начинаются от 1 гигабайта. Это сильно фильтрованные и сжатые производные от больших моделей. Потому что обучать модель на только на понимание текста (предмета) очень дорого. (просто предметную область нельзя обучить, нужные "начальные" веса "понимания" текста вообще)

Открытые датасеты есть например тут - https://huggingface.co/datasets
Ronaldo, Хм... Даже не знаю... У меня вообще нет никакой возможности обучать модель на целый гигабайт!

Может быть, можно хоть как-то обучить модель так, чтобы она подавала признаки жизни? Чтобы можно было хоть как-то оценить, нормально она обучилась, или нет.
Ronaldo, Мне нужно, чтобы модель научилась хоть как-то генерировать что-то минимально осмысленное. Тексты, которые генерирует модель, обученная на Шекспире пока больше похожа на зубрилу.
Я думал обучить модель на арифметику...
Я не знаю вашу задачу. MiniGPT не даст ничего стоящего на мелких датасетах вроде Шекспира и одной видеокарты.
Чтобы модель вменяемо отвечала, нужны тысячи видеокарт и огромные датасеты.
Filipp42, необязательно обучать модель арифметике.
Можно использовать модели, обученные для вызова функций (калькулятора, допустим), такие как FunctionGemma.

Answer 1 · 2026-04-08 12:48:33

Для обучения крошечной LLM подойдут тематические датасеты вроде TinyStories. Большой корпус простых историй для emergent understanding без переобучения.

Где найти мне датасет для обучения малюсенькой LLM?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт