Где найти мне датасет для обучения малюсенькой LLM?
Добрый день!
Я мечтаю обучить свою небольшую LLM. Думаю, что размер её будет около 16 мегабайт.
Я хочу посмотреть, как она научится действительно понимать текст. Хотя бы на небольшой предметной области.
Мне важно, чтобы LLM научилась действительно понимать текст, а не просто его заучила. Для этого нужно избежать переобучения. Полагаю, что для этого датасет должен быть достаточно большим. Больше самой модели.
Скажите пожалуйста, где можно найти такой датасет? Мне желательно, чтобы к нему прилагались тесты.
Rsa97, Ну... Как посмотреть. Генерируемые тексты имеют смысл. А у маленьких моделей он часто имеет только структуру. У больших ЛЛМ ответ закрывает поставленную задачу.
Не выйдет, понимающие (плохо) текст модели начинаются от 1 гигабайта. Это сильно фильтрованные и сжатые производные от больших моделей. Потому что обучать модель на только на понимание текста (предмета) очень дорого. (просто предметную область нельзя обучить, нужные "начальные" веса "понимания" текста вообще)
Ronaldo, Хм... Даже не знаю... У меня вообще нет никакой возможности обучать модель на целый гигабайт!
Может быть, можно хоть как-то обучить модель так, чтобы она подавала признаки жизни? Чтобы можно было хоть как-то оценить, нормально она обучилась, или нет.
Ronaldo, Мне нужно, чтобы модель научилась хоть как-то генерировать что-то минимально осмысленное. Тексты, которые генерирует модель, обученная на Шекспире пока больше похожа на зубрилу.
Я не знаю вашу задачу. MiniGPT не даст ничего стоящего на мелких датасетах вроде Шекспира и одной видеокарты.
Чтобы модель вменяемо отвечала, нужны тысячи видеокарт и огромные датасеты.