Задать вопрос
@Filipp42

Где найти мне датасет для обучения малюсенькой LLM?

Добрый день!
Я мечтаю обучить свою небольшую LLM. Думаю, что размер её будет около 16 мегабайт.
Я хочу посмотреть, как она научится действительно понимать текст. Хотя бы на небольшой предметной области.

Мне важно, чтобы LLM научилась действительно понимать текст, а не просто его заучила. Для этого нужно избежать переобучения. Полагаю, что для этого датасет должен быть достаточно большим. Больше самой модели.

Скажите пожалуйста, где можно найти такой датасет? Мне желательно, чтобы к нему прилагались тесты.

LLM у меня на нестандартной архитектуре.

Заранее спасибо!
  • Вопрос задан
  • 194 просмотра
Подписаться 2 Средний 8 комментариев
Помогут разобраться в теме Все курсы
  • Нетология
    ИИ в медицине: как использовать в работе каждый день
    8 недель
    Далее
  • Академия Эдюсон
    Нейросети в строительстве
    2 месяца
    Далее
  • Нетология
    Нейросети для анализа данных
    9 недель
    Далее
Пригласить эксперта
Ответы на вопрос 1
Для обучения крошечной LLM подойдут тематические датасеты вроде TinyStories. Большой корпус простых историй для emergent understanding без переобучения.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы