Задать вопрос
@Filipp42

Где найти мне датасет для обучения малюсенькой LLM?

Добрый день!
Я мечтаю обучить свою небольшую LLM. Думаю, что размер её будет около 16 мегабайт.
Я хочу посмотреть, как она научится действительно понимать текст. Хотя бы на небольшой предметной области.

Мне важно, чтобы LLM научилась действительно понимать текст, а не просто его заучила. Для этого нужно избежать переобучения. Полагаю, что для этого датасет должен быть достаточно большим. Больше самой модели.

Скажите пожалуйста, где можно найти такой датасет? Мне желательно, чтобы к нему прилагались тесты.

LLM у меня на нестандартной архитектуре.

Заранее спасибо!
  • Вопрос задан
  • 59 просмотров
Подписаться 1 Средний 7 комментариев
Помогут разобраться в теме Все курсы
  • Нетология
    Нейросети для анализа данных
    9 недель
    Далее
  • Яндекс Практикум
    Нейросети для работы
    2 месяца
    Далее
  • Skillbox
    Нейросети. Практический курс
    3 месяца
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы