Как тренировать Yolo, размер датасета, итоговый loss?

Question

Григорий Боев @ProgrammerForever

Учитель, автоэлектрик, программист, музыкант

Как тренировать Yolo, размер датасета, итоговый loss?

Привет. Тема для меня новая, есть несколько вопросов.

Хоту сделать приложение для детекции радиодеталей(полосатых резисторов для начала) на видеопотоке.
Первая задача - тренировать нейросеть. Спросил варианты у DeepSeek, он предолжил Yolo8-nano
Нашел размеченый датасет подходящий через гугл-поисковик датсетов.
Для тренировки использовал такой код:

from ultralytics import YOLO
import os

# Загрузка модели
# Используем yolov8n.pt, так как это nano-версия, подходящая для мобильных устройств
model = YOLO('yolov8n.pt')

# Путь к файлу data.yaml
data_yaml_path = os.path.join('data', '1', 'data.yaml')

# Проверка существования файла data.yaml
if not os.path.exists(data_yaml_path):
    print(f"Ошибка: Файл {data_yaml_path} не найден. Убедитесь, что путь указан верно.")
else:
    # Тренировка модели
    # epochs: количество эпох (можно увеличить для лучшего результата)
    # imgsz: размер изображения (640 - стандарт для YOLOv8)
    # data: путь к файлу data.yaml
    # project: название папки для сохранения результатов тренировки
    # name: название конкретного запуска тренировки
    # plots: True для сохранения графиков тренировки
    results = model.train(data=data_yaml_path, epochs=50, imgsz=640, project='runs/detect', name='resistor_detection_v1', plots=True)

    print("Тренировка завершена. Результаты сохранены в папке runs/detect/resistor_detection_v1")
    print("Графики тренировки можно найти в папке runs/detect/resistor_detection_v1/results.png и runs/detect/resistor_detection_v1/confusion_matrix.png")

Потом сконвертировал модель в другой формат:

from ultralytics import YOLO
model = YOLO('./runs/detect/resistor_detection_v1/weights/best.pt')
model.export(format='tflite')

И после добавил в этот проект, чтобы проверить как модель работает.
Итог: работает, но не очень хорошо.

Тема для меня новая, и это пока proof-of-concept, и есть несколько вопросов.
1) Yolo8-nano - оптимальный выбор или можно/нужно брать более современные модели?
2) Какой должен быть размер датасета? Какой характерный размер?
3) Сколько эпох тренировать? До каких значений потерь? Сейчас попробовал в colab зарядить 500 эпох с аугментацией датасета, результат такой:

Model summary (fused): 72 layers, 3,005,843 parameters, 0 gradients, 8.1 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 1/1 [00:00<00:00,  1.83it/s]
                   all         28         46      0.981          1      0.995      0.659

На каком-то моменте улучшения прекратились, и это лучший результат.
3) Для оптимизации по скорости нужно ли детектировать в оттенках серого? Или это необязательно и на производительности не скажется?
4) После детекции как лучше всего получить номинал резистора по полосам? Думал вырезать из оригинальной картинки по координатам, которые даст нейросеть детекции, и далее разворачивать и нормализовать картинку, и уже другая нейросеть или алгоритм будет смотреть на полосы и считать сопротивление. Такой путь имеет смысл? Чтобы не тренировать на исходной модели весь ряд резисторов, например, а только само понятие "резистор". Какой вариант тут подойдёт для второго шага?

Некоторые результаты детекции. Не видит/Плохо видит под углом, не видит с расстояния, есть детекция конденсаторов как резисторов и т.п.

Скрины

Буду рад любым советам, пояснениям, ссылкам на туториалы

Вопрос задан 13 июл.
1006 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

2 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Что не так с моими асинхронными запросами?
- 1 подписчик
- 20 авг.
- 144 просмотра
0

ответов
Python

Простой
Как в питоне генерировать (создавать+заполнять значениями по умолчанию) вложенный словарь так, чтобы вложенные элементы не были копиями друг друга?
- 1 подписчик
- 20 авг.
- 120 просмотров
1

ответ
Аналитика

+1 ещё

Простой
Какие есть эффективные средства анализа больших данных?
- 1 подписчик
- 20 авг.
- 98 просмотров
2

ответа
Python

+1 ещё

Простой
Из-за чего возникает ошибка неверный дескриптор?
- 1 подписчик
- 19 авг.
- 104 просмотра
1

ответ
Python

Простой
Непонимание ошибки yolo8?
- 1 подписчик
- 19 авг.
- 67 просмотров
0

ответов
Python

+1 ещё

Простой
Как грамотно изначально сделать телеграмм бота на Python с помощью aiogram чтобы выдерживал как минимум 10к пользователи и можно было масштабировать?
- 1 подписчик
- 18 авг.
- 232 просмотра
2

ответа
Python

Простой
Как сделать lock для двух асинхронных программ?
- 1 подписчик
- 18 авг.
- 131 просмотр
1

ответ
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 16 авг.
- 146 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 143 просмотра
1

ответ
Python

Простой
Что можно ускорить в коде решателя игры крестики нолики?
- 1 подписчик
- 16 авг.
- 233 просмотра
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2025-07-13 09:58:01

1) Уже есть 12 версия яло. И зачем ты взял нано версию?
2) С нейросетями нет такого, что взял А, Б и С и у тебя всё получилось. Количество обучающих картинок зависит от предполагаемого разнообразия. Если ты фотографируешь на цифровой фотоаппарат строго вертикально при хорошем освещении, то примеров нужно будет меньше, чем если фоткать на смартфон в тёмного подвале.
3) Как loss перестаёт уменьшаться или на проверочных данных он начнёт расти.
3) Проводишь эксперименты. Нет ответов не все случая жизни.
4) Да, возможно отдельная сеть, которая будет получать готовую развёртку, даст более стабильные варианты.

Проблему я тут вижу в датасете - его примеры с отдельными элементами не похожи на твои снимки с плат. Так что придётся создавать свой. Можно разметить 10 плат и дальше 11-ую путь уже сеть помогает тебе размечать.

Answer 2 · 2025-07-13 08:01:33

200 изображений и оно работает? На генерируй по больше изображений в датасете, поворотами и добавлением смазанного изображения и шумами алгоритмов сжатия видео, а так же наложениями нескольких объектов друг на друга. Еще можно собрать датасет на основе своих видео (твоя камера, твое освещение), просто вырезая из своих кадров box-ы распознанных элементов, собирать из них обучающую выборку (естественно модифицируя их как выше показано) и повторно тюнить модель.

Делай несколько снимков с чуть чуть сдвинутой камерой (например сдвинуто в сторону или повернута, можно программно делать) у всех алгоритмов искусственного зрения глюки обычно эпизодические, это видно на видео, внезапно пропадают детекции для случайных объектов, но на следующем кадре уже есть.

p.s. Есть алгоритмы сегментации (facebook SAM) которые просто выделяют объекты по контурам, эти алгоритмы можно совместить, распознавая сначала контуры, а затем, выделяя изображение с помощью этого контура (там изображение - маска), уже распозновай сам объект, так алгоритм будет работать с идеальными изображениями, на которых обучался.

Как тренировать Yolo, размер датасета, итоговый loss?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт