Восстановление 3D объектов методами машинного обучения, что я делаю не так?

Question

intTosha @intTosha

Восстановление 3D объектов методами машинного обучения, что я делаю не так?

Добрый вечер. Уже 3 месяца бьюсь над задачей восстановления 3D модели руки по фото.
Сгенерировал выборку данных - это 10 000 изображений руки сделанных в Blender, с разным положением костей. В качестве выходного вектора решил взять положения вершин 3D модели. (Да, я понимаю, что разумнее было задать положения костей, но я решил попробовать так)
Сделал аугментацию данных таким образом, что два одинаковых изображения в выборке встретить почти невозможно. (изображение руки накладывается на любую другую фотографию, и применяются фильтры, чтобы рука не выделялась на общем фоне. Так же добавлены шумы, имитирующие не очень хорошее качество съемки.) Выглядит одна из фотографий примерно так:

В Keras была построена модель сверточной нейронной сети (картинку предоставить не могу, так как не получилось установить graphvis).

inp = Input(shape=(res,res,3))
bath_0 = BatchNormalization(axis=1)(inp)
x1 = Conv2D(primitives, kernel_size=(9, 9), border_mode='same', activation='relu')(bath_0)
pool_1 = MaxPooling2D(pool_size=(2, 2))(x1)
bath_1 = BatchNormalization(axis=1)(pool_1)
x2 = Conv2D(primitives*2, kernel_size=(3, 3), border_mode='same', activation='relu')(bath_1)
x3 = Conv2D(primitives*2, kernel_size=(3, 3), border_mode='same', activation='relu')(x2)
x4 = Conv2D(primitives*2, kernel_size=(3, 3), border_mode='same', activation='relu')(x3)
pool_2 = MaxPooling2D(pool_size=(2, 2))(x4)
bath_2 = BatchNormalization(axis=1)(pool_2)
x5 = Conv2D(primitives*4, kernel_size=(3, 3), border_mode='same', activation='relu')(bath_2)
x6 = Conv2D(primitives*4, kernel_size=(3, 3), border_mode='same', activation='relu')(x5)
x7 = Conv2D(primitives*4, kernel_size=(3, 3), border_mode='same', activation='relu')(x6)
pool_3 = MaxPooling2D(pool_size=(2, 2))(x7)
x8 = Flatten()(pool_3)
x9 = Dense(1700,activation='relu')(x8)
d_1 = Dropout(0.5)(x9)
x10 = Dense(1700,activation='relu')(d_1)
d_2 = Dropout(0.5)(x10)
x11 = Dense(1700 ,activation='relu')(d_2)
out = Dense(out_size,activation='tanh')(x11)

Что у меня получилось сделать: обученная нейронка научилась сгибать кисть в правильном направлении, но пальцы всегда остаются в одном положении, вне зависимости от фото.
Кстати, поначалу была проблема: нейронка строила всегда одну и ту же модель (абсолютно идентичную). Решил тем, что добавил в выборку фотографии без руки. Выходной слой в таком случае получил ноль на все нейроны.

Да в чем проблема, объясни ты уже!
А проблема в том, что пальцы всегда находятся в одном положении для всех моделей. Сгибается только кисть. Как тут:

Пожалуйста ответе на следующие вопросы, ибо я уже не знаю на что думать.
1. В чем моя ошибка? Что я делаю не так?
2. Быть может стоит задуматься над использованием Convolution3D?
3. Как бы вы решили задачу на моем месте?

Благодарю за внимание.

Вопрос задан более трёх лет назад
319 просмотров

Комментировать

Подписаться 2 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

intTosha @intTosha Автор вопроса

Добрый вечер, спасибо большое за ответ.
Да, вы правы насчет выборки данных. Ранее пробовал сделать то же самое на однотонном фоне, и все получилось. Модель не всегда (почти никогда) отвечала правильно, но ответы давала разные.

Кстати в некотором роде решил проблему с жесткой аугментацией. Фотографии оставил те же с различным задним фоном, но предварительно на них обучил нейронную сеть, которая научилась очищать фото от лишней информации и оставлять только руку на черном фоне. После чего на получившихся изображениях обучалась первая нейронка.
К моему удивлению получилось добиться более менее сносных результатов. В 1 из 10 случаев она даже угадывала приблизительно верное положение руки :)

Позвольте задать еще один вопрос: как в таких случаях измеряют точность работы ИНС? Пытался найти что-то похожее в задачах генерации изображений по классу, но ничего не нашел. Не уверен, что это вообще целесообразно....

Спасибо большое за ссылку, я обязательно ее изучу.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 246 просмотров
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 134 просмотра
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 272 просмотра
1

ответ
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- 10 мая
- 92 просмотра
1

ответ
Машинное обучение

Средний
В чем преимущество позиционного кодирования синусами?
- 1 подписчик
- 25 апр.
- 106 просмотров
1

ответ
Машинное обучение

Простой
Как обучается трансформер?
- 1 подписчик
- 25 апр.
- 92 просмотра
1

ответ
Python

+2 ещё

Средний
GeForce GTX 1650 > RTX A2000 — как такое возможно?
- 2 подписчика
- 15 апр.
- 744 просмотра
2

ответа
Машинное обучение

+2 ещё

Средний
Какие архитектуры с механизмом внимания появились после transformer?
- 2 подписчика
- 11 апр.
- 171 просмотр
1

ответ
Python

+4 ещё

Средний
Как реализовать фарм-бота для игры Rush Royale?
- 1 подписчик
- 01 апр.
- 764 просмотра
2

ответа
Показать ещё Загружается…

React-разработчик (frontend) с опытом работы в области ML

DevTeam.Space

от 2 000 до 3 000 $

ML Engineer / Data Scientist (Middle+, 25h/w)

Perare

от 2 100 до 2 600 $

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Answer 1 · 2018-05-07 00:11:12

Может быть, датасет слишком сложный - начните с большего количества фоток и менее агрессивных аугментаций (можно начать просто с черного фона).

Ну и архитектура не очень подходит, почитайте, что делают в этой задаче последние годы https://github.com/xinghaochen/awesome-hand-pose-e...

Восстановление 3D объектов методами машинного обучения, что я делаю не так?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт