Как увеличить выборку для обработки нейронной сетью?

Question

LionelCrowl @LionelCrowl

Как увеличить выборку для обработки нейронной сетью?

Классификация для нс.
Есть 1700 объектов, из них 130 объектов класса А, 1570 объектов класса Б. К каждому объекту дано 130 характеристик, путем отбора по мультиколлинеарности (тау Кендалла больше 0,7) и с помощью генетических алгоритмов к вероятностным сетям (statistica 6.1) было отобрано 50 значимых характеристик. Дальше в том же пакете хочу запустить mlp для классификации этих объектов, но подать я могу только 260 (по 130 каждого класса), потому что иначе нс просто априори будет относить все объекты к классу Б, однако читал, что количество параметров (весов?) в нс должно быть в 10 раз меньше, чем выборка. Очевидно, что если следовать этому правилу, то на скрытом слое будет пара нейронов, а этого, по идее, мало. Нужно как-то увеличить эти 130 штук класса А. Мысли идут в направлении размножения путем дополнения случайного шума по каждой характеристике, но это не точно. И ещё, возможно, стоит отобрать из характеристик только те, что с нормальным распределением, а потом уже шум добавлять или на основе эмпирических характеристик достроить как-то.
Языков программирования не знаю, подскажите, пожалуйста, программный продукт с реализованным увеличением выборки или иные способы решения данной проблемы, тоже, желательно, реализованные программно :)

Вопрос задан более трёх лет назад
585 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 3

2 комментария

LionelCrowl @LionelCrowl Автор вопроса

1) Датасет - данные (т.е. примеры для изучения?) расширяют не математически/программно?
2) Получается, одним из решений будет взять все 1700, но каждый раз менять обучающую выборку так, чтобы по валидационной всё было ок?
3) Как вы думаете, лучше не отсекать переменные мультиколлинеарностью без нужды? Типа информация для нс может потеряться

Написано более трёх лет назад
Владимир Олохтонов @sgjurano

LionelCrowl,
1) да, и так и так, а еще просто пытаются больше данных набрать откуда только можно, чем больше данных, тем больше информации, сеть всё прожует и еще добавки попросит :)
2) да, взять все, из них сэмплировать по 32 штуки случайных 256 раз на эпоху, так прогнать 100 эпох (конкретные числа надо подбирать под задачу)
3) под ИНС пока не подведена теоретическая база, критерий истины - эксперимент.

PS:
Без программирования вам будет тяжело, стоит освоить Python, вот по этой специализации, например: https://www.coursera.org/specializations/machine-l...

Для нейронных сетей рекомендую pytorch: pytorch.org

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 79 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 79 просмотров
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 147 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 257 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 41 просмотр
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 65 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 62 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 223 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 162 просмотра
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Сетевой инженер

МТС • Владивосток

от 100 000 ₽

Answer 1 · 2018-04-30 15:04:24

Обычно делают иначе: создают все возможные признаки, которые могут придумать, потом расширяют датасет любыми возможными методами, а потом сэмплируют из него батчи таким образом, чтобы на протяжении одной эпохи обойти весь датасет и обходят его раз 100 или больше, посматривая на график функции потерь на валидации.

Answer 2 · 2018-05-07 00:14:25

Арсений Кравченко @Arseny_Info

R&D engineer

На датасете такого размера нейронные сети лучше не использовать, аугментация не поможет.

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2018-12-22 12:09:43

Ну, во-первых, все-таки можно попробовать учить и на всём массиве доступных данных (пусть и перекошенном в сторону Б). Если хотите, можете тупо размножить класс А.

Второе - посмотрите в сторону других классификаторов. Например дерево (или лес) решений.

Если задача уже решена, то можете рассказать как решили?

Как увеличить выборку для обработки нейронной сетью?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт