Задать вопрос
@LionelCrowl

Как увеличить выборку для обработки нейронной сетью?

Классификация для нс.
Есть 1700 объектов, из них 130 объектов класса А, 1570 объектов класса Б. К каждому объекту дано 130 характеристик, путем отбора по мультиколлинеарности (тау Кендалла больше 0,7) и с помощью генетических алгоритмов к вероятностным сетям (statistica 6.1) было отобрано 50 значимых характеристик. Дальше в том же пакете хочу запустить mlp для классификации этих объектов, но подать я могу только 260 (по 130 каждого класса), потому что иначе нс просто априори будет относить все объекты к классу Б, однако читал, что количество параметров (весов?) в нс должно быть в 10 раз меньше, чем выборка. Очевидно, что если следовать этому правилу, то на скрытом слое будет пара нейронов, а этого, по идее, мало. Нужно как-то увеличить эти 130 штук класса А. Мысли идут в направлении размножения путем дополнения случайного шума по каждой характеристике, но это не точно. И ещё, возможно, стоит отобрать из характеристик только те, что с нормальным распределением, а потом уже шум добавлять или на основе эмпирических характеристик достроить как-то.
Языков программирования не знаю, подскажите, пожалуйста, программный продукт с реализованным увеличением выборки или иные способы решения данной проблемы, тоже, желательно, реализованные программно :)
  • Вопрос задан
  • 562 просмотра
Подписаться 1 Простой Комментировать
Пригласить эксперта
Ответы на вопрос 3
sgjurano
@sgjurano
Разработчик
Обычно делают иначе: создают все возможные признаки, которые могут придумать, потом расширяют датасет любыми возможными методами, а потом сэмплируют из него батчи таким образом, чтобы на протяжении одной эпохи обойти весь датасет и обходят его раз 100 или больше, посматривая на график функции потерь на валидации.
Ответ написан
Arseny_Info
@Arseny_Info
R&D engineer
На датасете такого размера нейронные сети лучше не использовать, аугментация не поможет.
Ответ написан
Комментировать
@imageman
Ну, во-первых, все-таки можно попробовать учить и на всём массиве доступных данных (пусть и перекошенном в сторону Б). Если хотите, можете тупо размножить класс А.

Второе - посмотрите в сторону других классификаторов. Например дерево (или лес) решений.

Если задача уже решена, то можете рассказать как решили?
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы