Sanders, веса же инициализируются случайными числами (glorot_uniform по умолчанию). Поэтому количественно ход обучения может немного отличаться, качественно - нет.
1. Для простых задач вполне CPU хватает.
2. На AWS, например, есть инстансы специально для машинного обучения. p3.2xlarge - это одна Tesla V100 с 16 Гб. Если делать spot instance, то выходит примерно $0.9/час. Если вы не собираетесь интенсивно 24/7 в течение нескольких месяцев обучать, то такой вариант бюджетнее.
Обучал на таком инстансе wav2letter. В память GPU модель не влезла, пришлось все веса в 4 раза сократить. Обучение заняло ~90 часов. Но это весьма хардкорная модель.
Михаил Луначарский, как получится. Сейчас ведь довольно много компаний, у которых есть данные такого рода. Любая компания, которая использует колл-центр (типа заказа такси или доставки пиццы) или службу техподдержки. По-моему, такие чатботы должны создаваться исходя из нужд конкретных заказчиков и под конкретный проект, а не в вакууме.
Второе бывает гораздо чаще, чем первое. Яндекс для своей Алисы вроде бы парсил различные форумы.
Плюс тут еще проблема, что бОльшая часть исследований в области ML производится англоговорящими учеными, поэтому для различных новых технологий датасеты тоже, в основном, на английском.
Вячеслав Шиндин: "превзойти бейзлайн" - это требует участия человека. Майнинг же должен быть полностью автоматизирован. Т.е. постановкой задачи может быть датасет + код для обучения, который надо выполнить (хотя там же всякие зависимости могут быть) + критерий успешности.
Не знаю, но может быть ссылкой на предыдущий блок может служить расширение датасета? Например, задача машинного перевода - сначала обучается сетка, которая переводит только одну фразу, эту же и еще одну, потом в итоге миллион (которые еще надо добавлять по какому-то принципу). Хотя тогда все предыдущие обученные будут не шибко полезные .
а) - это не так. Разве хэш от какого-то значения нельзя подделать? Надежность блокчейна исходит из того, что пока ты генеришь свой блок, майнеры по всему свету уже сгенерят 10, и их форк будет длиннее.
б) качество обучения нейронной сети легко проверить - прогнали тестовый датасет, получили, например, точность выше требуемого значения - значит, валидно.
zod ggs: мне просто кажется, что вес и количество должны описываться примерно одинаковым шаблоном - число+единица измерения, опционально с пробелом между ними или 'N' перед числом. Если их выкинуть, останется наименование+производитель, которые можно просто сравнивая со словарем определить.
parameu: так-то "полноценный бот" и "бот-подсказчик" отличаются минимально: всегда ли игрок-человек следует его решению (и выходит, что человек уже и не нужен) или учитывает еще и какую-то свою логику. Т.е. разница не внутри модуля бота, а вне его.
Где взять данные, тем более размеченные - это один из камней преткновения в машинном обучении.
Человек может обучиться распознавать облако\не облако на двух изображениях, потому что у него уже есть знание, как обычно выглядят облака, как выглядит земля, что обычно показывается на фотографиях из спутника и т.д. Нейронная сеть же начинает с чистого листа, для неё изображение - это просто набор пикселей.
Разве наличие облака - это единственный признак, по которому отличаются два изображения? На одном земля желтая, на другом - серая. Чтобы сеть могла понять, что это нерелевантные признаки для классификации, ей и нужно больше данных.
Так ли нужно машинное обучение? Нельзя ли определять просто по проценту белых или близко к белому пикселей?