Какие существуют подходы к решению задач оптимизации?

Question

kk86 @kk86

Какие существуют подходы к решению задач оптимизации?

Представим, что я пишу небольшую игру-стратегию, для простоты пошаговую. У всех игроков (корпораций) есть в распоряжении всего один вид ресурса — кредиты. Уплачивая кредиты, игроки могут приобретать: а) источники, производящие кредиты; б) юниты (единицы техники, потребляющие небольшое количество кредитов в каждый ход). Ещё игроки-корпорации могут брать ограниченные по размерам займы в Космобанке, которые они потом возвращают с процентами.

Вопрос: как мне написать функцию (для AI-игрока), которая бы могла мне сказать, какие действия надо предпринять в шаги игры s(1), s(2),… s(N-1), чтобы в шаг s(N) иметь X юнитов, затрачивая при этом минимум кредитов?

Полагаю, эта задача относится к классу задач оптимизации. Подскажите, какие методы и модели применяются для решения такого рода задач? Изменились ли бы подходы, если в игре было бы больше одного ресурса?

UPD1. Пока у меня были мысли о том, что можно было бы искать подходы/решения в:

— динамическом программировании;

— исследовании операций [в экономике];

— теории автоматического управления;

— генетических алгоритмах — нет гарантии достижения глобально оптимального решения;

— нейронных сетях — не знаком с ними, поэтому может быть вообще неприменимо.

Вопрос задан более трёх лет назад
4078 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

4 комментария

kk86 @kk86 Автор вопроса

Спасибо, почитаю и попытаюсь понять, как применить. Тут возникает вопрос, как строить граф, на котором алгорит Дейкстры будет работать. Первая мысль — граф должен быть деревом решений, перебирающем все варианты возможных решений вида «копить кредиты» и/или «покупать z юнитов» и/или «делать займ в Космобанке» на каждом ходу s(x)? А это задача не менее сложная, чем сам поиск оптимума на графе, даже сложнее. Не могли бы подсказать, как Вы видите применение алгоритма Дейкстры. Полагаю, моё представление несколько поверхностное.

Написано более трёх лет назад
Виталий Желтяков @VitaZheltyakov

Алгоритм Дейкстры осуществляет поиск оптимальной стратегии, но не строит стратегии. Сначала необходимо перебором построить граф стратегий, а потом применить к нему алгоритм Дейкстры для получения фиксированного результата.

«Первая мысль — граф должен быть деревом решений, перебирающем все варианты возможных решений вида «копить кредиты» и/или «покупать z юнитов» и/или «делать займ в Космобанке» на каждом ходу s(x)?»
— Что тут сложного? Элементарный перебор всех возможных действий.

Написано более трёх лет назад
kk86 @kk86 Автор вопроса

Я полагал, что есть что-то более изящное. Полный перебор это экспоненциальная сложность. К нему я бы прибегал лишь в крайнем случае. А так, да, ничего сложного. Просто очень неудачно выразился.

Написано более трёх лет назад
Виталий Желтяков @VitaZheltyakov

Проще не придумаете. Это математически оптимальные алгоритмы.
Если хотите чтобы было проще, то убирайте ветвление стратегий.

Написано более трёх лет назад

2 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 849 просмотров
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 581 просмотр
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 660 просмотров
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1365 просмотров
10

ответов
Программирование

Простой
Как создать и использовать свою кодировку знаков?
- 1 подписчик
- 02 июн.
- 728 просмотров
4

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 315 просмотров
0

ответов
Программирование

+1 ещё

Простой
Проект для программирования?
- 2 подписчика
- 27 апр.
- 880 просмотров
9

ответов
Программирование

Простой
Олимпиадное программирование — с чего начать?
- 1 подписчик
- 18 апр.
- 600 просмотров
2

ответа
Программирование

Простой
Как управлять/хранить изображения для UI?
- 1 подписчик
- 10 апр.
- 314 просмотров
1

ответ
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 385 просмотров
3

ответа
Показать ещё Загружается…

Answer 1 · 2012-07-25 12:54:14

Я думаю, эта задача очень близка к задачам теории оптимального управления. А именно — задача поиска оптимального программного управления. Если рассмотреть эту задачу в непрерывном времени, а также исключить для простоты займы в банке, то ее можно выразить следующим образом. Пусть состояние системы выражается вектором x[i] = {x1, x2, x3}, где:
x1 — количество фабрик кредитов
x2 — количество танков (юнитов)
x3 — количество кредитов в кассе

Тогда имеем следующие уравнения:

dx1/dt = u1 — скорость покупки новых фабрик кредитов. Эта величина задается регулятором, ее требуется найти по условию задачи
dx2/dt = u2 — скорость покупки новых танков. Аналогично, величина задается регулятором, ее требуется найти
dx3/dt = k1*x1 — k2*x2 — k3*u1 — k4*u2, где:
k1 — скорость производства кредитов фабриками
k2 — стоимость содержания танка за единицу времени
k3 — стоимость фабрик
k4 — стоимость танков

По условию задачи требуется минимизировать затраты, поэтому эффективность управления можно выразить с помощью интеграла. Для начала запишем затраты в каждый момент времени:
s = k2*x2 + k3*u1 + k4*u2

Общие затраты будут интегралом от этой функции:
I = integral from 0 to t1 of s * dt.

Далее, на управление и переменные состояния накладываются ограничения:
x3 >= 0 — баланс должен быть положительным;
u1 >= 0 — продажа фабрик запрещена;
u2 >= 0 — продажа танков запрещена.

В такой формулировке задача о поиске оптимального программного управления приводится на первых страницах учебников по теории оптимального управления.

Диф. уравнения, описывающие систему, являются, к счастью, линейными, поэтому ТОУ дает относительно легкие способы решения такой задачи. Разобравшись с решением задачи в непрерывном времени, можно будет перейти к решению в дискретном времени, хотя я думаю, оно будет сложнее.

Замечу, что в исходной формулировке в непрерывном времени решение задачи можно получить из эвристических соображений. Во-первых, танки требуют расходов на содержание. Поэтому, для минимизации затрат, нет смысла держать танки. Лучше купить их все в самый последний момент.

С танками разобрались. Получается, что до самого конца функционирования системы необходимо работать только на кредиты. Количество кредитов в кассе к концу работы должно равняться стоимости всех приобретаемых танков. Запишем все это в виде уравнений:

x2(t) = 0 при t<T, x2(T)=N — количество танков к концу работы
где T — время конца работы.
u2(t) = 0 при t<T, u2(T) = N*delta(t-T) — дельта-функция Дирака.
lim(t->T) x3(t) = k4*N — после покупки танков нет смысла оставлять деньги в кассе, поэтому количество денег в кассе к концу работы должно быть равно стоимости всех приобретаемых танков.

Остается решить вопрос с покупкой фабрик кредитов. Очевидно, фабрики есть смысл строить только до тех пор, пока они окупаются. Поскольку стоимость фабрик равна k3, а их производительность равна k1, то приравняем и получим:
k1*to = k3, где to — время окупаемости фабрик. Отсюда:
to = k3/k1.

В каких количествах надо строить фабрики? Если мы хотим максимизировать количество танков N — то нам следует максимизировать количество кредитов к концу работы. Следовательно, фабрики нужно строить по максимуму до тех пор, пока они окупаются. По максимуму — это значит, что весь начальный капитал и всю текущую прибыль необходимо вкладывать в фабрики, и перестать это делать в момент T-to. Во время T-to идет чистое накопление, а до этого времени деньги равны нулю. Следовательно:

lim(x3->0) = 0 — весь начальный капитал полностью пускаем на фабрики
x3(t)=0 при 0<t<T-to
x3(t)=k1*x1o*t при to<=t<T
где x1o — количество фабрик к моменту начала фазы накопления.

В каждый момент прибыль, приносимая фабриками, будет равна k1*x1(t). Вся эта прибыль до начала фазы накопления будет инвестироваться в покупку новых фабрик. Следовательно, имеем уравнение:
k1*x1 = k3*dx1/dt
Это простейшее диф. уравнение первого порядка, его решением является экспонента. Следовательно, количество фабрик во время фазы постройки будет расти экспоненциально, и таким же образом будет расти скорость покупки новых фабрик.

Но это я рассмотрел случай максимизации N при заданном T. по исходному условию задачи у нас заданы как T, так и N. Хоть это и менее интересный случай, желание заказчика — закон! Рассмотрим и его.

Поскольку затраты на постройку танков при заданном N минимизировать уже некуда, то из других затрат остаются только затраты на постройку фабрик. Их можно минимизировать исходя из того, чтобы иметь минимально возможное количество фабрик для накопления необходимого количества кредитов. Когда лучше покупать фабрики? Очевидно, в начале игры, так как чем дольше существуют фабрики — тем больше они дают прибыли. Поэтому и здесь все функционирование системы разобьется на 3 этапа: фаза постройки, фаза накопления и финальный аккорд по покупке танков. Количество денег в кассе в конце также будет равно стоимости приобретаемых танков. В свою очередь, в фазе накопления сумма в кассе будет линейно расти начиная от нуля в момент начала фазы накопления. Несложно составить уравнения, аналогичные приведенным выше, и рассчитать моменты перехода между фазами.