LeoJ12 | Дата: Суббота, 10 Июня 2023, 12:56 | Сообщение # 1 |
уже был
Сейчас нет на сайте
| Добрый день. В качестве инструмента для обучения использую пакет "ml-agents". После нескольких недель работы с ним, у меня возникло несколько вопросов на которые я к сожалению не смог найти ответы.
1. Когда мы вручаем награду. Как наша модель понимает за что она была получена ? Т.е. когда DecisionPeriod = 1, здесь понятно, на этом шаге была получена награда в обозревателе зафиксировались значения при которых она была получена и всё логично. Допустим DecisionPeriod = 5, награда была получена на 3-ем шаге и когда мы снова зайдём в CollectObservations, наши параметры будут отличными от тех что были на 3 шаге. Увидев примеры с такими вводными я растерялся, так как это работает ?)
2. Должна ли положительная и отрицательная награда идти рука об руку? Приведу пример. Бот врезается в стену и мы его наказываем. Как только он отъехал, сработал oncollisionexit и мы его хвалим или в этом случае достаточно только наказать, показав что так делать не стоит.
3. Как понять какие данные стоит добавлять в обозреватель, а какие будут лишними ? К примеру я хочу попасть в движущуюся цель. Мне достаточно передать в AddObservation позицию цели относительно моего персонажа и velocity или нужна ещё дистанция т.к. рэндж стрельбы ограничен ? Или ещё один пример игрок врезался в стену, мы его за это штрафуем. Должны ли мы отслеживать не только позицию персонажа но и угол поворота в котором он находился?
4. В tensorboard можно посмотреть визуальные данные с нашего обучения. Есть ли возможность добавлять к наградам маркер события за который она была получена, чтобы это также можно было увидеть на графике ?
5. На какие обстоятельства мы должны обращать внимание при подборе конфигурации сети ? Что является критерием увеличения кол-ва слоев и нейронов ? Буду признателен за любую помощь.
sdfscxzfdsfe3344
|
|
| |