Несколько вопросов по работе с пакетом ml-agents

Дата: Суббота, 10 Июня 2023, 12:56 | Сообщение # 1

уже был

Сейчас нет на сайте

Добрый день. В качестве инструмента для обучения использую пакет "ml-agents". После нескольких недель работы с ним, у меня возникло несколько вопросов на которые я к сожалению не смог найти ответы.

1. Когда мы вручаем награду. Как наша модель понимает за что она была получена ? Т.е. когда DecisionPeriod = 1, здесь понятно, на этом шаге была получена награда в обозревателе зафиксировались значения при которых она была получена и всё логично. Допустим DecisionPeriod = 5, награда была получена на 3-ем шаге и когда мы снова зайдём в CollectObservations, наши параметры будут отличными от тех что были на 3 шаге. Увидев примеры с такими вводными я растерялся, так как это работает ?)

2. Должна ли положительная и отрицательная награда идти рука об руку? Приведу пример. Бот врезается в стену и мы его наказываем. Как только он отъехал, сработал oncollisionexit и мы его хвалим или в этом случае достаточно только наказать, показав что так делать не стоит.

3. Как понять какие данные стоит добавлять в обозреватель, а какие будут лишними ? К примеру я хочу попасть в движущуюся цель. Мне достаточно передать в AddObservation позицию цели относительно моего персонажа и velocity или нужна ещё дистанция т.к. рэндж стрельбы ограничен ? Или ещё один пример игрок врезался в стену, мы его за это штрафуем. Должны ли мы отслеживать не только позицию персонажа но и угол поворота в котором он находился?

4. В tensorboard можно посмотреть визуальные данные с нашего обучения. Есть ли возможность добавлять к наградам маркер события за который она была получена, чтобы это также можно было увидеть на графике ?

5. На какие обстоятельства мы должны обращать внимание при подборе конфигурации сети ? Что является критерием увеличения кол-ва слоев и нейронов ?
Буду признателен за любую помощь.

sdfscxzfdsfe3344