представляю время, когда мы будем для роботов тем же, чем сейчас собаки являются для людей, и болею за машины.
Она лежит в основе так называемой временной задачи присваивания коэффициентов доверия — в определении того, какое состояние и/или действие привело к получению вознаграждения. Когда у задачи есть временная составляющая, а у действия — отложенные последствия, наградам сложно присвоить коэффициенты доверия.
Еще одна важная причина широкого использования коэффициента дисконтирования — сокращение дисперсии возвращаемых значений.