从零开始强化学习(五)——Deep Q-network(DQN)
五. Deep Q-network(DQN)
现实中强化学习面临的状态空间往往是连续的,存在无穷多个状态。这种情况下,就不能再使用表格对价值函数进行存储,采用价值函数近似(Value Function Approximation)的方式进行逼近
在连续的状态和动作空间中,可以用函数来表示近似计算:
其中函数通常是一个参数为的函数,比如神经网络
5.1 状态价值函数(State Value F