关于机器学习中的强化学习,什么是Q学习?
Q学习是一种强化学习算法,其中包含一个“代理”,它采取达到最佳解决方案所需的行动。
强化学习是“半监督”机器学习算法的一部分。将输入数据集提供给强化学习算法时,它会从此类数据集学习,否则会从其经验和环境中学习。
当“强化代理人”执行某项操作时,将根据其是否正确预测(是采用正确的路径还是采取了正确的路径)来对其进行奖励或惩罚(奖励和惩罚不同,因为它们取决于手中的可用数据)。最便宜的)。
如果“加固代理人”获得奖励,它将朝着相同方向或相似路线移动。否则,如果对代理人进行惩罚,就可以理解为它给出的解决方案不是正确或最优的,并且需要找到更好的路径或输出。
增强剂与周围环境相互作用,对某些问题采取行动,从而确保最大程度地增加奖励/奖励。
为了更好地理解这一点,让我们以国际象棋为例。这个想法是让游戏中的每个玩家都采取行动来获胜(执行将死,将对手玩家的所有棋子脱掉,依此类推)。“代理人”将移动国际象棋的棋子,并改变棋子的状态。我们可以将国际象棋棋盘形象化为具有顶点的图形,并且“代理”从一个边缘移动到另一个边缘。
Q学习使用Q表来帮助座席了解并决定下一步应该采取的行动。Q表由行和列组成,其中每一行对应于每个国际象棋棋盘配置,列对应于代理可以采取的所有可能的移动(动作)。Q表还包含一个称为Q值的值,该值包含代理在采取行动并从当前状态转移到下一个状态时收到的预期奖励。
这个怎么运作?
让我们了解它是如何工作的。
在游戏开始时,Q表使用随机值初始化。
接下来,对于每个情节-
观察到代理的初始状态
对于剧集的每一步,
根据Q表中存在的策略选择新动作
观察到代理收到的奖励,并且代理进入新状态
使用“Bellman方程”更新Q表中存在的Q值
这一直持续到达到特定情节的结束阶段为止。
注意-在我们的示例中,一个情节可以理解为整个国际象棋游戏。否则,这只是一个问题的全部解决方案。