什么是强化学习?它与监督学习和无监督学习有何不同?
在强化学习方法中,经过训练的代理与特定环境交互并根据该环境的当前状态采取行动。
强化学习的工作如下-
首先,您需要准备一个具有一些特定策略集的代理。
现在让代理观察环境的当前状态。
基于代理的观察,选择最优策略,并执行合适的动作。
根据采取的行动,代理将获得奖励或惩罚。
如果需要,更新步骤1中使用的策略集。重复步骤1-4的过程,直到代理学习并采用最优策略。
众所周知,监督学习方法在训练过程中同时获取训练数据及其相关输出。但是无监督学习方法不需要任何标签或响应以及训练数据,它们从给定的原始数据中学习模式和关系。而在强化学习方法中,代理以离散的步骤与特定环境交互。
如果我们谈论输出,监督学习方法预测基于类类型,无监督学习方法发现潜在模式,但在强化学习方法中,存在学习代理工作的奖励和行动系统。
热门推荐
10 小红书平安祝福语简短
11 生日祝福语大全女孩简短
12 收生日红包祝福语 简短
13 领证幽默祝福语简短
14 法考面试祝福语简短
15 老哥出门祝福语简短语
16 送灯祝福语简短独特
17 幼儿狗年祝福语大全简短
18 好听的元旦简短祝福语