【强化学习 RL】强化学习的应用领域

在强化学习中,我们使用奖惩机制来训练agents。Agent做出正确的行为会得到奖励,做出错误的行为就会受到惩罚。这样的话,agent就会试着将自己的错误行为最少化,将自己的正确行为最多化。
1、强化学习在新闻推荐领域的运用

在新闻推荐领域,用户的喜好不是一成不变的,仅仅基于评论和(历史)喜好向用户推荐新闻无法一劳永逸。基于强化学习的系统则可以动态跟踪读者反馈并更新推荐。
构建这样一个系统需要获取新闻特征、读者特征、上下文特征和读者阅读的新闻特征。其中,新闻特征包括但不限于内容、标题和发布者;读者特征是指读者与内容的交互方式,如点击和共享;上下文特征包括新闻的时间和新鲜度等。然后根据用户行为定义奖励函数,训练RL模型。

2、强化学习在无人驾驶的运用

很多论文都提到了深度强化学习在自动驾驶领域中的应用。在无人驾驶中,需要考虑的问题是非常多的,如:不同地方的限速不同限速,是否是可行驶区域,如何躲避障碍等问题。
有些自动驾驶的任务可以与强化学习相结合,比如轨迹优化,运动规划,动态路径,最优控制,以及高速路中的情景学习策略。
比如,自动停车策略能够完成自动停车。变道能够使用q-learning来实现,超车能应用超车学习策略来完成超车的同时躲避障碍并且此后保持一个稳定的速度。

3、强化学习在金融贸易中的应用

有监督的时间序列模型可用来预测未来的销售额,还可以预测股票价格。然而,这些模型并不能决定在特定股价下应采取何种行动,强化学习(RL)正是为此问题而生。通过市场基准标准对RL模型进行评估,确保RL智能体正确做出持有、购买或是出售的决定,以保证最佳收益。
通过强化学习,金融贸易不再像从前那样由分析师做出每一个决策,真正实现机器的自动决策。例如,IBM构建有一个强大的、面向金融交易的强化学习平台,该平台根据每一笔金融交易的损失或利润来调整奖励函数。

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页