温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Google开源TensorFlow强化学习框架示例分析

发布时间:2021-12-23 16:31:45 来源:亿速云 阅读:195 作者:柒染 栏目:互联网科技

Google开源TensorFlow强化学习框架示例分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

谷歌宣布开源基于 TensorFlow 的强化学习框架——Dopamine。

强化学习是一种人工智能(AI)技术,它使用奖励(或惩罚)来驱动agent朝着特定目标前进,比如之前大火的Alpha Go击败人类顶尖围棋选手,还有在 Dota2 对战人类职业玩家的Open AI Five。同时,强化学习也是DeepMind 的深度Q 网络(DQN)的核心部分,可以在多个workers 中分配学习,例如,在Atari 2600游戏中实现“超人”性能。麻烦的是,强化学习框架需要时间来掌握一个目标,往往是不灵活的,也不够稳定。

这就是谷歌提出替代方案的原因:基于TensorFlow的开源强化学习框架——Dopamine,从今天开始,它可以从Github获得。

(https://github.com/google/dopamine/tree/master/docs#downloads)

谷歌研究人员表示,他们开源的这个 TensorFlow 强化学习框架强调三点:灵活、稳定和可重复性。

受到主要组件之一大脑中奖励动机行为行为的启发,以及反映神经科学和强化学习的研究之间的联系,这个平台的目的是使推测性研究推动根本性的发现,此版本还包括一组阐明如何使用整个框架的colabs。

易用性

为此,它包括了一套精心编写的代码(15个Python文件),专注于Arcade学习环境(一个用视频游戏评估AI技术的平台)以及四种不同的机器学习模型:上述提到的深度Q 网络(DQN); C51; Rainbow agent的一个简化版本; Implicit Quantile Network agent。清晰和简洁是这个框架设计中的两个关键考虑因素。

可重复性

为了实现强化学习的可重复性,代码在Arcade学习环境支持的60个游戏中提供完整的测试覆盖率和训练数据(采用JSON和Python pickle格式),并遵循标准化结果以进行实证评估的最佳实践。

基准测试

对于新的研究者来说,对自己的想法进行快速的基准测试是非常重要的。谷歌提供四个智能体的完整训练数据,包括ALE 支持的60 个游戏,格式为Python pickle 文件(对于使用谷歌框架训练的智能体)和JSON 数据文件(用于对比其他框架训练的智能体)。谷歌还提供了一个网站,研究者可以使用该网站对所有提供智能体在所有60 个游戏中的训练运行进行快速可视化。

Google开源TensorFlow强化学习框架示例分析

谷歌的4 个智能体在Seaquest 上的训练运行(Seaquest 是ALE 支持的Atari

除此之外,谷歌还推出了一个网站,允许开发人员将多个训练中智能体的运行情况快速可视化。它还提供经过训练的模型、原始统计日志和TensorFlow event files,用于TensorBoard动态图的绘制,TensorBoard是一个web应用可视化套件。

Google开源TensorFlow强化学习框架示例分析

“我们的希望是,我们的框架的灵活性和易用性将使研究人员能够尝试新的思想,无论是渐进的还是激进的。”

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注亿速云行业资讯频道,感谢您对亿速云的支持。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI