Google发布“多巴胺”开源强化学习框架,三大特性全满足

Google发布“多巴胺”开源强化学习框架,三大特性全满足

[好文分享:www.ii77.com]

Google发布“多巴胺”开源强化学习框架,三大特性全满足 [好文分享:www.ii77.com]

编译整理 | Just

编辑 | 阿司匹林

出品 | AI科技大本营

强化学习是一种非常重要的 AI 技术,它能使用奖励(或惩罚)来驱动智能体(agents)朝着特定目标前进,比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手,它也是 DeepMind 的深度 Q 网络(DQN)的核心部分,它可以在多个 workers 之间分步学习,例如,在 Atari 2600 游戏中实现“超人”性能。

麻烦的是,强化学习框架需要花费大量时间来掌握一个目标,而且框架往往是不灵活和不总是稳定的。

但不用担心,Google 近日发布了一个替代方案:基于 TensorFlow 的开源强化学习框架 Dopamine(多巴胺)。 

Google 的博文中提到,这个基于 Tensorflow 的强化学习框架,旨在为 RL 的研究人员提供灵活性,稳定性和可重复性的研究。受到大脑..励动机行为的主要成分的启发,以及反映神经科学与强化学习研究之间强烈的历史联系,该..旨在实现可推动激进发现的思辨研究(speculative research)。此版本还包括一组阐明如何使用整个框架的 colabs。

除了强化学习框架的发布,谷歌还推出了一个网站(http://google.github.io/dopamine/baselines/plots.html),允许开发人员快速可视化多个智能体的训练运行情况。他们希望,这一框架的灵活性和易用性将使研究人员能积极尝试新的想法,不管是渐进式还是激进式的想法。

以下为 Google 博客详细内容:


Google发布“多巴胺”开源强化学习框架,三大特性全满足

引入灵活和可重复的强化学习研究的新框架


强化学习(RL)研究在过去几年中取得了许多重大进展。这些进步使得智能体可以以超人类级别的能力玩游戏。比如 Atari 游戏中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。

具体而言,在 DQN 中引入 replay memories 可以利用以前的智能体经验,大规模的分布式训练可以在多个 workers 之间分配学习过程,分布式方法允许智能体模拟完整的分布过程,而不仅仅是模拟它们期望值,以学习更完整的图景。这种类型的进展很重要,因为出现这些进步的算法还适用于其他领域,例如机器人技术。

通常,这种进步都来自于快速迭代设计(通常没有明确的方向),以及颠覆既定方法的结构。然而,大多数现有的 RL 框架并没有结合灵活性和稳定性以及使研究人员能够有效地迭代 RL 方法,并因此探索可能没有直接明显益处的新研究方向。此外,从现有框架再现结果通常太耗时,这可能导致科学的再现性问题。

今天,我们推出了一个新的基于 Tensorflow 的框架,旨在为 RL 的研究人员提供灵活性、稳定性和可重复性。受到大脑..励动机行为的主要成分的启发,以及反映神经科学与强化学习研究之间强烈的历史联系,该..旨在实现可推动激进发现的思辨研究(speculative research)。此版本还包括一组阐明如何使用整个框架的 colabs。


Google发布“多巴胺”开源强化学习框架,三大特性全满足

易用性


清晰和简洁是该框架设计中要考虑的两个关键因素。我们提供更精简的代码(大约 15 个Python 文件),并且有详细记录。这是通过专注于 Arcade 学习环境(一个成熟的,易于理解的基准)和四个基于 value 的智能体来实现的:DQN,C51,一个精心策划的 Rainbow 智能体的简化版本,以及隐式分位数网络(Implicit Quantile Network)智能体,这已在上个月的 ICML  大会上已经发表。我们希望这种简洁性使研究人员能够轻松了解智能体内部的运作状况,并积极尝试新的想法。


Google发布“多巴胺”开源强化学习框架,三大特性全满足

可重复性


我们对重复性在强化学习研究中的重要性特别敏感。为此,我们为代码提供完整的测试覆盖率,这些测试也可作为其他文档形式。此外,我们的实验框架遵循 Machado 等人给出的关于使用 Arcade 学习环境标准化经验评估的建议。


Google发布“多巴胺”开源强化学习框架,三大特性全满足

基准测试


对于新的研究人员来说,能够根据既定方法快速对其想法进行基准测试非常重要。因此,我们为 Arcade 学习环境支持的 60 个游戏提供四个智能体的完整..数据,可用作 Python pickle 文件(用于使用我们框架训练的智能体)和 JSON 数据文件(用于与受过其他框架训练的智能体进行比较);我们还提供了一个网站,你可以在其中快速查看 60 个游戏中所有智能体的训练运行情况。

下面展示我们在 Seaquest 上的 4 个代理的训练情况,这是由 Arcade 学习环境支持的一种 Atari 2600 游戏。

Google发布“多巴胺”开源强化学习框架,三大特性全满足

在 Seaquest 上的 4 名智能体参加了训练。x 轴表示迭代,其中每次迭代是 100 万个游戏帧(4.5 小时的实时游戏);y 轴是每场比赛获得的平均分数。阴影区域显示的是来自 5 次独立运行的置信区间。

我们还提供已经训练好的深度网络,原始统计日志以及用 Tensorboard 绘图的 Tensorflow 事件文件。这些都可以在网站的下载部分找到。

希望我们框架的灵活性和易用性将使研究人员敢于尝试新的想法,包括渐进式和激进式的想法。我们已经积极地将它用于我们的研究,并发现它能够灵活且快速迭代许多想法。我们很高兴可以为更大的社区做些贡献。

GitHub 链接:

http://github.com/google/dopamine/tree/master/docs#downloads

参考链接:

  • http://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

  • http://venturebeat.com/2018/08/27/google-releases-open-source-reinforcement-learning-framework-for-training-ai-models/

Google发布“多巴胺”开源强化学习框架,三大特性全满足Google发布“多巴胺”开源强化学习框架,三大特性全满足

热门文章

  1. 大侠给跪(大侠给跪为什么不更新了)2024-05-03
  2. 美国4月非农就业人数大幅不及预期,美股三大股指集体高开2024-05-03
  3. 【知识产权宣传周 】@云南人,身边的10起知识产权侵权典型案例,你知道否?2024-05-03
  4. 从胃炎到胃癌只有4步,5类人尤其危险!但一个方法就可能避免2024-05-03
  5. 绝世唐门之智慧武魂(绝世唐门之顶级武魂)2024-05-03
  6. 特区动态|深企专利创新实力百强出炉 百强企业国内发明专利有效量超全市总量40%2024-05-03
  7. 西游记沙僧闫怀礼去世(闫怀礼西游记所有角色)2024-05-03
  8. 苹果手机mac地址怎么查找(苹果手机mac地址怎么查找不到)2024-05-03
  9. 手背上有一个治疗 “ 结节 ” 的穴位 ,多灸它,好处甚多!2024-05-03
  10. 李一桐演过的电视剧有哪些(李一桐演过的电视剧有哪些)2024-05-03
  11. 中国人民志愿军战歌歌词(中国人民志愿军战歌歌词简谱)2024-05-03
  12. 偏头痛的原因和治疗方法(男性偏头痛的原因和治疗方法)2024-05-03
  13. 光荣之家门牌发放标准(光荣之家门牌发放要自己去领取吗)2024-05-03
  14. 农业银行卡余额查询方法(农业银行卡余额如何查询)2024-05-03
  15. 闲鱼二手自行车转让(闲鱼二手市场自行车)2024-05-03
  16. 恒生指数连续第九个交易日收涨,创2018年以来最长连涨纪录2024-05-03
  17. 碧桂园:4月合同销售金额约38.5亿元2024-05-03
  18. 微笑的英文(微笑的英文smiling)2024-05-03
  19. 杭州机场出发,“五一”假期热门目的地出炉!出境游别忘了这件事→2024-05-03
  20. 中国铁路客服中心(中国铁路客服中心服务网站)2024-05-03
自媒体 微信号:ii77 扫描二维码关注公众号
爱八卦,爱爆料。

小编推荐

  1. 1 机器学习将非结构化二级存储数据变为可全局访问的数据

    Cohesity的Helios可以将大量的二级存储从被浪费的资产转换成能够创造竞争优势的数据资产。

  2. 2 Magic Leap的“虚拟梦境”,终于梦碎了

    没有兑现任何承诺,Magic Leap 带来了一款平庸的产品

  3. 3 安全守卫者 唐博士带你“预见未来”

    这张图对于大家并不陌生,就是这张图使全球至少150个国家、超过30万名用户中招,造成损失达80亿美元

  4. 4 去哪儿网等33家单位被取消中国旅游景区协会会员资格!

    这个会员到底有什么用呢?

  5. 5 “跳高界吴彦祖”夺金了,他还是传说中的清华学霸!他还有个学霸老婆!

    导读 在8月27日进行的亚运会男子跳高决赛中,王宇获得金牌。但这位被称为“跳高界吴彦祖”的高颜值选手,实际上还是一位深藏不露的学霸…… 王宇跳高夺冠,中国28年后再次摘金

  6. 6 确认过眼神,你是我要找的灯

    灯光, 在一个家庭中, 起到照明、装饰的作用, 灯选的好, 家中气氛自是不一样。 卧室中, 造型别致的复古壁灯, 与同光同源的台灯, 壁灯的暖光晕染出舒适, 台灯柔和的光线

  7. 7 90后小夫妻,爆改90㎡的房,谁看了都羡慕!

    赵大喜和平四生活在杭州都是90后结婚时他俩买了一套90平米的二手房面积虽然不是很大但是个三居室他们还养了一只

  8. 8 后悔当初没装餐边柜,现在餐厅越用越小!

    餐边柜真的不只是拿来装碗筷的!

  9. 9 撅了 Supreme,它是在拒绝潮流吗?

    事实上是与各个单位都合作无间,只是不想加入你的炒作游戏而已

  10. 10 快闪店,为什么现在这么火?

    快闪店是一种不在同一地久留、俗称Pop-up shop的品牌游击店,指在商业发达的地区设置临时性的铺位,供零

本文内容来自网友供稿,如有信息侵犯了您的权益,请联系反馈核实

Copyright 2024.爱妻自媒体,让大家了解更多图文资讯!