当前位置:主页 > 葫芦岛 >

建材资讯宝

深度强化学习中的好奇心

    本文是AI研究所编写的一个技术博客。最初的标题是《深层强化中的好奇心》。

    本文是AI研究所编写的一个技术博客。最初的标题是:

    深度强化学习的好奇心

    作者|迈克尔·克莱尔

    翻译|缩写2018

    校对|酱梨涂饰|菠萝女孩

    链接到原始文本:

    Http://towardsdata..com/holio.-in-.-.ment-.-.-.-network-.llation-747b322e2403

    深度强化学习中的好奇心

    早期密集学习的困难任务之一,Montezuma的复仇,在探索随机网络蒸馏方面取得了重大突破(来源:Parker兄弟博客)。

    Atari游戏是深层强化学习(RL)算法的一个流行的基准任务。Atari很好地平衡了简单性和复杂性:一些游戏(如Pong)是如此简单,以至于它们可以通过基本算法(如一般策略梯度)来解决,而其他游戏则足够复杂以至于可以击败甚至最先进的算法。

    在最简单和最复杂的游戏之间的一系列有用的任务已经成为许多深入加强学习研究论文的核心。

    来自OpenAI博客。

    前者“未解决”的阿塔里游戏,蒙提祖马的复仇,最近已经解决了一个算法(在某种程度上),可以在得分上超过人类表现。研究人员可以鼓励代理人在1级探索不同的房间,这是赢得游戏积分的好方法。

    通过好奇心探索

    人类在玩冒险游戏时有一种内在的探索欲望,比如蒙提祖玛的复仇。游戏设计者构建这样的游戏来鼓励这种行为,通常需要玩家在继续游戏之前进行探索。这就是为什么冒险游戏很有趣。(问任何喜欢玩天空游戏的人。)

    像Montezuma的《复仇》或《天空》这样的冒险游戏充分利用了玩家探索的自然欲望,使得探索成为游戏任务的关键部分。

    深度强化学习算法执行“探索”的典型方法是通过随机策略:从神经网络提供的动作似然分布中随机采样动作。因此,特别是在早期阶段(当策略没有时间收敛时),它是随机行动的明显选择。

    这种方法在某些情况下是有效的。例如,Pong的解决方案是随机旋转桨并观察结果。幸运的是,球偏转可以启动优化。

    在像蒙特祖马的复仇游戏中,这种方法是不可行的。想象一下,从游戏的开始,化身随机地左右移动,随机地跳跃。结果,化身掉进熔岩中或直接进入敌人而没有获得点数。没有积分或奖励,算法无法得到优化的信号。

    那你会随便甩一甩吗?祝你好运。

    好奇

    重点放在寻找更好的探索方法上。基于好奇心的探索可以看作是激发人类玩家好奇心的一种尝试。

    但是,我们如何创建一个好奇的代理呢?

    有很多方法可以实现这个想法。其中之一,甚至使用下一个状态预测,由于其简单性和可伸缩性而很有趣。

    其基本思想是同时培养独立的预测模型和策略模型。预测模型输入所观测到的当前状态和所选择的动作,并对下一次观测进行预测。

    为了探索足够的轨迹,我们假设损失很小(因为我们通过监督学习不断开发预测模型);对于探索不足的轨迹,我们假设损失很大。

    那么,我们能做的就是创建一个新的奖励函数(称为“内在奖励”),它提供与预测模型的损失成比例的奖励。因此,当探索新的轨迹时,代理接收到强烈的奖励信号。

    (a)一级学习探索(b)二级快速探索

    使用马里奥模拟器任务(来源)中的下一个预测,学习探索从第一级的好奇心转移到第二级的快速探索。

    这项技术在超级马里奥模拟器中产生了一些令人鼓舞的结果。

    拖延症代理人:电视问题

    这项技术并不完美。一个已知的问题是代理被环境中的随机或噪声元素所吸引。这种时钟情况有时被称为“白噪声”问题或“电视问题”;也称为“拖延”。

    为了证明这种效果,设想一个代理人通过观察他所看到的像素来学习在迷宫中导航。

    下一状态预测引起代理人学习成功导航迷宫的好奇心。

    代理人很好地完成了任务;他开始寻找迷宫中未被探索的部分,因为他有能力在探险丰富的地区做出好的预测(或者换句话说,他不能在未开发地区做出好的预测)。

    现在在迷宫的墙上放一个“电视”,快速连续地显示随机选择的图像。由于图像的随机来源,代理不能准确预测接下来会出现什么图像。该预测模型将产生高损耗,从而为代理商提供高“内在”回报。最终的结果是,特工们倾向于停止看电视,而不是继续探索迷宫。

    在环境(源)中,当代理人面对电视或随机噪声源时,下一个状态预测引起代理人的好奇心,最终导致“拖延”。

    为了避免延误,采用随机网络蒸馏。

    OpenAI的一些优秀人员最近发表了一篇论文,提出了噪声电视问题的解决方案,探讨了随机网络蒸馏(RND)。

    这里的新思想是将类似的技术应用到下一个状态预测方法,但是消除对先前状态的依赖。

    下一状态预测相对于RND(源)的概述。

    RND并不预测下一个状态,而是观察下一个状态并试图预测下一个状态。这是一个非常微不足道的预测,不是吗?

    RND随机网络的目的是采用这种小的预测任务,并将其转化为硬预测任务。

    使用随机网络

    这是一个聪明但违反直觉的解决方案。

    其思想是我们使用随机初始化神经网络将观测值映射到潜在的观测向量。函数本身的输出并不重要;重要的是,我们有一些未知的确定性函数(随机初始化的神经网络),以某种方式转换观测值。

    因此,我们的预测模型的任务不是预测下一个状态,而是预测给定观测状态的未知随机模型的输出。我们训练该模型使用随机网络输出标签。

    当代理处于熟悉的状态时,预测模型应该能够很好地预测随机网络的期望输出。当智能体对状态不熟悉时,预测模型会对随机网络的输出做出较差的预测。

    通过这种方式,我们可以定义一个内在的奖励函数,它再次与预测模型的损失成比例。

    内部报酬计算的概念概述。只使用下一个观察状态。

    这可以解释为“新奇性检测”方案,其中当进行新的观测或不熟悉的观测时,预测模型具有较高的计算损失。

    作者使用MNIST作为这个概念的证明。在本实验中,他们通过随机初始化神经网络提供MNIST样字符。然后,在给定的输入条件下,它们训练并行网络来预测随机网络的输入。如预期,当目标类的训练样本数量增加时,它们将看到目标类被并行网络丢失。

    数据2:MNIST上的新奇性检测:预测器网络模拟随机初始化的目标网络。训练数据包括不同比例的图像和目标类别与“0”类别。每个曲线都表示MSE测试显示的目标类的训练用例的数量(对数)。

    论文对MNIST概念进行了验证。

    这样,当代理看到随机噪声源时,它不会被卡住。它不需要试图预测屏幕上下一个不可预测的帧,只需要知道这些帧是如何通过随机网络转换的。

    探寻蒙太祖玛的复仇

    由于解决方法不佳,以往的状态预测的好奇机制并不能解决蒙台梭玛的复仇问题,但RND似乎已经克服了这些问题。

    好奇心驱使的代理人探索房间,学习收集钥匙,这样他们就可以打开新房间。

    尽管取得了这样的成功,但是代理仅“偶尔”通过了一级。这是因为通过最后一道门来完成检查点,需要严格管理密钥的使用。需要内部状态模型(如LSTM)来克服这一障碍。

    因此,虽然RND已经允许代理人在得分上超过一般人的表现,但是在掌握游戏之前还有很长的路要走。

    这是关于深度强化学习算法的实验的一系列文章的一部分。查看本系列以前的一些帖子:

    理解演进的战略梯度。

    感谢卢多维奇·本尼斯坦特。

    要继续查看本文的链接和参考资料吗?

    长时间点击链接打开或点击底部[好奇心在深度强化学习]:

    Http://ai.yanxishe.com/page/Text./1363

    AI协会每天更新精彩内容,观看更多精彩内容:雷锋网、雷锋网和雷锋网。

    五大CNN架构

    深度强化学习中的好奇心

    使用Pytorch进行深度学习(第一部分)手柄:使用PyTorch实现图像分类器(第二部分)

    等待您翻译:

    如何为初学者聚类混沌数据以使用Keras进行迁移学习增强学习:对于情绪行为系统,如果你想学习数据科学,这七个资源不能错过

当前文章:http://elisabeth.smuligt.com/tmq/574721-539910-65272.html

发布时间:05:15:54

广州设计公司  工业设计  广州外观设计  广州外观设计  广州外观设计  二四六彩  工业设计  工业设计  工业设计  万彩吧  广州设计公司  

{相关文章}

卫生保健行业人员规定:我如何欺骗老年人购买卫生保健产品?健康护理产品|健康护理专家

    具有讽刺意味的是,当我回到家时,我发现我祖母经常参加健康讲座,并根据推销员的推荐购买健康产品。我如何欺骗老年人购买医疗保健产品?2017年3月28日,一名男子推开门,将保健品扔到桌上。如果你敢再到我家来,我就把你打垮!”我说这话时,那个人正指着我的鼻子。我认识他。他是附近一位退休祖父的儿子。这套保健品价值8000多元。我在卫生中心的同事们看到了更多这样的场景,并且没有和男人发生太多的身体冲突。频道经常为送他出去而道歉。这件事不会对“健康厅”产生任何影响。今天,将会有“健康专家”的讲座。会有一群老人来收集鸡蛋,还有很多东西等着我去准备。2015年1月,浙江温州的一家“生物技术”公司招聘我在中医大学。面试官没有告诉我这是保健产品的销售。在与公司签订合同后,我和同事被温州总部安排在雁荡山参加为期一周的封闭式培训。这种训练类似于洗脑,每天早上5点起床,早上跑步,喊口号,户外运动,小组比赛。在培训过程中,管理者不断强化公司销售的保健品只是媒介的概念,我们应该为老年人带来健康和友谊。公司的“老人”不断地讲述他自己的经历,描述了一系列的前景,如良好的团队氛围和大的改进空间。他们只有二十七八岁,只工作了四五年。一位女雇员说,她在不到五年的时间里就完成了用所有的钱买qq群出租_党风廉政建设总结网房子的目标。”我可以和女孩一起做!你们为什么不能?这句话激起了我们的斗志,使我对未来充满了期待。培训结束后,我被送到义乌的“健康中心”学习六年多。有些老人已经购买了超过五年的医疗保健产品,每年要花费数万美元。老年人甚至仔细分析保健产品对其他犹豫不决的老年人的好处。长期购买医疗保健产品的老年人可能不会从心里认可医疗保健产品,但他们需绿色豆芽_中美大都会人寿网要自我认同和自我辩解。当有人问及医疗保健产品的质量时,为了保持面子,老人们会说是。没有一个老人愿意承认他愚蠢.如果不是,这不是在打人吗?”公司一次又一次地给我洗脑,我几乎相信保健产品的神奇功效。开拓者。2015年春节过后,我和几位同事被派到浙江省嘉兴市先锋队,建立新的保健馆。“健康大厅”选在一个老住宅区,那里有许多老年人,他们都是目标客户。每天早上我们打电话给老人来店里测量血压,用亲切的语气和老人交谈。这位老人不会抗拒的。公司拥有一批专门培养保健品销售人员“说话技巧”的人员,以及一套必须背诵的理论和知识体系。我们通常不叫他们祖父母,而是叫他们叔叔和婶婶。因为他们比较年轻;医疗保健产品不能说是医疗保健产品,可以说“医疗保健食品”,有了“食品”这个词,老年人就很容易放下警惕……聊天仍然是为了“筛选客户”。一盒保健品要几千元甚至几万元。老年人是否有钱,他们有多少钱,他们是否关心自己的钱,直接关系到他们是否能买得起医疗保健产品,他们能买得起哪些价格范围的医疗保健产品。为了研究客户,我们每天晚上6点关门时都会举行5小时的会议。四五个人会想念一位老人,分析他的性格、家庭和收入,并为第二天制定计划。该计划包括确定与老年人交谈的下一个主题,有时是细致的,在与老年人的会议的第一句话中说什么,以及在老年人对不同的情况作出反应之后如何作出反应。健康馆经常组织健康会议,用鸡蛋、大米、生态健康杯和印度弹跳球_rg防水涂料网健康袜吸引老年人。“生态健康杯”是由总部定制来寻找厂家的。当他们向老人们宣传时,他们只需要让老人们感到“这个杯子非常好,来免费送给您”。“健康专家”善于调动现场的最新flash_篮球火结局网气氛,制造疾病恐慌。老年人有很强的替代意识。健康专家“推销”一款名为“纳豆”的健康产品时说,这是中国科学院院士的研究成果,通过复杂的提取大豆芯的粘性物质的过程,可以有效地治疗心脑血管疾病,最后,退却“如果病情,哟”。你可以试着吃一点。”不要直接建议老人买。事实上,这种“复杂的过程”是一种常见的压制方法。它不可能治愈心脑血管疾病,也不是中国科学院院士的研究成果。在“健康专家”讲座结束后,我们将与主办方合作鼓掌和掌声,使整个场地“热血沸腾”。许多老人不相信,但是因为他们吃鸡蛋、米饭和肥皂,他们通常不会公开地问我们。为了销售我们的产品,我们将创造“饥饿营销”和“优惠促销”的错觉。我们将与那些关系密切的老年人保持联系。不管我们是否愿意,我们将“抢”所谓的优惠券,把它们放在老人面前,说服他们签字。在软磨硬泡下,老年人往往选择签名。签名并不意味着购买。为了避免忏悔,售货员会在一小时内将“纳豆”送到老人家,直接拿刀打开包装,让老人数数和检查货物,并建议老人当场吃“生米煮熟饭”。甚至陪老人到银行取款,当场完成交易。这位老人最终不会因为爱而拒绝。82岁的倪阿姨骗的钱最多,他的妻子也去世了,孩子都在外地工作,每月的养老金超过2000元,是我们的“优质客户”。倪阿姨一直说她的病情不好,我也没有强迫她买,但我们之间有一个对话:倪阿姨:小K,我的家庭状况真的不好,每月的养老金只有2000多元,你们总是在450000元保健品上,我简直买不起!倪阿姨没事。公司规定我们应该把我们的产品告诉顾客。你来不来我们店都是你的事,但不是我的事。否则,公司会给我们发工资的。我感到不安。倪阿姨:小K,你每个月有几家公司?小K:我们的月基本工资是1800,会有一些佣金。倪阿姨:我买你的产品时你拿到佣金了吗?肖克:是的,一大盒保健品通常要从二百元中扣除。倪国美总部_防毒墙网阿姨:年轻人出来工作不容易。告诉我你们的产品。我会仔细听的。事实上,我的基本工资是2500元,而且委员会不但是200元,而且是8%,只是为了让老人们觉得我辛勤而富有同情心。倪阿姨确实相信了,并且非常认真地听我说。后来,在“健康讲座”之后,我安排倪阿姨和“健康专家”开始磋商。那时,我们房间里只有三个人,“健康专家”非常准确地“诊断”了倪阿姨的病情。我一直在问“健康专家”和“纳豆”这对倪阿姨的健康是否有益。在肯定了“健康专家”的益处后,我继续为他的优惠待遇“努力”。卫生专家“犹豫不决”。但在我的“软磨硬泡沫”下,我终于放手,答应卖一盒价值8000元以上的“纳豆”和一系列礼物送给倪阿姨。“健康专家”还用非常神秘的声音对倪阿姨说:“姐姐,这个提议实在不多,城里很少有人能得到,你出去的时候千万不要告诉别人。”咨询前一天,我把倪阿姨的情况介绍给“健康专家”。这次磋商更像是事先导演的“双簧管”,所谓的“优惠”只是我们演戏的产物。倪阿姨后来买了价值超过120000元的保健品,在一个半月里花了20000多元,我得到了1600多元的佣金。当一个老人成为顾客时,我每天花8个小时陪他,和他一起购物,为他做饭。这位老人在家里很孤独。他每天去看他,每天送他一些水果,和他聊天。老年人把推销员当作他们的孙子。当老人家断电时,首先想到的不是他的孩子,而是推销员。晚上,当老人生病的时候,陪他去医院的不是他的孩子,而是推销员。我们组织了一次为期三天的杭州旅游,费用为120元,“健康馆”包括住宿、交通和景点门票。实际成本远高于120元。在这些旅游项目中,老年人白天乘船和唱歌,老年人爬山时背包,老年人晚上喝足水和蚊香。经过三天的旅游,超过80%的老年人会购买医疗保健产品。一位老人说:“买产品不是很好,但是你对我很好。我不能让你对我那么好,以致于我赚不到钱。“但是像这样的友谊不是所有老人都能得到的。”越有责任心,越富有,越愿意付钱,他们享受的服务就越好。并非所有的医疗保健公司都这样做。医疗保健产品是一个有利可图的行业。有些人把它当作赚钱的工具,这导致了今天的混乱。有些“游击队”几乎遍布全国各地,吹嘘、射击、卖东西、逃跑,一个城市的老人们也依次陷入困境。此外,由于卫生保健行业标准的松散,一些产品本身存在有毒有害的质量问题。在山东跳海的老人被这种公司谋杀了。2015年,我连续三个月获得保健中心销售冠军。每个月,我可以卖给5-10个月收入几万元的老年人。这对于一个在三线城市工作的年轻人来说太高了。我很高兴,我疯了。那时,我一个月工作29天,从早上7点开始工作到下午12点,没有任何疲劳。然而,好时光并不长。2015年10月,我和健康馆的另一位同事发生了利益冲突,这让我突然清醒过来。虽然我有很多顾客,但只有不到20%的人是真正自愿购买的,但大多数老年人被迫购买半推。我用了太多的方法,吃得太丑,所以毫无意义,不是正确的方式。具有讽刺意味的是,当我回到家时,我发现我祖母经常参加健康讲座,并根据推销员的推荐购买健康产品。我的第一反应是劝她不要买,但是奶奶不听,我终于不坚持了,很明显,那疯狂原始人影评_会动的桌面网个推销员对她来说足够好了。

Copyright @ 2016-2017 避孕环哪种好网 版权所有

https://www.c8.cn/ylsj/heb11x5.htmlhttps://www.c8.cn/ylsj/cqssc.htmlhttps://www.c8.cn/ylsj/pk10.htmlhttps://www.c8.cn/zst/dlt/hqcs.htmlhttps://www.c8.cn/zst/dlt/zxsh.htmlhttps://www.c8.cn/zst/dlt/hqely.htmlhttps://www.c8.cn/zst/dlt/hqjo.htmlhttps://www.c8.cn/zst/dlt/jozs.htmlhttps://www.c8.cn/zst/dlt/dxyl.htmlhttps://www.c8.cn/zst/qlc/chuwuzs.htmlhttps://www.c8.cn/zst/qlc/zxsh.htmlhttps://www.c8.cn/zst/qlc/joyl.htmlhttps://www.c8.cn/zst/pl5/zhihezs.htmlhttps://www.c8.cn/zst/pl5/dxzs.htmlhttps://www.c8.cn/zst/pl3/elyyl.htmlhttps://www.c8.cn/zst/pl3/elyzs.htmlhttps://www.c8.cn/zst/pl3/dxzs.htmlhttps://www.c8.cn/zst/pl3/sqzs.htmlhttps://www.c8.cn/zst/6cai/sxzs.htmlhttps://www.c8.cn/zst/6cai/tmts.htmlhttps://www.c8.cn/zst/qxc/jofx.htmlhttps://www.c8.cn/zst/qxc/qsyl.htmlhttps://www.c8.cn/zst/ssq/lqcw.htmlhttps://www.c8.cn/zst/ssq/tmzs.htmlhttps://www.c8.cn/zst/ssq/zxsh.htmlhttps://www.c8.cn/zst/ssq/hzzs.htmlhttps://www.c8.cn/zst/ssq/elyzs.htmlhttps://www.c8.cn/zst/ssq/sqzs.htmlhttps://www.c8.cn/zst/ssq/dqzs.htmlhttps://www.c8.cn/zst/3d/hzyl.htmlhttps://www.c8.cn/zst/3d/dxfx.htmlhttps://www.c8.cn/zst/3d/dxzs.htmlhttps://www.c8.cn/zst/3d/zhbzs.htmlhttps://www.c8.cn/zst/bjkl8/dxzs.htmlhttps://www.c8.cn/zst/52.htmlhttps://www.c8.cn/zst/cqssc/qsxt.htmlhttps://www.c8.cn/zst/17.htmlhttps://www.c8.cn/zst/35.htmlhttps://www.c8.cn/zst/20.htmlhttps://www.c8.cn/zst/gd11x5/dsiwzs.htmlhttps://www.c8.cn/zst/40.htmlhttps://www.c8.cn/zst/50.htmlhttps://www.c8.cn/jihua/shk3.htmlhttps://www.c8.cn/gaoshou/sckl12.htmlhttps://www.c8.cn/gaoshou/jsk3.htmlhttps://www.c8.cn/gaoshou/sd11x5.htmlhttps://www.c8.cn/gaoshou/hlj11x5.htmlhttps://www.c8.cn/gaoshou/tjssc.htmlhttp://www.c8.cn/home/login