您现在的位置是:首页 > 人工智能人工智能
谷歌大脑新研究:强化学习如何学会用声音来观察?
cc博主2021-10-11【人工智能】1004人已围观
校对 | 维克多
人类已经证明,大脑中的神经系统拥有为不断适应外界环境的变化而改变自身结构的能力。大脑内部的突触、神经元之间的连接可以由于学习和经验的影响建立新的连接。
相应的,感官替代(sensory substitution)这一天赋也存在人类技能树之中,例如有些天生失明的人能够通过将图像转换成声音学会感知人体轮廓形状的能力。
如果让AI拥有这种能力,它也能像蝙蝠和海豚一样,能够利用其耳朵通过声音和回声来‘看’周围的世界一样。
近日,来自谷歌大脑的一篇题为“The Sensory Neuron as a Transformer: Permutation-Invariant Neural Networks for Reinforcement Learning”的论文证明了强化学习拥有这种“感官替代”的能力。
论文地址:https://arxiv.org/pdf/2109.02869.pdf
具体而言,作者在论文中设计了一系列强化学习系统,其能够将来自环境的每种感觉输入(sensory inputs)到不相同,却具有一定联系的神经网络中,值得一提的是,这些神经网络之间没有固定的关系。研究表明,这些感觉网络可以通过训练来整合本地收到的信息,并且通过注意机制的交流,可以集体达成一个全局一致的方案。
此外,即使在一个事件中,输入顺序被随机地排列多次,该系统仍然可以执行其任务。
证明过程
现代深度学习系统通常无法适应感觉输入的随机重新排序,除非对模型进行重新训练或者用户为模型纠正输入的顺序。然而,meta-learning这项技术,可以帮助模型适应这种变化。例如adaptive weights、Hebbian-learning和model-based等方法。
在论文中,作者研究的agents都有一个共同的特点:在执行任务时被用来处理感觉输入,并将输入突然随机重新进行排序。受到与细胞自动机相关的自组织神经网络的最新发展的启发,作者在实验中将每个感觉输入(可以是连续控制环境中的单个状态,或者是视觉环境中的一块像素)输入一个单独的神经网络模块,该模块在一段时间内只整合来自这个特定感觉输入通道的信息。
在本地接收信息的同时,这些单独的感觉神经网络模块也不断地广播输出信息。参考Set Transformer架构,一个注意力机制将这些信息结合起来,形成一个全局的潜代码(global latent code),然后将其转换为agent的行动空间。注意力机制可以被看作是神经网络适应性加权的一种形式,在这种情况下,允许任意数量的感觉输入以任何随机顺序被处理。
实验中,作者发现每个单独的感觉神经网络模块,虽然只能接收到局部信息,但仍能共同产生一个全局一致的策略,而且这样的系统可以被训练来执行几个流行的强化学习(RL)环境中的任务。此外,作者设计的系统能够以任何随机排列的顺序利用不同数量的感觉输入通道,即使在一个episode中顺序再次被重新排列。
如上图pong agent,即使在给它一个小的屏幕子集(30%),以一个重新排列的顺序,也能继续工作。
另一方面,鼓励系统学习的置换不变的观测空间的连贯性表示,会使 policies更加稳健,泛化性更强。研究表明,在没有额外训练的情况下,即使加入含有噪声或冗余信息的其它输入通道,系统也能继续运作。在视觉环境中,即使只给它一小部分从屏幕上随机选择的区块,而在测试时,如果给它更多的区块,系统可以利用额外的信息来表现得更好。
作者还证明,尽管在单一的固定背景上进行训练,系统还是能够推广到具有不同背景图像的视觉环境。最后,为了使训练更加实用,作者提出了一个行为克隆(behavioral cloning)方案,将用现有方法训练的策略转换成具有理想特性的置换不变的策略。
图注:方法概述
上图的AttentionNeuron 是一个独立的层,其中每个感觉神经元只能访问“无序观察(unordered observations)”的一部分。结合agent的前一步动作,每个神经元使用共享函数,然后独立生成信息。图注:符号列表
在上述表格中,作者还提供了我们的模型中用于不同强化学习环境的维度,以使读者了解系统中每一部分。图注:CartPoleSwingUpHarder中的置换不变agent
在上述演示中,用户可以随时重新排列5个输入的顺序,并观察agent如何适应输入的新顺序。
演示地址:https://attentionneuron.github.io/
图注:车杆测试
作者报告了每个实验的1000个测试事件的平均得分和标准偏差。agent只在有5个感觉输入的环境中进行训练。
图注:置换不变的输出
当作者按原样输入传感器阵列(顶部)或随机重新排列阵列(底部)时,Attention Neuron层的输出(16维全局潜代码)不会改变。黄色代表较高的数值,而蓝色代表较低的数值。
图注:处理未指定数量的额外噪声通道
在没有额外训练的情况下,agent接收15个按重新排列后顺序排列的输入信号,其中10个是纯高斯噪声(σ=0.1),另外5个是来自环境的实际观察结果。像先前的演示一样,用户可以对15个输入的顺序进行重新排列,并观察agent如何适应新的输入顺序。
图注:注意力神经元层的输出在测试情节中的二维嵌入
作者在图中突出了几个有代表性的组,并展示了它们的抽样输入。每个组我们显示3个相应的输入(行),并对每个输入进行解堆以显示时间维度(列)。
CarRacing的基本任务(左),修改后的洗屏任务(右)。
作者的agent只在这个环境中训练。如上图所示,右边的屏幕是agent观察到的,左边的是人类的视觉观察到的。人类会发现用重新排列观察的方式驾驶是非常困难的,因为人类没有经常接触到这样的任务,就像前面提到的 "倒骑自行车 "的例子。
讨论以及未来
在这项工作中,作者研究了深度学习agents的特性,这些agents可以把它们的观察作为一个任意排序的、可变长度的感觉输入列表。通过独立地处理每个输入流,并使用注意力整合处理后的信息。即使观测的顺序在一个episode中被随机地改变了多次,而且没有进行训练,agents仍然可以执行任务。我们在下表中报告了每个环境的性能对比结果。
在展开的工作中重新梳理观测结果在每个episode中,作者每隔t step重新打乱顺序观察。CartPole任务差异较大,因此对它测试了1000次。其他任务,报告了100次测试的平均值和标准偏差。除了Atari Pong,所有环境都有每集1000 step的硬性限制。在Atari Pong中,虽然不存在一集的最大长度,但观察到,每个episode通常持续2500 step左右。通过打乱agent排序,甚至是不完整的观测信息,可以驱动它解释每个局部感觉输入的意义以及它们与全局的关系,这在目前的许多应用中都有实际用途。例如,当被应用于机器人时,可以避免由于交叉布线或复杂的动态输入-输出映射而产生的错误。类似于CartPole实验的设置,加上额外的噪声通道,可以使一个收到成千上万的噪声输入通道的系统识别出具有相关信息的小的通道子集。
局限性在于,对于视觉环境,patch size的选择会影响性能和计算的复杂性。作者发现6x6像素的patch size在任务中很有效,4x4像素的patch size在某种程度上也可发挥效用,但单个像素的观察却不能发挥作用。小的patch size也会产生一个大的注意力矩阵,除非使用近似值,否则计算成本可能会过高。
另一个限制是,排列组合不变的特性只适用于输入,而不适用于输出。虽然观测结果的排序可以以再次打乱,但行动的排序却不能。为了使置换不变的输出发挥作用,每个环节都需要来自环境的反馈以便学习自身和环境之间的关系,包括奖励信息。
一个颇为有趣的未来研究方向是使行动层也具有相同的属性,并将每个运动神经元建模为一个使用注意力连接的模块。有了作者的方法,就有可能训练一个具有任意数量的agent,或者用一个单一的被提供了一个奖励信号作为反馈的policy控制具有不同形态的机器人。此外,在这项工作中,作者设计的方法接受以前的行动作为反馈信号。然而,反馈信号并不局限于行动。作者表示,其期待看到未来的工作包括环境奖励等信号,不仅能适应观察到的环境变化,还能适应自身的变化,以训练置换不变的 meta-learning agents。
cc博客网(公众号:cc博客网)
cc博客网版权文章,未经授权禁止转载。详情见转载须知。
Tags:ssr客户端
相关文章
- 国际顶刊PNAS发文:“同质化”论文暴增,从根本上阻碍了科学的进步!
- 阿里云香港BGP专线2核 4G 100元/月妮妮云
- 香港站群云服务器 1核1G40元/月美国站群云服务器2核 2G80元/月妮妮云
- 首例“微服务+国产分布式数据库”架构腾讯云数据库助力昆山农商行换“心”
- 王思聪个人账号遭盗绑?安全专家:疑似个人信息泄露后遭撞库
- 爱数智慧CEO张晴晴:基于”情感“的人机交互,要从底层数据开始
- MIT博士生杨珩:从L1到L5,自动驾驶的“拦路虎”可能是一个数学问题
- 图论新维度:数据驱动的数学理论,揭秘复杂联系的新工具
- NeurIPS 审稿分析报告:50%审稿人评分受主观因素影响,评分越高,引用量不一定越高 | 谷歌&剑桥大学出品
- 加州大学17岁博士生“直言”:解决机器学习“新”问题,需要系统研究“老”方法
猜你喜欢
最新免费v2ray节点链接-ssr机场节点账号分享每日更新(2022/7/14)
技术好文今日星期四,为大家提供最新免费v2ray节点链接-ssr机场节点账号分享每日更新,更新于2022年7月14日15点更新。需要付费节点下方推荐点击出门右拐即可,周末更新资源部分可用,免费资源不易,请大家珍惜。CC博客将持续更新可用资源,尽力更新更多好用资源给大家...
阅读更多组织调整致员工流动加快,华为宣布将调整员工绩效考核;爱奇艺否认百度出售公司股份;微软永久关闭IE浏览器|雷峰早报
业界组织调整致员工流动加快,华为宣布将调整绩效考核指标:降低销售业绩权重6月15日消息,华为伙伴暨开发者大会2022在线上举行,华为轮值董事长胡厚崑在大会上表示,华为成立的军团将聚焦特定行业头部企业,提供解决方案。军团本质是华为内部的集成性组织,主要目标为缩短...
阅读更多十年前被Linux之父骂,比AMD晚六年,英伟达终于开源GPU内核
芯片英伟达在昨日发布了其Linux GPU内核模块的R515驱动版本,该版本采用开源、双GPL/MIT许可。这一消息引爆了无数Linux开发者的情绪。此前,因为英伟达的闭源驱动,天下Linux开发者“苦英伟达久矣”。雷峰网(公众号:雷峰网)英伟达也因为“自顾自...
阅读更多四连冠!腾讯Kona JDK蝉联JDK18贡献度国内第一
业界刚刚获悉,Oracle 正式对外发布JDK18。据Oracle官方公告,腾讯Kona蝉联JDK18中国企业贡献度第一,连续四次对OpenJDK开源社区贡献全国第一(JDK15~18)。同时,在官方首次公布的OpenJDK的综合贡献排名结果中,腾讯Kona的综合...
阅读更多抑郁症引起性功能障碍
健康问答现在的社会生存压力越来越大,很多人年纪轻轻就会患有抑郁症,需要进行抗抑郁药物的服用,长期服用抗抑郁药会导致男性性功能障碍,主要表现为男性的性欲下降,还会出现阳瘘早泄、不育症等,患者经常会比较焦虑,那么抑郁症引起性功能障碍该怎么办呢,下面我们就来具体看看吧。...
阅读更多