您现在的位置是:首页 > 人工智能人工智能
莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话
cc博主2022-08-03【人工智能】418人已围观
作者|李梅编辑|陈彩娴
近日,备受关注的第十九届机器学习国际会议(ICML 2022)在美国马里兰州巴尔的摩市举办。自新冠疫情以来,大会首次恢复线下形式,采取线上线下结合的方式举办。
ICML2022概况
本届大会共收到5630 篇投稿,其中,1117 篇被接收为short oral,118篇被接收为long oral。接收率为21.94%,与以往几年基本持平。前几日,本届大会的全部奖项公布,共评选出15 篇杰出论文奖和 1 项时间检验奖。其中,复旦大学、上海交通大学、厦门大学、莱斯大学等多个华人团队的工作被评位杰出论文奖。ICML 2012 的一篇论文《Poisoning Attacks against Support Vector Machines》获得了时间检验奖。
获奖论文信息详见:https://icml.cc/virtual/2022/awards_detail
今年的杰出论文奖不同寻常,评选数量多达 15 篇。而同样是 21% 左右的接受率,前年只评选出2篇杰出论文,去年则仅有1篇。
本文我们来关注一下今年获奖的一篇优秀工作。AI 科技评论此次采访到获得杰出论文奖的莱斯大学胡侠团队,为我们解读他们的研究工作。该团队的获奖论文题目为:《G-Mixup: Graph Data Augmentation for Graph Classification》。作者:Xiaotian Han、Zhimeng Jiang、Ninghao Liu、Xia Hu。
论文地址:https://arxiv.org/pdf/2202.07179.pdf在这项研究中,作者提出了一种新的图数据增强方法:G-Mixup,实验表明,G-Mixup 能够提高图神经网络的泛化性和鲁棒性。
胡侠,现任美国莱斯大学终身副教授,数据科学中心主任,AIPOW联合创始人兼首席科学家。其主导开发的开源系统AutoKeras成为最常用的自动机器学习框架之一(超过8000次star及1000次fork),开发的NCF算法及系统(单篇论文他引3000余次)成为主流人工智能框架TensorFlow的官方推荐系统,主导开发的异常检测系统在通用、Trane、苹果等公司的产品中得到广泛应用,研究工作多次获得最佳论文(提名)奖。
获奖工作G-Mixup介绍
研究背景
图数据在我们的现实生活中无处不在,我们可以使用图来建模和描述各种复杂网络系统。而为了将图数据应用于具体任务,我们首先需要对图数据进行表征。近年来,通过深度学习技术对图数据进行表示学习的图神经网络(GNNs),在节点分类任务上取得了最优性能,因而已被广泛用于图形分析。同时,数据增强(data augmentation)和 Subgraph(子图)也被用于图分析,它们通过生成合成图来创建更多训练数据,以提高图分类模型的泛化性能。
当前流行的数据增强方法 Mixup 通过在两个随机样本之间插入特征和标签,在提高神经网络的泛化性和鲁棒性方面显示出优越性。但是,Mixup 更适用于处理图像数据或表格数据,直接将其用于图数据并非易事,因为不同的图通常:(1)有不同数量的节点;(2)不容易对齐;(3)在非欧几里得空间中的类型学具有特殊性。
为此,提出了一种 class-level 的图数据增强方法:G-Mixup。具体来说,首先使用同一类中的图来估计一个 graphon。然后,在欧几里得空间中对不同类的 graphons 进行插值,得到混合的 graphons,合成图便是通过基于混合 graphons 的采样生成的。经实验评估,G-Mixup 显着提高了图神经网络的泛化性和鲁棒性。
G-Mixup的实现方法
G-Mixup。G-Mixup 是一种通过图形插值的class-level数据增强方法。具体来说,G-Mixup 对不同的图生成器(graphon)进行线性插值以获得新的混合的生成器。然后,基于混合的新的生成器对合成图进行采样得到新的图数据以进行数据增强。改论文从理论上证明从该生成器中采样的图部分具有原始图的属性。
如图1所示,G-Mixup包括三个关键步骤:(1)为每一类图估计一个graphon,(2)混合不同图类的graphons,以及(3)基于混合的graphons采样生成合成图。
图 1:在二值图分类任务中,有两类不同的图 G 和 H,二者拓扑不同(G 有两个社区,而 H 有八个社区)。G 和 H 具有不同的graphons。
Graphon 估计和 Mixup。作者使用矩阵形式的阶进函数作为graphon来混合和生成合成图。对阶跃函数估计方法,作者首先根据节点测量值将节点对齐在一组图中,然后从所有对齐的邻接矩阵中估计阶跃函数。
合成图的生成。一个 graphon W 提供一个分布来生成任意大小的图。
G-Mixup 的性能评估
那么,G-Mixup 在真实世界的图数据上表现如何?作者团队对 G-Mixup 的性能进行了评估。
一个数据集中不同类别的图的 graphons 显著不同。图 2 表明现实世界中不同类别的图有完全不同的graphons,这为通过融合 graphon 来生成混合的图奠定了基础。
图2:IMDBBINAERY 的 graphons 显示 class 1 的 graphon 有更大的密集区域,这表明该类中的图比 class 0 中的图具有更大的社区。REDDIT-BINARY 的 graphons 显示,class 0 中的图有一个高度节点,而 class 1 中的图有两个。
G-Mixup 合成的图是原始图的混合。作者团队将在 REDDIT-BINARY 数据集上生成的合成图进行可视化,如图 3,混合 graphon(0.5∗W0+0.5∗W1) 能够生成包含高度节点和密集子图的图,这可看作是包含 1 个高度节点和包含 2 个高度节点的图的混合图。这验证了 G-Mixup 更倾向于保留来自原始图的区别性图案,其合成图确实是原始图的混合。
图3:在 REDDIT-BINARY 数据集上生成的合成图的可视化。
G-Mixup 可以提高 GNN 在各种数据集上的性能。作者比较了使用 G-Mixup 的各种GNN主干网络在不同数据集上的性能。实验结果表明,G-Mixup可以提高图神经网络在各种数据集上的性能。
G -Mixup 可以提高 GNN 的鲁棒性。作者对 G-Mixup 的两种鲁棒性(标签腐蚀的鲁棒性和拓扑腐蚀的鲁棒性)进行研究,发现 G-Mixup 能够提高 GNN 的鲁棒性。
结论
这项工作提出了一种名为 G-Mixup 的新型图增强方法。与图像数据不同,图数据是不规则的、未对齐的且处于非欧几里得空间中,因此很难进行混合。然而,同一类别中的图具有相同的生成器(即graphon),它是规则的、良好对齐的且处于欧几里得空间中。因此,作者转而对不同类别的 graphons进行混合来生成合成图。综合实验表明,使用 G-Mixup 训练的 GNN 获得了更好的性能和泛化能力,并提高了模型对噪声标签和被损坏拓扑的鲁棒性。
AI 科技评论对话G-Mixup作者团队
AI 科技评论:祝贺你们的研究获得ICML 2022杰出论文奖。首先,能否概括一下你们这项工作的主要贡献?
作者团队:我们提出了 G-Mixup 来增强用于图分类的训练图。由于直接混合图是难以处理的,因此 G-Mixup 将不同类别的图的图元混合以生成合成图。其次,我们理论上证明合成图将是原始图的混合,其中源图的关键拓扑(即判别主题)将被混合。最后,我们证明了所提出的 G-Mixup 在各种图神经网络和数据集上的有效性。大量的实验结果表明,G-Mixup 能够增强图神经网络的泛化性和鲁棒性。
AI 科技评论:当时论文收到的审稿意见是怎样的?
作者团队:审稿意见总体比较positive,不过当时审稿人对我们做数据增强的意义有一点疑问,我们对此作了详细的解释,比如就训练而言,有时训练数据集特别少,我们就可以用数据增强来获取更多的数据。审稿人在最后的意见中也表明认识到了数据增强的重要意义。
AI 科技评论:与以往的Mixup方法相比,G-Mixup的不同之处在什么地方?
作者团队:Mixup 技术主要应用在图像上,已经比较成熟,它是将训练数据中的两个数据集线性地加起来,得到一个新的训练数据,从而完成数据扩增。但它在图数据上还没有一个很好的解决方案。而我们的G-Mixup 是一个简单且有效的方法,它是对不同类别的图生成器进行混合来生成合成图。
AI科技评论:与图像数据和表格数据相比,对图数据做mixup的难点在什么地方?
作者团队:目前针对图的mixup的研究比较少,因为图数据比较难处理,它不容易表示,而且两个图的节点数量、无结构信息是不一样的,所以很难将其融合到一起。图像数据和表格数据可以表示成连续的向量或矩阵的形式,所以很容易做融合,但图数据无法表示成这种形式。
AI科技评论:为什么说G-Mixup 是一种Class-level的图数据增强方法?
作者团队:我们是用两个类来生成一个新的类,我们用多张图来估计图的生成规则也就是图的生成器,然后对每一类图来估计一个生成器,这样来生成一个新的类别。以往针对图像的mixup是用两张图片来做,属于instance-level,但针对图的处理方法与此不同。
AI科技评论:有哪些途径可以提高图神经网络的泛化性?
作者团队:比如设计新的网络结构,做数据增强,以及训练技巧方面的一些工作,都可以提高泛化性,我们这项工作展示的是其中一种方法。
AI科技评论:针对这项工作所研究的问题,有什么下一步的研究计划?
作者团队:我们这项工作提出的方法主要是用于图分类任务,以后我们可以进一步考虑在节点分类任务上做融合,节点分类也是图神经网络方面的一个重要任务。
AI科技评论:这次获得杰出论文奖,有没有什么经验、体会可以分享?
作者团队:首先文章的写作质量要好,要将研究清楚地表述出来;研究的 idea 要十分合理;以及,研究问题本身要有意义和价值。
AI科技评论:这项研究的成果对相关领域有怎样的影响?有哪些实际应用的价值?
作者团队:由于图数据的本身特性,使得mixup这个在其他数据上很有效的方法不能直接适用在图数据上,我们提出的g-mixup使用了图生成器去融合图数据,实现了class-level的图数据mixup, 希望能对图数据的mixup能有一定的启发作用。希望提出的方法能够在图生成,新药物发现方向能有一定的启发。
更多内容,点击下方关注:扫码添加 AI 科技评论 微信号,投稿&进群:雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
相关文章
- DeepMind 首席科学家 Oriol Vinyals 最新访谈:通用 AI 的未来是强交互式元学习
- 微博网站和APP昨夜全线崩溃:内容无法打开、热搜消失;华为5800万中标项目被废;B站回应HR称核心用户都是Loser|雷峰早报
- 美国拟禁止向中国出售128层以上NAND制造设备,三星、SK海力士或被波及
- 最新免费v2ray节点账号分享-永久ss/ssr节点链接-24小时更新(2022/8/2)
- 「两大法宝」带来千倍算力,埃米时代或提前到来|CCF Chip 2022
- “东数西算”内蒙古枢纽节点建成中国最大自动驾驶智算中心,小鹏汽车与阿里云合建
- 新浪及微博台湾站昨夜突然终止服务,公司证实将停止台湾市场运营;百度、搜狗下线搜索快照功能;每日优鲜否认资金断链无法经营|雷峰早报
- 谷歌史上第二大收购案落定,交易将于年底完成彻底交割
- 八月v2ray节点链接-长期永久免费ssr节点账号分享-每日更新(2022/8/1)
- 美国加码对华出口禁令:断供14nm芯片制造设备
猜你喜欢
百度搜索快照功能下线
站长动态8月1日消息,近日有用户发现,百度搜索的快照功能因为不明原因消失,据新浪科技报道,有内部知情人士透露称,“百度方面确实已下线了快照功能,主要是由于网页技术的发展及代际变迁所致”。据该知情人士介绍,百度搜索发展早期,由于互联网上的Web站点经常出现访问不...
阅读更多最新ssr节点购买网址和永久免费v2ray节点分享-每日更新(2022/9/6)
技术好文今天星期二,cc博主为大家提供最新ssr节点购买网址和永久免费v2ray节点分享,更新于2022年9月6日17点更新,最新v2ray节点分享。需要付费节点下方推荐点击v2rayn出门右拐即可,周末更新资源部分可用,免费资源不易,请大家珍惜。CC博客将分享持续更...
阅读更多窗口期即将关闭,本土MCU市场格局有何变化?
芯片在经历了将近两年的缺芯涨价之后,先前供不应求的微控制器(MCU)市场快速退烧,价格明显下滑。据央视新闻报道,意法半导体的一颗MCU芯片,价格从2021年的200元每颗降至为20元每颗,价格跌去近9成。事实上,通用型MCU本身并不昂贵,2020年之前,通用MC...
阅读更多美国CERA云服务器 G口,原生IP,解锁美区tiktok,1核/1G内存/40G硬盘/500G流量/1Gbps带宽,39元起,稳爱云
服务器评测Tags:KVM虚拟化架构, TikTok解锁, 国内高防VPS, 日本VPS, 流媒体解锁, 流媒体解锁测试, 独立服务器, 稳爱云, 稳爱云好不好, 稳爱云怎么样, 精品网, 美国Cera, 美国Cera vps, 美国高防VPS, 联通9929, 香港V...
阅读更多OpenAI:训练大型神经网络的四种基本方法
人工智能来源 | OpenAI编译 | 黄楠编辑 | 陈彩娴大型神经网络是当前人工智能领域的热门话题之一,那么,如何训练大模型?最近,曾推出大规模预训练模型 GPT-3 的 OpenAI 发表了一篇博文,介绍了基于 GPU 的四种节省内存的并行训练方法,分别是:...
阅读更多
热评文章
长期免费ssr节点机场分享-永久v2ray节点梯子周末更新(2024/11/16)
「11月18日」2024年V2ray/Clash/SSR/Shadowrocke泰国-新加坡免费节点
清华大学获X-Embodiment最佳论文奖,机器人顶会CoRL 2024获奖名单出炉
咨询公司创始人:台积电领先英特尔主要是经济问题而非技术问题
关于iPhone梯子能连接但是上不去网的信息
旧手机搭建linux服务器怎么弄_旧手机搭建linux服务器怎么弄出来
telegream中文版下载电脑_安卓手机telegreat下载教程
海外梯子加速器怎么用的_海外梯子加速器怎么用的啊
电报是什么时候发明的_电报是什么时候发明的谁发明的
安卓加速器推荐_安卓加速器软件下载