您现在的位置是:首页 > 人工智能人工智能
EMNLP 2021Oral | 拓展你的视野!UCLA提出:地区多样性视觉常识推理
cc博主2021-11-09【人工智能】837人已围观
前言
我们的文章主要关注在常识知识的地区多样性:由于历史文化因素的影响,在不同地区生活的人们可能对同一事物有着不一样的常识和认知。我们提出了地区多样性视觉常识推理数据集 GD-VCR 去考察模型的表现,并且探究造成这一表现背后的原因。我们很高兴 EMNLP 2021 的最佳论文 (Liu et al., 2021),和杰出论文 (Zhang et al., 2021) 有着和我们非常相似的研究问题。所以非常希望我们的文章能够让大家从常识知识多样性的视角对人工智能世界通用性的这一问题产生更多的思考。
背景
根据维基百科中的定义,常识是人类认知日常场景的所需的基本知识,并且几乎“所有人”都能掌握并运用这种知识。如果我们看来一个女人在聚会上穿着白色婚裙,那么很大概率这个聚会是一个婚礼。随着领域对于常识推理的关注,关于常识的大规模数据集和知识图谱也越来越多。
但是我们如果细细品味维基百科中的定义,其实我们会发现一个问题:有些常识是否真的能够被所有人掌握吗?我们或许能从婚礼的例子中找到一些端倪:在中国的传统婚礼上,可能新娘穿的是红颜色裙子,甚至她的脸也会被红盖头遮住。这对于中国人来说司空见惯,是一种常识。但是这可能对世界其他地区的人十分陌生。
(GD-VCR数据集示例。图为不同地区婚礼图片。)
常识知识其实比所谓的定义范围更广,更加多元!因此,我们的文章提出了一个新数据集,地区多样性视觉常识推理数据集,Geo-Diverse Visual Commonsense Reasoning (GD-VCR)。我们沿用了视觉常识推理任务VCR的设置进行标注:我们收集了328个来自东亚、南亚、非洲和西方国家电影和电视剧的图片,并基于这些图片设计问题和答案。这些问题和答案会涉及地区多样性的常识知识和对图片内容的深入理解。通过提出这个数据集,我们试图研究以下两个问题:在VCR(西方场景为主)上训练的模型是否能很好的泛化到关于地区多样性常识的场景和问题上?
如果泛化表现不强,到底是什么原因产生了这种现象?
数据集收集和统计信息
数据集收集的主要挑战是要找到合适的图像资源并捕获包含区域特征的场景。我们从 Amazon Mechanical Turk 平台和大学里的语言文化系招募标注人员。我们要求收集的图像中应具有包含标注者比较熟悉的地区中代表性场景。我们进一步建议标注者选择普遍存在但具有跨地区特征的场景,例如婚礼、葬礼、节日、宗教活动等。这些要求不仅可以使我们的 GD-VCR 数据集更具地区多样性,也方便我们后续去做更公平的比较。
(GD-VCR总体统计数据)GD-VCR 的总体统计数据见表。这边想强调的是,我们计算了每个区域的 OOV 率,也就是出现在 GD-VCR 中但未出现在原始 VCR 训练集中的单词的比率。我们发现在 GD-VCR 中,这四个不同地区 OOV 率彼此接近,并且都很低。这进一步证明 GD-VCR 与原始VCR数据集的词汇分布相似,GD-VCR 的难度并非来自词汇差距。我们还在文中展示了 GD-VCR 中覆盖图像关键字分布。我们统计出总共有693个关键词,展示了 GD-VCR 中场景的多样性。
实验设置和分析
我们基于两个预训练V&L模型进行实验:VisualBERT (Li et al., 2019), ViLBERT (Lu et al., 2019)。
(模型效果)我们首先研究在 VCR 上训练的模型泛化到特定地区常识问题上的效果。首先,我们发现与西方图像相比,这两个模型在来自非西方地区的图像上的表现要差得多,差距大约为3-19%。此外,我们比较了模型和人类的表现。我们注意到,尽管人类可能不熟悉这种文化,但他们仍然比模型高出 30% 左右。这意味着人类更有能力将他们的常识转化并应用在地区多样化常识的理解过程中。然而目前的模型离这个水平还差很远。
我们后面从两个方面分析了产生这种表现差异的原因:
具有地区特征的场景:我们在 GD-VCR 中标注了图像的场景标签,所以我们可以借助标签将不同地区同一个场景的图片放在一起进行比较。我们观察到,对于经常涉及地区特征的场景(例如婚礼,节日等),性能差距要大得多,约为8%-24%。但是,对于一些世界上普遍存在且比较相似的场景,模型的性能差距仅为0.4-1.3%。
(具有地区特征的场景与其他场景上模型表现差异对比。字体越大表示模型表现差异越大。红色场景差异大于8%,蓝色场景差异小于8%。)
QA pair 的推理层次:在介绍推理层次之前,我们可以先思考模型什么时候会失败。我们认为可能有2种情景。“情景1”是,模型在早期甚至无法识别非西方图像的基本信息。“情景2”是,模型在基本视觉信息的识别上效果不错,但最终由于缺乏特定区域的常识而最终失败。
为了判断我们处于哪种情景,我们此外又注释了一些 low-order QA pairs。这些 low-order QA pairs 可以通过识别基本的视觉信息即可回答。例如,问题“[person3] 穿的什么?”就是一个 low-order QA pair。并且我们假设 GD-VCR 中的所有 QA pairs 都是 high-order QA pairs,因为它们涉及常识和更复杂的推理。low-order 和 high-order 分别对应低推理层次和高推理层次。
(在low-order和high-order QA pairs上不同地区图片的模型表现差异)
我们用 VisualBERT 在这些 QA pairs 上评估。我们首先注意到模型在 low-order QA pairs 的效果好于 high-order QA pairs。此外,模型在不同地区 low-order QA pairs 的差异远小于 high-order QA pairs。这意味着该模型在基本视觉信息的问题上可以达到相似的性能,但是复杂常识推理增加了难度并扩大了差距。这意味着“情景2”更好地描述了这个状况。结论和未来影响
在文章中,我们构建了一个新的地区多样常识推理数据集 GD-VCR。我们在 GD-VCR 上评估模型性能,发现不同区域之间存在很大差异。最后我们分析了性能差异的来源:1) 具有地区特征的场景,和 2) QA pair 的推理层次。我们希望这篇文章不仅可以启发研究者去提高视觉常识推理模型在地区多样化场景上的泛化能力。我们还希望能借此文章拓宽研究人员的视野,以更加包容的态度对人工智能系统的世界通用性这一现实问题产生更多的思考。
相关文献[1] From Recognition to Cognition: Visual Commonsense Reasoning. Zellers et al., CVPR 2019.[2] Visually Grounded Reasoning across Languages and Cultures. Liu et al., EMNLP 2021.[3] SituatedQA: Incorporating Extra-Linguistic Contexts into QA. Zhang et al., EMNLP 2021.cc博客网(公众号:cc博客网)
cc博客网版权文章,未经授权禁止转载。详情见转载须知。
Tags:v2ray加速器
相关文章
猜你喜欢
最新公益ssr节点账号免费分享和永久v2ray节点-每日更新(2022/9/2)
技术好文今天星期五,cc博主为大家提供最新公益ssr节点账号免费分享和永久v2ray节点-每日更新,更新于2022年9月2日17点更新,最新v2ray节点分享。需要付费节点下方推荐点击v2rayn出门右拐即可,周末更新资源部分可用,免费资源不易,请大家珍惜。CC博客将...
阅读更多腾讯新闻:从门面,到鸡肋
业界作者 | 代聪飞编辑 | 胡喆2015年的年会上,腾讯新闻客户端成功入选腾讯首次设立的名品堂,和它同时入选的产品有手机QQ浏览器、手机管家、微信公众平台。这是腾讯新闻的高光时刻,也是腾讯新闻走下坡路的开始。到如今,天天快报关停、微视和腾讯新闻“半死不活”...
阅读更多又有3名芯片大基金公司高管被带走调查,落马高管一人身兼8家上市公司董事;拜登签署3558亿芯片补贴法案;每日优鲜被约谈|雷峰早报
业界芯片圈大风暴,大基金管理公司3名高管被调查,落马高管一人身兼8家上市公司董事芯片行业的反腐地震不断。8月9日晚间,国家集成电路产业投资基金股份有限公司的管理公司,华芯投资管理公司的3名高管落马。据消息,华芯投资原总监杜洋、投资三部副总经理杨征帆涉嫌严重违纪违...
阅读更多永久免费v2ray节点链接分享-SSR节点账号分享-每日更新(2022/4/8)
技术好文永久免费v2ray节点链接分享-SSR节点账号分享-每日更新,今日周五,为大家提供最新免费SSR节点及v2ray节点链接分享,更新于2022年4月8日17点更新。需要付费节点下方推荐点击出门右拐即可,昨日更新资源部分可用,免费资源不易,请大家珍惜。蜗牛seo将...
阅读更多3年量产3颗芯片,清微智能获数亿元B轮融资
芯片雷峰网(公众号:雷峰网)3月25日消息,可重构智能计算芯片设计企业清微智能宣布完成数亿元B轮融资,本轮融资资金主要用于企业核心可重构计算技术的持续研发,完善公司产品线和各领域解决方案,提升企业的项目交付能力,深入开拓行业客户。本轮融资由普罗资本旗下国开装备...
阅读更多