您现在的位置是:首页 > 人工智能人工智能
牛津大学最新调研:AI面临基准危机,NLP集中“攻关”推理测试
cc博主2022-04-11【人工智能】544人已围观
作者 | 维克多
人工智能(AI)基准为模型提供了衡量和比较的路径,超越基准,达到SOTA,经常成为顶会论文的标配。同时,有些基准确实推动了AI的发展,例如ImageNet 基准测试对近几年的热潮功不可没。
如今,ImageNet 基准仍然在研究中发挥核心作用,一些新模型,例如谷歌的Vision Transformer在论文中仍然与ImageNet方法进行比较。
但,如果某一基准的分数一直占据榜首,后续没有高质量基准引入,那么这种依靠基准推动发展的“路子”就有问题。
近日,维也纳医科大学和牛津大学的研究人员对AI基准图谱进行了调查,共统计了2013年以来CV和NLP领域的406项任务的1688项基准。发现:很大一部分基准迅速趋于接近饱和,还有一部分基准被搁置;同时,在NLP领域,从2020年开始,新基准的建立减少,方向转向推理或推理相关的高级任务上。
在文中,作者呼吁,未来的工作应该着重于大规模的社区合作,以及将基准性能与现实世界效用和影响相联系。
33%的AI基准被“搁置”
从单个基准出发,如上图可以看出基准上的SOTA有三种状态:稳定增长,停滞或饱和,以及停滞后的飞跃。其中,稳定增长代表技术稳定;停滞背后代表缺乏技术进步的能力;而爆发是指技术出现突破。
事实上,近年来,关键领域,如NLP,有相当一部分新基准迅速趋于饱和,或者设计针对特定基准特征过度优化的模型,而这些模型往往无法泛化到其他数据中。
目前,这些现象已经蔓延到相同领域的不同基准中,例如上图,CIFAR-10和CIFAR-100的状态。
同时,数量方面也出现了尴尬的局面,例如《2021年的人工智能指数报告》指出,CV基准数量或许能满足日益增长的任务需求;而NLP模型的增长速度正在超过现有的问答和自然语言理解基准。
Martínez-Plumed等学者分析了 CIFAR-100 和 SQuAD1.1 等 25 个流行 AI 基准背后“故事”,他们发现“SOTA 前沿”由某些长期协作的社区主导,例如美国或亚洲大学与科技公司共同合作的组织。
此外,其他学者分析了大量 AI 基准测试工作中数据集使用和再利用的趋势,他们发现,很大一部分“知名”数据集是由少数高知名度的组织提出,其中一些数据集被越来越多地重新用于新的任务。NLP是个例外,它对新的、特定任务的基准的引入和使用超过了平均水平。
在这项研究中,维也纳医科大学和牛津大学的研究人员表明:饱和和搁置非常常见。总体看来有以下几个趋势:
1.缺乏研究兴趣是导致停滞不前的原因之一;
2.所有基准中的大多数很快就会达到技术停滞或饱和;
3.在某些情况下,会出现持续增长,例如在 ImageNet 基准测试中;
4.性能改进的动态变化并不遵循一个清晰可辨的模式:在某些情况下,停滞阶段之后是不可预测的飞跃。
图注:基准有三种发展趋势:稳定增长,停滞或饱和,以及停滞后的飞跃。
此外,在1688个基准中,只有66%的基准充分被利用,换言之33%的基准被搁置。同时,基准测试的另一个趋势是:被某些既定机构和公司的数据集主导。
NLP基准正面向高难度的任务
过去几年,CV领域的基准占据主导地位,但NLP也开始了蓬勃发展。2020年,新基准的数量有所下降,越来越多地集中在难度较高的任务上,例如测试推理的任务,例如BIG-bench和NetHack,前者属于谷歌,后者来自Facebook。
上图是NLP的基准生命周期展示,可以清晰看出,大多数任务的几个主流基准是在2011~2015年间建立的,这期间,也只有少数几个SOTA出现。2016年之后,新基准的建立速度大大加快,在翻译和自然语言建模方面表现最为突出;2018和2019年,分别都针对各种任务建立了大量的基准;2020年是个转折点,新基准的建立减少,方向转向推理或推理相关的高级任务上。
整体来说,当前AI基准的趋势是:来自既定机构(包括工业界)的基准的趋势引起了人们对基准的偏见和代表性的关注;许多基准并不能完全将AI性能与现实世界相匹配,因此,开发少量但有质量保证,涵盖多种AI能力、场景的基准可能是可取的。
最后,研究人员展望,在未来,新的基准应该由来自许多机构、知识领域的大型合作团队开发,如此才能确保建立高质量的基准。
参考链接
https://mixed-news.com/en/are-we-running-out-of-ai-benchmarks/
https://arxiv.org/ftp/arxiv/papers/2203/2203.04592.pdf
雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
Tags:shadowsock苹果手机版
相关文章
- 最新免费SSR节点账号分享-永久v2ray节点-周末福利(2022/4/10)
- 香港CN2宿主机 E5 2650V2*2256G20M 2000元/月香港云服务器2H2G10M29.9元/月90IDC
- 德国回程CN2云服务器 2核 2G20M 66元/月 青叶云
- 分享如何翻墙浏览Google、Youtube、Facebook及Twitter网站的方法
- 美国洛杉矶CN2云服务器1核1G10M 17.5元/月 -免费体验15天-满意付款,特殊防御可以定制XOVV
- 彻底分家?传Arm为上市转让全部安谋股份
- 共创显示次时代,思谋打造 Mini LED 智能检测
- 腾讯总裁刘炽平年薪3.2亿,同比下降,马化腾年薪降25%;曝喜茶创始人2.7亿接盘许家印深圳湾豪宅;淘宝支持修改账号名|雷峰早报
- 永久免费v2ray节点链接分享-SSR节点账号分享-每日更新(2022/4/8)
- 网站持续做seo优化还是暂停优化好呢?
猜你喜欢
美国云服务器 1核1G 5M(带宽) 27元/月香港云服务器1核1G 5M(带宽) 43元/月特网科技
服务器评测特网科技为您提供高速、稳定、安全、弹性的云计算服务计算、存储、监控、安全,完善的云产品满足您的一切所需,深耕云计算领域10余年;我们拥有前沿的核心技术,始终致力于为政府机构、企业组织和个人开发者提供稳定、安全、可靠、高性价比的云计算产品与服务。特网科技服务...
阅读更多最新免费ssr节点二维码分享-v2ray节点链接每日更新(2022/8/26)
技术好文今天星期五,cc博主为大家提供最新免费ssr节点二维码分享-v2ray节点链接每日更新,更新于2022年8月26日17点更新,最新v2ray节点分享。需要付费节点下方推荐点击v2rayn出门右拐即可,周末更新资源部分可用,免费资源不易,请大家珍惜。CC博客将分...
阅读更多香港CN2云服务器 1核 1G 3Mbps23元/月四川/镇江/香港独立服务器 24核16G 100G高防低至297元蓝米云
服务器评测蓝米云成立于2019年,是拥有IDC/ISP资质的正规商家,主要经营香港CN2 GIA、美国CERA、美国200G高防云服务器业务,同时也提供大陆、香港、日本、韩国、美国等多地区独立服务器租用。本次蓝米云同时提供了香港CN2 GIA云服务器,四川、镇江、香港...
阅读更多ACM 杰出会员姬水旺:量子化学和物理的深度学习
人工智能整理丨汪浩文校对丨维克多量子技术和人工智能都是当前最先进的科学技术,前者被寄希望于拥有超强的计算能力,后者已经在各行各业“大杀四方”。当两者相遇会碰撞出什么样的火花?人工智能又能在哪些方面助力量子技术?去年12月份,德州农工大学计算机科学与工程系(校长有...
阅读更多永久免费SSR节点分享-最新v2ray节点机场每日更新(2021/12/28)
技术好文今日周二,最新免费ssr节点及v2ray机场节点分享更新于2021年12月28日17点,需要付费节点通过下方推荐购买即可,昨天更新资源部分可用,免费资源不易,请大家珍惜。vps90seo将持续更新可用资源,尽力更新更多好用资源给大家。再次感谢大家对vps90S...
阅读更多
热评文章
2024年V2ray/Clash/SSR/Shadowrocke俄罗斯-美国免费节点梯子更新(11/6)
长期免费ssr节点机场分享-永久v2ray加速器订阅-每日更新(2024/11/4)
2024年V2ray/Clash/SSR/Shadowrocke印度-美国免费节点机场(11/8)
95 后创业者 VAST 宋亚宸:要做3D「抖音」内容平台
RISC-V基金会如何支持HPC和AI领域的公司?
纸飞机汉化包ios_纸飞机汉化包提示有后门
vps加速器免费加速极光_免费加速器永久免费版不用登录
飞机下载链接_飞机下载链接官网
旋风加速度器xfvzcc_旋风加速度器x353cc功能介绍
搞笑电报员口吐芬芳_电报员口吐芬芳无消音