您现在的位置是:首页 > 人工智能人工智能
甲骨易AI 研究院“超越”中文大模型测试集正式发布
cc博主2023-05-22【人工智能】222人已围观
【CC博客】5月22日消息,近期中文大语言模型蓬勃发展,但却一直少有出现可应用于评测 ”大模型能力“ 的测试。甲骨易AI研究院提出一种衡量中文大模型处理多任务准确度的测试,并在此基础上制作了一套适配“测试中文大模型”的数据集,并将其命名为“超越”,MMCU(Massive Multitask Chinese Understanding)。 5月20日,甲骨易AI研究院 “超越”中文大模型测试集正式发布。
据介绍,“超越” 的意义是希望中文大语言模型 “超” 出多数模型只能基于英文数据集测试的现状,通过发现大模型的缺陷,从而促进大模型理解中文语言的能力,使其 “越” 来越强大。 这里“超”和“越”要单独来理解,并不是超越别人的意思。
甲骨易AI研究院首席研究员Felix透露,4月推出了MMCU的测试集和测试方法。数据集的测试内容涵盖四大领域:医疗、法律、心理学和教育。题目的数量达到1万+,其中包括医疗领域2819道题,法律领域3695道题,心理学领域2001道,教育领域3331道。
“我们是把大模型当作一个真正的人类来看待,”Felix表示,测试集之所以涉及语、数、物理、化学这些科目,因为人工智能必须像人类一样,具备对于世界的基础的认知;而医疗、法律、心理学专业领域则是将大模型视为专业人士进行考核。
“所有题目都不是从网络上直接能够抓到的,而是由大量的人工整理,尽可能确保不会出现在大模型的训练数据中。而整套的测试集涵盖的领域能够确保模型测试的知识的广度和深度,从而帮助研究者们去发现这一模型的哪个领域有缺陷或者说它的整体上都有缺陷。”Felix说到。
中国科学院大学网络数据重点实验室的咸宁针对MMCU测试集的使用情况进行分享,解释了测试数据集的分析原理,对几大模型的测试成果进行了展示与客观分析,并指出了超越MMCU测试数据集当下尚存在一些亟待解决的问题。
通过大模型测试发现,在本应有明显优势的语文科目中,国产大模型的表现却差强人意。Felix指出,现在很多模型评估还是处于人工评估阶段,甲骨易推出“超越”MMCU数据集的初衷是希望实现对大模型进行大规模的评估。当下的评测结果可能存在随机误差,但未来还将持续优化评测方式并扩充评测领域。
“大模型的训练以及大规模评估需要大量算力。”甲骨易AI研究院最后表示,愿与业界更多机构联手,一道携手推进大模型的发展,加速人工智能技术的产学研用进程。
Tags:
相关文章
- 遭AI换脸名誉受损 多位网红博主起诉换脸手机APP运营公司
- StatCounter数据显示必应成中国第一大桌面搜索引擎引发网友质疑
- JDG战队FMVP选手Knight:生日能拿到冠军特别开心
- 最后一场《CS:GO》!巴黎Major总决赛Vitality夺冠,后续将采用《CS2》比赛
- RPG手游《第七史诗》国服公测定档6月20日,全平台预约已开启
- 小米Civi 3跑分出炉:首发联发科8200-Ultra
- 荣耀90系列开启预约:搭载2 亿像素写真相机
- OPPO Reno10 Pro+即将亮相:搭载超薄潜望模组
- 1499元起!华为畅享60 Pro即将首销:1mm边框堪称直屏天花板
- 荣耀全球青年计划正式公布!第三届荣耀创意精英挑战赛全面升级