您现在的位置是:首页 > 人工智能人工智能
Facebook和NUS、MIT等高校联合推出3000小时的第一视角视频数据集Ego4D
cc博主2021-10-15【人工智能】721人已围观
图1. 左:同一场景在第一视角和第三视角下;右:第一视角视频采集设备
从第三视角看世界,和从第一视角和世界互动,有显著差异。比如说,看别人坐过山车和自己坐过山车,体验完全不同。本文摘要翻译自NUS新闻:https://news.nus.edu.sg/nus-facebook-world-class-universities-teach-ai-to-understand-the-world-through-our-eyes/
为了开启下一波AI技术浪潮,为增强现实 (AR) 和智能机器人赋能,AI需要从现在的第三视角转换成第一视角的全新范式。这是因为在第一视角的世界中,常有实时的运动变化,手与物体的交互,多种感官的信息融合。为此,Facebook联合新加坡国立大学 (NUS) 、MIT等世界各地的13所大学组成了一个学术联盟,致力于开展一个长期项目——Ego4D(第一视角的 4D 实时感知 )。
Ego4D链接:https://ego4d-data.org/
来自NUS研究团队的Principal Investigator(主要负责人),助理教授Mike寿政说:“在过去十年里,我们见证了AI在理解图像方面的变革,这是建立在 ImageNet 等数据集所奠定的基础上的。类似的,我相信我们的 Ego4D 数据集,将为第一视角的视频研究打好基础,从而推动智能感知在 AR 和机器人方面的快速发展。”
目前最大的第一视角视频数据集
图 2. Ego4D 是目前最大的第一视角的日常活动视频数据集
大多数AI系统需要大量数据进行训练,现有的大规模视频数据集通常以第三视角为主;而现有的第一视角数据集在规模、多样性和复杂性上都很有限。因此,该学术联盟推出了 Ego4D 数据集:
● 大规模:研究人员分发头戴式相机或者AR眼镜给数据采集者,从而收集了累计3,000 小时的、日常活动中的第一视角视频;
● In-the-wild:包含了人们的日常生活的数百种不同活动,记录了相机佩戴者在关注什么,用手和面前的物体做什么,以及他们是如何与其他人互动的;
● 多样性:涵盖全球 73 个地点、9个国家,700 多名不同背景、种族、职业、年龄的数据采集者,囊括不同的文化和地理差异;
● 抽好的特征:所有视频,均有预先抽好的SlowFast特征,方便大家进行实验;
● 授权公开:这些数据将于 2021 年 11 月公开,视频中的所有可见人脸和可听懂的语音均已获得参与者的授权。
新任务,新技术
图3. 通过采集的第一视角视频数据,Ego4D团队可以开发AI模型来解决新的任务
与数据收集同样重要的是,定义正确的任务,进行严格的人工标注,来引导新技术的研发。
为此,Ego4D 学术联盟联合构建了五个全新的、具有挑战性的任务:
(1) 情景记忆:什么时候发生了什么?如图3A, 告诉我钱包最近一次出现的位置。
(2) 预测未来:我接下来要做什么?如图3B, 他即将跳起来抓住单杠。
(3) 手与物体交互:我在做什么以及如何做?如图3C, 告诉我下一步的操作。
(4) 视觉+听觉:多人场景下,谁在什么时候说了什么?如图3D, 生成会议内容的总结。
(5) 社交交互:人与人如何交互?如图3D, 我注视着他,而他正在对我说话。
“我们NUS研究团队主要为其中两个关键任务开发模型:一是,利用声音和视觉线索帮助AI识别“谁在什么时候说了什么;二是,开发具有社交智能的 AI,检测当下谁在对谁说话,谁在关注谁。”同样来自NUS团队的Co-PI李海洲教授如是说。
有第一视角感知能力的AI,将赋能AR眼镜、智能机器人等等同样是第一视角的设备,将在我们的日常生活和工作中发挥更大作用。想象一下:在对着新菜谱做菜时,不必再来来回回地看菜谱,你的AR 眼镜就可以实时地同步指导你执行每个步骤;对于有阿尔茨海默症等健康问题的人,AR眼镜可以帮助他们回忆钱包放在哪里了。
Ego4D数据集只是起点,研发第一视角AI技术,进而赋能智能机器人、AR眼镜,将在不远的将来,改变我们的生活、工作、娱乐方式,带给我们前所未有的、虚拟与现实交融的体验。
更多技术详情请见Arxiv论文:https://arxiv.org/abs/2110.07058附:Ego4D 计划的学术联盟包括以下主要负责人:CV Jawahar (印度国际信息科技研究院,海得拉巴), David Crandall (印第安纳大学), Dima Damen (布里斯托大学), Giovanni Maria Farinella (卡塔尼亚大学), Kristen Grauman (Facebook AI), Bernard Ghanem (阿卜杜拉国王科技大学), Jitendra Malik (Facebook AI), Kris Kitani (卡内基梅隆大学和卡内基梅隆大学非洲校区), Aude Oliva (麻省理工学院), Hyun Soo Park (明尼苏达大学), Jim Rehg (佐治亚理工学院), Yoichi Sato (东京大学), Jianbo Shi (宾夕法尼亚大学), Antonio Torralba (麻省理工学院), Mike Zheng Shou (新加坡国立大学), and Pablo Arbelaez (哥伦比亚安第斯大学)。cc博客网(公众号:cc博客网)
cc博客网版权文章,未经授权禁止转载。详情见转载须知。
Tags:clash免费订阅
相关文章
- 百度吴甜:首席AI架构师培养计划持续为行业输送高端复合型AI人才
- 华为的「军团」组织模式:破茧重生,还是作死?
- 领英关闭?官方辟谣:战略调整
- 拿下200万美元奖金,DARPA地下挑战赛冠军机器人长啥样?轮式、腿式、飞行,多形态齐上阵!
- 当世界模型被用于sim2real:机器人通过视觉想象和交互尝试来学习
- EMNLP2021 | 东北大学提出:一种基于全局特征的新型表填充关系三元组抽取模型
- 腾讯云TCE「一朵云」的实践
- 腾讯电子签上线买卖合同,C2C交易无后顾之忧
- 酸酸乳节点机场分享-网络(trojan/ss)节点多条更新(2021/10/14)
- 英特尔下一个时代的『CPU』,10倍以上性能提升,1000倍能耗降低
猜你喜欢
纸飞机ss/ssr节点梯子账号分享-最新v2ray节点地址链接-每日更新(2022/9/13)
技术好文今天星期二,cc博主继续为大家提供纸飞机ss/ssr节点梯子账号分享-最新v2ray节点地址链接,更新于2022年9月13日17点更新,最新v2ray节点分享。需要付费节点下方推荐点击v2rayn出门右拐即可,周末更新资源部分可用,免费资源不易,请大家珍惜。C...
阅读更多英伟达正将其在AI领域的成功经验复制到量子计算
芯片对一些人来说,量子计算(Quantum computer)可能听上去像是科幻小说,是几十年后的情景。实际上,全球已经有不少人已经投入这项前沿计算的研究中,有超过2100篇量子计算的研究论文发布,有超过250家量子计算初创公司,有22个国家级量子计算相关的政策...
阅读更多没太多惊喜的速卖通卖家大会
业界作者:代润泽编辑:麦广炜今年开年以来,阿里海外业务发生了重大架构调整,行业对速卖通的未来发展非常期待。4月19日,速卖通召开了2022年度峰会,新任总经理张凯夫宣布了速卖通未来最重要的三件事。总结下来,扶持品牌化商家,推出金银牌体系和AE Mall...
阅读更多最新酸酸乳节点账号分享-永久v2ray(vmess)节点链接不定期更新(2022/3/14)
技术好文最新酸酸乳节点链接分享及v2ray节点推荐,开放分享,有什么问题可评论区留言给我。重要提示:本站提供的都是免费且公共的节点,稳定性与连接速率无法与那些收费版的高速机场节点相提并论,不能奢望太多。常见问题,统一回复:第一:注意你自己的网络环境(本地连接当中的DN...
阅读更多性冷淡是怎么回事?
健康问答今天是小敏和小鹏结婚1周年的日子,平时由于小鹏工作繁忙和劳累,甚至连性生活都很少顾及。好不容易有了这共同的喜庆时间。于是小敏早早就开始布置,并下厨给小鹏做了美味可口的大餐,就等着晚上的浪漫时刻。随着夜幕的降临,温馨浪漫充满了他们的小屋,当小敏穿着性感的睡衣依偎...
阅读更多