您现在的位置是:首页 > 人工智能人工智能
IEEE Fellow 梅涛当选ACM MM 2023大会共同主席,京东“深耕”多模态技术获最佳奖项 | ACM MM 2021
cc博主2021-11-08【人工智能】741人已围观
编辑 | 维克多
日前,第29届ACM国际多媒体顶级会议(ACM International Conference on Multimedia, 简称ACM Multimedia)已于10月20日至24日在成都举办,京东探索研究院凭借跨模态分析技术、多模态交互数字人技术分别斩获最佳开源项目奖及最佳演示奖(Demo)。会上,IEEE Fellow、京东集团副总裁梅涛当选ACM Multimedia 2023大会共同主席(General Co-Chair)。最佳Demo奖:ViDA-MAN: Visual Dialog with Digital Humans
贡献:展示了一个完整的多模态数字人系统,包含语音模块、对话模块、视觉模块、驱动模块以及流模块等。
最佳开源奖:X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics
贡献:跨模态分析的多功能和高性能的代码库,统一了最先进的视觉语言技术中的全面的高质量模块。
关于X-modaler和ViDA-Man
过去十年多媒体领域视觉和语言之间的跨模态分析出现了稳定创新和突破的势头。然而,X-modaler出现之前,还没有一个开源的代码库来支持以统一和模块化的方式训练和部署众多的跨模态分析的神经网络模型。京东探索研究院AI团队模态视觉分析代码库X-modaler是业界首个模块化、标准化的跨模态视觉分析代码库,涵盖了视觉语言领域各种前沿技术,并支持各种多模态任务。它可以轻松复现视觉语言领域目前主流的技术,促进学术界在视觉语言领域的发展。同时也便于工业界集成跨模态视觉分析的模块,推动技术进步。
京东探索研究院跨模态视觉分析代码库X-modaler系统化地集成了跨模态分析各大任务中最常用七大模块(如编码器模块、跨模态交互模块以及解码器模块等),每一个模块也包含了各种前沿技术算法,例如跨模态交互模块可以选择传统的Attention、Top-Down Attention、Meshed Memory Attention以及最新的X-Linear Attention。具体示意如下图:基于这七大模块,X-modaler就可以轻松支持各种多模态任务,如image/video captioning、vision-language pre-training、VQA、VCR、cross-modal retrieval,同时也能很好地复现每个多模态任务中的前沿技术,例如在image captioning的任务中X-modaler集成了京东AI团队从ICCV17的LSTM-A、ECCV18的GCN-LSTM、再到CVPR20的X-LAN。目前代码库支持的算法如下图,后续将不断加入更多最新技术的实现,整个代码库包括使用文档以及预训练模型均已开源(https://github.com/YehLi/xmodaler)。
在传统的AI认知中,视觉领域、语音领域、自然语言领域等领域之前是独立演进的技术和应用,可以认为是单模态技术,而人是一个看、听、说多模态共同工作的智能体,所以多模态技术是未来人工智能应用发展的方向。
京东探索研究院多模态交互数字人技术ViDA-Man致力于打造具备多感官交互能力的人机交互系统,深入多模态交互技术研究,专注于人机交互的消费科技产品打造。基于该技术开发的多模态交互数字人形象引擎,能够提供快速的形象定制能力,从外观的数字化逐渐深入到行为的交互化、情绪的智能化。
ViDA-Man致力于打造具备多感官交互能力的人机交互系统,深入多模态交互技术研究,专注于人机交互的消费科技产品打造。基于现有的人机对话技术,创新性研究类人风格的虚拟形象生成技术,深度融合计算机视觉、自然语言与语音等多项AI技术,结合泛文娱和智能客服场景,提供真人虚拟形象的新型拟人式交互新体验(项目主页:https://ascust.github.io/vidaman/)。
获奖论文展示了一个完整的多模态数字人系统,包含语音模块、对话模块、视觉模块、驱动模块以及流模块等。先进的ASR技术与基于多音色融合的TTS技术使数字人具备了出色听以及说的能力;基于多技能、多回合的对话系统使数字人具备了多样性的应答能力。基于3D重构技术以及神经渲染技术的视觉模块使数字人具备了逼真的外表以及自然的动作。同时流式服务模块将音视频整合,让系统具备低延迟的实时交互能力。各模块并非独立运作,而是有机整合在一起,使得各模态数据真正实现融合。
京东为什么“看中”多模态技术
数字浪潮的推动让人工智能技术已经实现从不可用到可用,AI产品化时期,诸如智能语音识别技术、智能图片处理技术、基于用户兴趣的算法引擎推荐、智能审核技术、AR/VR技术、5G技术等成为了AI落地的抓手,掀起了科技创新的新浪潮。梅涛表示,获奖技术早已服务于京东云打造的虚拟数字人、拍照购、搭配购等多个产品,并开始在产业化、商业化项目中广泛应用。
例如,这些技术已大规模应用于正在如火如荼展开的京东11.11。如,基于计算机视觉以图搜图的搜索应用,辅助以语音对话交互技术的“拍照购”和“搭配购”功能已在刚刚拉开帷幕的京东11.11中大放异彩,通过拍照或截图方式,直接匹配搭配好的时尚单品,打造“一站加购”、“一键买齐”的购物新体验,帮助商家强种草、高转化。
今年京东11.11期间,针对商品营销内容推出的智能写作服务“达人写作”,形成一篇百余字商品文案仅需300毫秒,5分钟可以创作出1000篇文案,覆盖近3000个商品品类,累计生成3,000万AI内容,相比于人工撰写内容点击转化率超过40%,成本降低93.2%。
除京东内部应用之外,这些获得国际学术界顶尖荣誉的领先技术正在通过京东云这个统一平台输出对外赋能各行各业。比如,基于多模态交互数字人技术研发的“虚拟数字人”能助力京东云智能客服产品提升智能接待、服务和虚拟助手的体验。比如,京东云智能客服业务与某银行合作,打造了全国第一个交互式数字人项目“数字柜员”,有别于播报式数字人,“数字柜员”涉及VTM虚拟坐席交互,利用AI技术,实现用虚拟人替代真人柜员办理业务、把控风险。
可以看到,京东AI技术之所以能取得如此优异的成绩,是其在真实复杂场景的有效实践和千锤百炼。作为京东集团对外技术输出的窗口,京东云不仅是政府、企业、家庭数字化转型全生命周期合伙人,并基于人工智能、大数据、云计算、物联网、区块链、隐私计算等技术,通过数智化全链条技术服务,助力千行百业数字化转型,激发产业无限可能。
关于ACM Multimedia
ACM Multimedia是计算机科学领域中多媒体领域的首要国际会议,1993年以来每年召开一次,已成为多媒体领域顶级盛典,大会致力于推动多媒体的研究和应用。
ACM Multimedia 2009 曾在北京举办,ACM Multimedia 2021 是该会议第二次在中国举办。
参考链接:1. X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics, ACM Multimedia 2021.2. ViDA-Man: Visual Dialog with Digital Human, ACM Multimedia 2021.3. Unsupervised Person Image Generation with Semantic Parsing Transformation,CVPR 2019.4. Unpaired Person Image Generation with Semantic Parsing Transformation, TPAMI 2020.5. Down to the Last Detail: Virtual Try-on with Fine-grained Details. ACM MM 2020.6. Boosting Image Captioning with Attributes, ICCV 2017.7. Exploring Visual Relationship for Image Captioning, ECCV 2018.8. X-Linear Attention Networks for Image Captioning, CVPR 2020.cc博客网(公众号:cc博客网)
cc博客网版权文章,未经授权禁止转载。详情见转载须知。
相关文章
猜你喜欢
莱卡云:香港CN2云服务器免备案,仅需15元/月,中国内地/中国香港/美国等多机房可选。
服务器评测公司持有资质 IDC ISP CDN 云牌照 互联网增值电信许可 等资质莱卡云(lcayun.com)是一家国内正规备案的云服务器商家,隶属于广东莱卡信息技术有限公司,主要从事VPS、虚拟主机等云计算产品业务,适合建站、新手上车的值得选择,香港三网直连...
阅读更多最强生产力鸿蒙设备,助力艺术创作,华为MatePad Pro 12.6英寸发布
业界9月6日,华为Mate 50系列及全场景新品秋季发布会正式召开,华为发布了多款新品。其中,华为MatePad系列也迎来了一位新成员——华为MatePad Pro 12.6英寸,这款拥有12.6英寸120Hz高刷OLED原色全面屏的新品,更能促使生产力迸发,让移...
阅读更多盒马启动新一轮裁员,采购线被收回总部,高管团队年终奖缩水
业界6月21日消息,据界面新闻报道,盒马自今年5月开启新一轮裁员,主要集中在各地方区域的采购、运营部门,缓冲期为一个月,到6月底。这并非按照整体比例裁员,而是对具体业务部门和岗位进行优化调整。对此,盒马官方暂未回应。据盒马员工透露,公司约谈其所在区域的采购、运营...
阅读更多北森云计算被曝大量毁约应届生、校招群全员被禁言,公司成立20年至今未盈利且亏损加剧
业界近期,毁约校招生事件不断被曝出,引发了网络热议。继理想汽车、小鹏汽车、哈啰单车相继被曝出毁约校招生后,被誉为HR SaaS第一股的北森云计算,也被曝出大规模毁约校招生。雷峰网(公众号:雷峰网)5月26日消息,近期有大量网友在社交平台脉脉上反映,自己作为22届...
阅读更多智能工厂实现快速转型
业界全球疫情已经导致人们对于个人防护设备(通常被称为 PPE)出现了迫切和持续的需求。但是,第一响应人员(从救护车到 ICU)仍然继续面临着 KN95/N95 口罩和其他防护装备的短缺。制造商正在 24/7 全天候无休地工作,才能出制造足够多的设备,跟上不断增长的...
阅读更多
热评文章
2024年V2ray/Clash/SSR/Shadowrocke俄罗斯-美国免费节点梯子更新(11/6)
长期免费ssr节点机场分享-永久v2ray加速器订阅-每日更新(2024/11/4)
2024年V2ray/Clash/SSR/Shadowrocke印度-美国免费节点机场(11/8)
95 后创业者 VAST 宋亚宸:要做3D「抖音」内容平台
RISC-V基金会如何支持HPC和AI领域的公司?
纸飞机汉化包ios_纸飞机汉化包提示有后门
vps加速器免费加速极光_免费加速器永久免费版不用登录
飞机下载链接_飞机下载链接官网
旋风加速度器xfvzcc_旋风加速度器x353cc功能介绍
搞笑电报员口吐芬芳_电报员口吐芬芳无消音