您现在的位置是:首页 > 人工智能人工智能
AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出首个自动匹配排名系统
cc博主2022-10-10【人工智能】412人已围观
作者 | 李梅
编辑 | 陈彩娴
最近的生成式 AI 可谓十分火爆,新出的预训练图像生成模型多到让人目不暇接。无论是肖像、风景,还是卡通漫画、特定艺术家风格元素等等,每个模型都有它擅长生成的内容。
这么多模型里面,如何快速找到一个能满足自己创作欲的最佳模型呢?
近日,卡内基梅隆大学的助理教授朱俊彦等人首次提出了基于内容的模型搜索算法,让你能够一键搜索出最匹配的深度图像生成模型。
论文地址:https://arxiv.org/pdf/2210.03116.pdf在团队基于这套模型搜索算开发的在线模型共享和搜索平台 Modelverse 上,你可以输入文本、图像、草图和给定模型,来搜索出最匹配或相似的相关模型。
Modelverse 平台地址:https://modelverse.cs.cmu.edu/
图注:输入文本(如“非洲动物”)、图像(如一张风景图)、草图(如一只站立的猫的草图)或者一个给定模型,输出排名靠前的相关模型(第二行、第三行)
比如,输入文本“face”,得到结果如下:
输入一只猫咪图像:
输入一匹马的草图:
基于内容的模型搜索
和传统的多媒体搜索一样,模型搜索能够帮助用户找到最适合其特定需求的模型。但基于内容的模型搜索任务有其特殊难点:
判断模型是否可以生成特定图像,这是一个比较难计算的问题,而且很多深度生成模型并没有提供有效方法来估计密度,其本身也不支持评估跨模态相似性。而蒙特卡洛这种基于抽样的方法又会使模型搜索过程变得非常缓慢。
为此,朱俊彦团队提出了一种新的模型搜索系统。
每个生成模型都会产生一个图像分布,所以作者将搜索问题处理为优化,以最大化在给定模型的情况下生成与查询匹配的概率。如下图所示,该系统由预缓存阶段(a,b)和推理阶段(c)组成。
图注:模型搜索方法概览
给定一组模型,(a)首先为每个模型生成 50K 样本;(b) 然后将图像编码为图像特征并计算每个模型的一阶和二阶特征统计。统计数据缓存在系统中以提高效率;(c) 在推理阶段,支持不同模态的查询,包括图像、草图、文本描述、另一个生成模型或这些查询类型的组合。作者在这里引入近似值,查询被编码为特征向量,通过评估查询特征与每个模型统计数据之间的相似性,来检索具有最佳相似性度量的模型。
模型搜索效果
作者对算法进行评估,对 133 个深度生成模型(包括 GAN、扩散模型和自回归模型)进行了消融实验分析。与蒙特卡洛基线相比,该方法可以实现更高效的搜索,速度在 0.08 毫秒内,提升 5 倍,同时还能保持高精度。
通过对比模型检索结果,我们也可以大致了解针对不同查询输入,哪些模型能生成质量更高的图像。比如下图展示了模型检索的结果对比。
图注:模型检索结果示例
最上面一行是图像查询,输入静物画,检索相关艺术风格的模型,得到排名第一的 StyleGAN2 模型和排名最后的 Vision-aided GAN 模型。中间行是草图查询,输入马和教堂的草图,得到 ADM、ProGAN 等模型。最下面一行是文本查询,输入“戴眼镜的人”和“说话的鸟”,分别检索得出排名第一的 GANSketch 模型和 Self-Distilled GAN 模型。
作者还发现,不同网络特征空间的模型性能存在差异。如下图所示,在输入图像查询时,结果显示三个网络 CLIP、DINO 和 Inception 都具有相似的性能;而在输入草图查询时,CLIP 效果明显更好,而 DINO 和 Inception 则不太适合给定查询,它们在艺术风格的模型上表现更好。
图注:不同网络特征空间中基于图像和草图的模型检索比较
另外,这项工作所提出的模型搜索算法还能支持多种应用,包括多模态用户查询、相似模型查询、真实图像重构和编辑等。
例如多模态查询可以帮助细化模型搜索,在只有“Nicolas Cage”的图像时,只能检索到人脸模型;但当同时使用“Nicolas Cage”和“dog”作为输入时,就可以检索到能生成“Nicolas Cage dog”图像的 StyleGAN-NADA 模型。(如下图)
图注:多模态用户查询
当输入是一个人脸模型时,可以检索到更多的人脸生成模型,并且类别保持相似。(如下图)
图注:相似模型查询
给定真实人脸的查询图像,使用排名较高的模型能获得更准确的图像重建。下图是使用不同排名模型的 CelebA-HQ 和 LSUN Church 图像的图像逆映射示例。
图注:将真实图像投射到检索到的 StyleGAN2 模型。
在对真实图像进行编辑的任务中,不同模型的表现也有高低之分。下图中,使用基于图像的模型检索算法排名第一的模型来对真实图像进行逆映射,然后使用 GANspace 进行编辑,从而将浮世绘图像中的皱眉人脸变成笑脸。
图注:编辑真实图像
这项研究已经证明了模型搜索的可行性,而文本、音频或其他内容生成的模型搜索还有很大的研究空间。
但目前来看,这项工作所提出的方法还有一定的局限性。例如,在查询特定的草图时,有时会匹配出抽象形状的模型;而有时进行多模态查询时,只能检索到单一的模型,系统可能会很难处理像一只狗的图像 + “大象”这样的多模态查询。(如下图)
图注:失败案例
另外,在其模型搜索平台上,对检索出的模型列表并未根据其效果进行自动排序,如在生成图像的分辨率、逼真度、匹配度等方面对不同模型进行评估并给出排名,这样可更便于用户检索,也能帮助用户更好地了解目前生成模型的优劣情况,期待这方面的后续工作。
参考链接:
https://twitter.com/junyanz89/status/1578429385719177223
https://www.youtube.com/watch?v=smm0t81st_w
更多内容,点击下方关注:扫码添加 AI 科技评论 微信号,投稿&进群:雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
Tags:手机加速器40倍速度
相关文章
- 椰树直播间被封禁!当地市监局收到多次举报;美团外卖筹备出境,备战日均1亿单;今年第四轮,某互联网健身平台再裁员500人丨雷峰早报
- 2022 年“微软学者”奖学金名单公布,中国高校 10 人入选
- AI 迈进深水区,谈落地、谁能带来新解法? | 2022雷峰网「产业科技 · 最具商用价值榜」
- 水滴筹创始人称中国以外不会推行996文化;财报披露字节跳动全年净亏损6041亿元;李斌回应蔚来在欧洲只租不卖丨雷峰早报
- 莱卡云:香港CN2云服务器免备案,仅需15元/月,中国内地/中国香港/美国等多机房可选。
- 最新番墙ssr节点分享-永久v2ray节点链接-周末福利(2022/10/8)
- 浙大周昆获亚洲图形学学会2022年杰出技术贡献奖
- 留给Shopee的时间不多了
- 突发!华为高管因长跑诱发疾病去世;贾跃亭回归股价大涨,董事接连辞职;iPhone14零件成本上涨,毛利润仍有5千丨雷峰早报
- 最新免费小火箭节点分享-永久v2ray机场链接-每日更新(2022/10/4)
猜你喜欢
宜城红薯:新电商怎么“生生造出”一个新产业?
业界眼下,正是湖北宜城红薯的丰收时节。每天,高速公路上一辆辆满载红薯的大卡车络绎不绝,将宜城红薯发往四面八方,直达全国消费者的餐桌。宜城,这座位于湖北西北部,汉江中游的小城,自古就是鱼米之乡,宜城板鸭、皮蛋、西瓜、大米获得国家地理标志认证。因农产品电商在当地蓬勃...
阅读更多科学修仙,程序猿通过代码驯服野生「雷神之锤」,挥手即来,痛击队友
人工智能最近漫威的新电影《雷神4》小伙伴们看了吗。强大的戮神者戈尔,女版雷神的登场,炫酷的特效,爱与复仇编织的道路,《雷神4》上映的第一周票房便打破了《雷神3》的首映记录。提到雷神,就不免让人想起那把被诸多超级英雄垂涎万分的标志性武器——能够奴驭雷电,召之即来的...
阅读更多从82亿美元降至15亿美元,华为海思营收大降81%,已跌出全球前25名半导体供应商
业界4月16日消息,根据 Gartner 发布的 2021 年的全球半导体研究报告显示,由于美国贸易制裁,影响了中国在全球芯片市场的整体份额,华为海思已跌出全球 25 大半导体供应商的排名。Gartner 研究副总裁安德鲁·诺伍德( Andrew Norwood...
阅读更多滴滴被曝已停止筹备香港上市,APP下架状态将继续保持
业界3 月 11 日雷峰网(公众号:雷峰网)消息,据彭博社援引知情人士的话透露,滴滴全球公司暂停了其计划在香港上市的准备工作。去年从应用商店下架的主要应用,暂时将保持暂停状态。知情人士表示,目前,滴滴及其保荐机构已经停止了原定于今年夏天左右推出的香港上市工作。...
阅读更多机构预计苹果今年将生产2.44亿部iPhone;抖音电商运营团队降低每月基本工资,15薪改18薪;Netflix不排除加入广告 | 雷峰早报
业界机构预计苹果今年将生产2.44亿部iPhone!同比增长4.7%在苹果春季新品发布会前夕,全球市场研究机构TrendForce集邦咨询发布了最新一组数据,其中预测了今年全球智能手机、平板电脑、笔记本电脑以及无线耳机的出货量,还单独预测了iPhone今年的产...
阅读更多