您现在的位置是:首页 > 人工智能人工智能
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
cc博主2022-06-02【人工智能】429人已围观
编辑|陈彩娴
DALL·E 和 DALL·E-2从文本生成图像的魔力,想必大家都已经见识过了。作为深度生成模型,它们能够将文本作为输入,生成匹配给定文本的超逼真图像。不过,DALL·E-2 的一个众所周知的局限性是它在生成带文本的图像时很吃力。例如,给出文本提示:Two farmers talking about vegetables,with subtitles.(两个农民在谈论蔬菜,有字幕)DALL·E-2 生成的图像如下:谁能告诉我这张图上的文字是什么语言?什么意思???在DALL·E-2所生成的带有文本的图像中,DALL·E-2显然在说一种我们人类看不懂的语言。其实这一点在最初的DALL·E-2论文以及Marcus等人对该模型的初步评估中就已经发现了。而最近有人发现,这些让人无法理解的文本并不是随机的!来自德克萨斯大学奥斯汀分校的博士生Giannis Daras 和 Alexandros G. Dimakis教授,发现DALLE-2背后竟然有一套秘密语言,模型内部似乎有一套隐藏的词汇表,从这些隐藏的词汇中,模型会学习一些单词,并创造一些荒谬的文本提示来生成图像。
比如,在DALL·E-2的语言系统里,Apoploe vesrreaitais意思是鸟类,Contarra ccetnxniams luryca tanniounons则表示昆虫或害虫。当你输入这个句子作为文本提示时:Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounonsDALL·E-2生成了下面这些图像,图像内容翻译成英语,显然是“A bird is eating a bug”(一只鸟在吃虫子)DALL·E-2这是「成精」了?DALL·E-2 的秘密语言Daras 和 Dimakis 采用了一种简单的方法来破解DALL·E-2的词汇库。比如,假设我们想找到在DALL·E-2的语言系统中,“ vegetables(蔬菜)”这个英语单词对应的词是什么,就可以用下面这些句子来提示DALL·E-2:
- A book that has the word vegetables written on it.(上面写着“蔬菜”一词的书。)
- Two people talking about vegetables, with subtitles.(两个人在谈论蔬菜,有字幕。)
- The word vegetables written in 10 languages.(以10种语言书写的“蔬菜”一词。)
-它的语言模型是来自CLIP,所以问题一定是来自那个模型。
-我的理解是,它只在图像上进行训练,对吧?它用文本描述对图像进行编码,但它实际上从未 “看到 ”文本描述,除非图像中恰好有文本。
-任何被索引到文本描述的图像文本(或图像文本的插值)都不会只是随机的胡言乱语,这很有道理。有趣的是它如何对语言概念本身进行索引,以及它将它们混合在一起的能力。就像人类对语言的使用一样。
剥其机理两位作者对DALL·E-2的词汇库做了进一步的研究。词汇组合性先来瞅瞅它的 Compositionality(组合性)。从前面的例子中,我们知道 "Apoploe vesrreaitais" 指“鸟类”。通过重复有关农民的提示的实验,我们还可推测 “Contarra ccetnxniams luryca tanniounons”表示“害虫或虫子”。那么一个有趣的问题就来了,DALL·E-2能否把这两个概念组成一个句子呢?如下图所示 ,DALL·E-2可以将词和短语组合成句子,根据 "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" 生成了鸟类在吃虫子的图像。不过这种情况不是发生在所有的生成图像中,所以一致性并不是十分稳健。风格迁移DALL·E-2 能够根据提示中指定的风格,生成一些相关概念的图像。例如,预设我们想得到一个苹果的逼真图像,或苹果的线条艺术。要先测试单词(如Apoploe vesrreaitais)是否对应于视觉概念,这些概念能否根据提示的上下文转化为不同的风格。在下图中提示有时会导致飞虫,而不是鸟类。DALL·E-2 生成的不同风格的 “Apoploe vesrreaitais”,形态虽异,但“会飞的东西 ”这一视觉概念得到了保持。文本和生成图像的一致性回顾一下农民和鸟的例子。当时的提示是:两个农民在谈论蔬菜,有字幕。结果,既发现有蔬菜、也发现有鸟的存在。两个农民谈论鸟类是非常合理的,这就提出了一个非常有趣的问题:DALL·E-2 的文本输出是否与文本条件和生成的图像一致?实验表明,有时我们得到的胡言乱语的文本翻译成视觉概念,与首先产生胡言乱语文本的标题一致。有点绕口,简单一点,就是种瓜得瓜种豆得豆,管它是印象派还是写实派,结出的瓜和豆和最初的瓜豆种子(废话文学快住嘴),能看的出还是有联系的。例如,"Two whales talking about food, with subtitles"(两只鲸鱼在谈论食物,有字幕)产生了一个带有文字 "Wa ch zod ahaakes rea" 的图像。把这段文字作为提示输入模型,在生成的图像中看到了海鲜。结合上图“不同风格的鸟”看来,胡言乱语的文本确实有其含义,有时与产生它的文本条件相一致。在鲸鱼图中,生成图像中不明所以的文字 "Wa ch zod ahaakes rea",与产生的图像、标题和第一幅图像的视觉输出是相关的。
安全性和可解释性的挑战有一种可能是,这些非人类现有语言的单词是不同语言中正常单词的拼写错误,但两位作者在搜索中没有发现任何这样的例子,所以这些词的来源仍然令人困惑。而且在他们的初步实验中,有些词并不像其他词那样具有一致性,也就是说,目前DALL·E-2 的这套语言在从文本生成图像时的稳健性可能不足。初步研究表明,像“Contarra ccetnxni ams lurycat anni ounons”这样的提示有时会产生包含虫子和害虫的图像(约占生成图像的一半),每次还会产生不同的图像,大部分是动物。而“Apoploe vesrreaitais”这个短语的一致性明显更强,可以以各种方式组合来生成具有一致性的图像。如果要测试更多提示语的稳健性,则需要大量的实验。论文作者表示,如果一个系统表现出疯狂的不可预测性,即使这种情况很少发生,也仍然是一个重要的问题,特别是对于一些应用程序而言。另一个有趣的问题是,Imagen是用语言模型训练的,而不是CLIP,它是否也会有一个类似的隐藏词汇库呢?无论如何,生成图像的荒谬提示挑战了我们对这些大型生成模型的信心。显然,在理解这些现象和创建稳健的、与人类预期相一致的语言和图像生成模型方面还需要更多的基础研究。更多细节,可参考论文原文:论文地址:https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf
参考链接:
https://twitter.com/giannis_daras/status/1531693111755149312https://www.reddit.com/r/MachineLearning/comments/v1zzh8/d_dalle_2_has_its_own_secret_language/雷峰网(公众号:雷峰网)雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
Tags:v2ray.com
相关文章
- 2029年会实现通用人工智能吗?Gary Marcus「叫板」马斯克:赌十万美元如何?
- 离开豆瓣的日子
- 阿里云首次盈利背后的「第一性原理」
- 腾讯宣布薪酬大改革:员工升职不再直接加薪;滴滴保密项目鸿鹄、高德网约车马甲被曝光;小米又出电视屏幕自动脱落事件|雷峰早报
- 腾讯启动薪酬大改革:取消晋升直接调整薪资,年度薪酬回顾延期一个月
- 活动预告 | 科技向实,如何增强产业韧性?
- Aquarium华人CEO分享:机器学习在自动驾驶中落地,核心不是模型,是管道
- 招商证券:阿里加快推进全球化战略,国际站核心优势品类形成蓝海市场
- 第三批来了!华为正式宣布新成立三大军团、两大系统部,现已组建20个军团
- 升级Infinite Ajax Scroll的方法
猜你喜欢
没有腾讯撑腰的Sea,被自己反噬了?
业界从2021年至今,Sea(东海集团)在动荡中艰难前行。在外部,Sea集团经历股价暴跌、大股东腾讯减持撤退、竞争对手环伺等艰难局面;在内部,面临着业务衰退、全球化扩张受阻、内部人事动荡等事件。在许多人看来,Sea这艘曾经的东南亚巨轮,已经开始跌落云端。无论是...
阅读更多24小时免费ssr节点更新,v2ray节点订阅地址每日更新(2022/6/2)
技术好文24小时免费ssr节点更新,v2ray节点订阅地址每日更新,今日周四,为大家提供最新白嫖ssr节点及v2ray节点链接分享账号链接付费节点点击右侧栏目图。资源在2022年6月2日17点更新。免费资源并不容易。请珍惜它。蜗牛SEO将继续更新可用资源,并尽最大努力...
阅读更多国产数据库人才培养新模式:243所高校代表队“练兵”数据库大赛
业界“从0到1,系统地打造一个完整的数据库”,是数据库大赛领域的新高度。5月10日,作为国内首个分布式数据库内核开发大赛,“OceanBase数据库大赛”公布获奖名单,来自中国人民大学的参赛队伍夺冠,赢得20万奖金。 “OceanBase数据库大赛”面向...
阅读更多香港云服务器1核1G 50G硬盘 31元/月 香港物理服务器 E5-2650 16G 10M CN2 GIA 900元/月华纳云
服务器评测华纳云, 成立于2015年,香港联合通讯国际有限公司旗下品牌,商业资质齐全,APNIC 和 ARIN 会员单位,拥有自己的网络IP地址和ASN。现有香港、美国等多个地区数据中心资源,百G丰富带宽接入,为海内外用户提供自研顶级硬件防火墙服务,支持T B级超大防护...
阅读更多文化程度也会影响性功能障碍的发生率
健康问答据有关资料统计表明,性功能障碍的发生率随文化程度的升高而减少。有研究发现勃起功能障碍发生率,大学以上文化程度者仅占8%左右,小学至初中文化程度者居多,占50%以上。究其原因不外乎:①由于文化素质限制了对性知识的了解;②文化素质直接影响性心理的形成和调节;...
阅读更多