您现在的位置是：首页 > 人工智能人工智能

AI 与人文共舞！DeepMind 用神经网络修复古希腊铭文，登顶Nature最新封面

cc博主2022-03-11【人工智能】747人已围观

AI 与人文共舞！DeepMind 用神经网络修复古希腊铭文，登顶Nature最新封面第1张

作者 | 西西

编辑 | 陈彩娴

今天，人工智能领军团 DeepMind 又爆出了一项重要成果：用深度神经网络修复古希腊受损的石碑铭文，号称「Predicting the Past」（预测过去），在以Nature为首的科学媒介上掀起了一番热烈关注。

他们以古希腊的岛屿名为该模型命名——「Ithaca」（伊萨卡岛），以表对古希腊文明的神往。在荷马史诗《奥德赛》中，伊萨卡岛是英雄奥德修斯（Odysseus）的故乡。传闻，公元前1183年，国王奥德修斯在特洛伊战役中取得胜利后，历经十七年的艰险斗争，战胜无数困难，最终回到伊萨卡岛，与妻儿幸福团聚。

「伊萨卡」也从此成为古希腊文明中「家」的象征。这可能也是 DeepMind 迄今为止被赋予了最浪漫名义的 AI 模型。

在官方推特中，他们也称，希望能够「帮助历史学家，更好地理解古代历史」，马上就收获了过千的点赞：

AI 与人文共舞！DeepMind 用神经网络修复古希腊铭文，登顶Nature最新封面第2张

作为「AI for Science」的著名代表，显然，DeepMind 祭出的深度神经网络 Ithaca 打破了外界对它的「纯理工科」误解。在官方博客中，DeepMind 也解释，这次的成果符合他们「实现智能、促进科学与人文发展」的使命。

Ithaca 是 DeepMind 在「AI for Humanity」（用人工智能研究人文社科）的第一个里程碑。那么，这是否意味着：DeepMind 的野心不仅是「AI for Science」，还有「AI for Humanity」？

科学与人文从来便是人类文明的两大黄金分支。历史的前进，从来离不开这两个车轮。往后回看，Ithaca 的出现，或许正是 AI 进军人文社科的起点。

1
揭开 Ithaca 的神秘面纱

3月9日，Nature最新封面发布，Ithaca登顶。古老的土黄铭文与酷炫的深蓝编码交织，完美写就了 DeepMind与威尼斯 Ca' Foscari 大学人文系、牛津大学经典学院和雅典经济大学信息系学者的研究成果：

用神经网络修复、破解几千年前的古希腊铭文，不仅有历史的滚滚黄尘，还有最新的时代印记——人工智能。

相关论文也以“Restoring and attributing ancient texts using deep neural networks”为题发表在了 Nature 上（如下图）：

AI 与人文共舞！DeepMind 用神经网络修复古希腊铭文，登顶Nature最新封面第3张

一个字：秀！?

文字是文明的载体。从两千多年前开始，古希腊人便在石头、陶器和金属上书写文字，以记录租约、法律、日历、神谕等社会生活的内容。但由于年代久远，许多铭文经过风雨摧残，已被损坏，并从原来的位置移走。

在文物修复一块，现代的测年技术（如放射性碳测年）并不能用于研究刻在石头、陶瓷和金属等材料上的铭文，使得这些铭文难以解读或解读十分耗时。因此，DeepMind 的团队开始思考：是否可以用人工智能帮助历史学家解释铭文？

于是，他们与历史学家们合作，推出了 Ithaca——据称，这是第一个可以恢复受损铭文的缺失文本，识别铭文在载体上的初始位置、以确定书写年限的深度神经网络。

Ithaca 的架构如下：文本的损坏部分用破折号“-”表示；此外，DeepMind 研究团队还人为地破解了字符“δημ”。提供输入后，Ithaca 会自动恢复文本，并识别文本的编写时间和地点。

AI 与人文共舞！DeepMind 用神经网络修复古希腊铭文，登顶Nature最新封面第4张

据介绍，Ithaca 在帕卡德人文学院（Packard Humanities Institute）最大的希腊铭文数字数据集上进行训练。

通常来说，自然语言处理模型是使用单词进行训练，因为它们在句子中出现的顺序以及单词之间的关系提供了额外的上下文背景和含义。但由于许多铭文都处于损坏状态，并且经常有大块的文字丢失。因此，为了确保模型适用于文字损失状态，他们使用了单词和单个字符作为输入来训练。模型核心的稀疏自注意力机制会并行评估这两个输入，以更好地评估铭文。

AI 与人文共舞！DeepMind 用神经网络修复古希腊铭文，登顶Nature最新封面第5张

图注：Ithaca 的输出。(a) 雅典铭文 (IG II² 116) 中 6 个缺失字符（用「-」表示）的恢复预测。绿色的顶部修复是正确的（συμμαχία，「联盟」的意思）。注意红色部分的假设（ἐκκλησία，「集会」和 προξενία，「国家与外国人之间的条约」）常出现在雅典的政治法令中，这也揭示了 Ithaca 对上下文的接受度。(b) Amorgos 铭文的地理归属 (IG XII 7, 2)。Ithaca 的顶部预测是正确的，最接近的预测是相邻区域。(c) Delos 铭文的日期分布 (IG XI 4, 579)。灰色部分是真实日期公元前300-250年，而 Ithaca 的预测分布为黄色，平均值为公元前 273 年（绿色），准确率极高。

为了最大限度地发挥 Ithaca 的价值，DeepMind 团队还创建了许多视觉辅助工具，以确保 Ithaca 的研究结果容易被历史学家解读：

恢复假设：Ithaca 为文本恢复任务生成了几个预测假设，供历史学家使用他们的专业知识进行选择。
地理归因：Ithaca 通过为历史学家提供所有可能预测的概率分布（而不仅仅是单个输出）来显示其不确定性。它会返回代表其确定性水平的 84 个不同古代区域的概率。它在地图上将这些结果可视化，以阐明古代世界可能存在的潜在地理联系。
年代归属：在对文本进行年测时，Ithaca 会生成从公元前 800 年到公元 800 年所有十年的预测日期分布。这可以使历史学家对特定日期范围的置信度可视化，可能会提供有价值的历史见解。
显着性映射：为了将结果传达给历史学家，Ithaca 使用计算机视觉中常用的一种技术来识别哪些输入序列对预测的贡献最大。输出以不同颜色强度突出显示导致 Ithaca 预测缺失文本、位置和日期的单词。