Nature:人工智能是如何破解古代文本并改写历史的

【字体: 时间:2025年01月01日 来源:nature

编辑推荐:

  从破译烧焦的罗马卷轴到阅读破碎的楔形文字,神经网络可以为研究人员提供比几个世纪以来更多的数据。

  

2023年10月,费代丽卡·尼古拉迪(Federica Nicolardi)的手机收到一封电子邮件,邮件中的一张图片将永远改变她的研究。它展示了一块在公元79年维苏威火山喷发中被烧毁的莎草纸卷轴的碎片。这幅烧焦的卷轴是18世纪在意大利庞贝附近的赫库利翁一座豪华罗马别墅遗址中发现的数百幅卷轴之一。几个世纪以来,人们试图剥开这些易碎的碳化层,留下了许多碎片,学者们不得不接受剩下的部分永远无法打开的事实。

尼古拉迪是意大利那不勒斯大学的一名纸莎草学家,他被征召参与一项利用人工智能(AI)来阅读难以读懂的东西的工作。现在最新的结果已经出来了。照片上是一张纸莎草纸,上面写满了整齐的希腊字母,在黑暗的背景下闪闪发光。

“太不可思议了,”尼古拉迪说。“我想,‘这是真的。’”她当时就知道,纸莎草学永远不会和以前一样了。“在那一刻,你真的会想,‘现在我正在经历一个对我的领域来说具有历史意义的时刻。’”她正在读一篇两千年来完全无法读到的文本的整行。

这个名为维苏威火山挑战(Vesuvius Challenge)的项目只是复杂的人工智能的一个例子,它已经彻底改变了现代生活的各个领域,从银行到医学研究,正准备重塑我们对古代世界的看法。人工神经网络正被用于解读古代文本,从希腊语和拉丁语的经典文字到中国的甲骨文,以及写在牛骨和龟壳上的古代占卜文本。他们正在解读人类无法阅读的大量档案,填补缺失和不可读的字符,解码几乎没有任何痕迹的罕见和消失的语言。

研究结果有望带来大量新文本,为学者们提供几个世纪以来从未有过的更多数据。但这还不是全部。因为人工智能工具可以识别更多的语言,存储比任何人都多的信息——并为自己发现文本中的统计模式——这些技术有望为探索古代资源提供一种全新的方式。这不仅可以改变“我们想要回答的问题”,Nicolardi说,“还可以改变我们可以提出的问题”。

重建古代文本

几十年来,计算机一直被用于对数字化文本进行分类和分析。但目前的兴奋来自于神经网络的使用,它由相互连接的节点组成的分层层,特别是具有多个内层的“深度”神经网络。

在2010年代,将深度学习应用于古代文本的早期尝试是基于文本的数字照片,无论是在纸莎草纸上还是棕榈叶上。受视觉神经科学启发,被称为卷积神经网络(cnn)的模型可以从图像中捕获网格状数据。它们被用于光学字符识别,但也有其他用途:中国研究甲骨文的团队使用这种模型来填充被侵蚀的字母图像,分析甲骨文字符是如何随着时间的推移而演变的,并将破碎的碎片拼凑在一起。与此同时,设计用于处理线性顺序重要的数据序列的循环神经网络(RNNs)开始在搜索、翻译和填补已经转录的文本中的空白方面显示出巨大的潜力。例如,它们被用来在古代巴比伦数百个公式化的行政和法律文本中找出缺失的字符。

神经网络能超越加速繁琐的任务,建立人类专家无法做到的联系吗?第一个展示人工智能潜力的大项目始于2017年在英国牛津大学的一次合作,当时Thea Sommerschield正在攻读古代史博士学位,Yannis Assael正在攻读计算机科学博士学位。萨默希尔德试图破译来自西西里的希腊铭文,并向阿塞尔解释了其中的挑战。她说:“它们读起来非常复杂,保存得很差,部分丢失了。”“我们不确定它们来自哪里,也不确定它们的日期;各种方言的混合很有趣。”

古典主义者通过使用他们对类似现有文本的知识来解释新的来源。他们通常是特定时间和地点的作品专家;一个人不可能掌握所有可能与新文本相关的资源。目前在伦敦谷歌DeepMind工作的阿塞尔表示,这正是机器学习模型可以帮助解决的那种挑战。

研究人员最初训练了一个基于rnn的模型,名为Pythia,它使用了公元前7世纪到公元5世纪之间的数万个希腊铭文。然后,他们给模型看之前没有看过的文本,并要求它指出缺失的单词或字符。

现在在英国诺丁汉大学工作的萨默斯菲尔德仍然记得,她和阿塞尔以及她的导师乔纳森·普拉格第一次运行这个模型时,看到修复后的人物一个一个地出现在屏幕上,这在以前是不可能的。

“这就像电影中的一个场景,”她说。“我们真的感觉自己的下巴碰到了地面。”他们在2022年又做了一个名为“伊萨卡”的模型,该模型还对一份未知文本的起源日期和地点提出了建议。这一次,研究人员利用了机器学习领域的一项突破,即“变形模型”,该模型通过并行分析输入的不同特征(如字符或单词),并根据上下文对它们进行加权,比RNN能够捕获更复杂的语言模式。(OpenAI的ChatGPT和Anthropic的Claude等流行聊天机器人都是基于变压器模型。)

萨默斯菲尔德说,该团队的目标是设计工具,帮助研究人员更有效地工作:神经网络探测大量档案中的连接,人类带来他们的专业理解。“人类是我们设计的中心,”阿塞尔表示赞同。在测试中,伊萨卡修复古代文本中人为制造的空白的准确率为62%,而人类专家的准确率为25%。但在伊萨卡建议的帮助下,专家们取得了最好的结果,填补空白的准确率达到了72%。伊萨卡还以71%的准确率确定了铭文的地理起源,并将它们的年代确定在公认的估计的30年内。

“伊萨卡”可以在网上免费使用,据它的创建者说,每周已经收到数百个咨询。萨默斯菲尔德说,除非作者选择承认,否则不可能知道它何时对研究做出了贡献,但迄今为止报道的例子包括重新确定雅典政治法令的年代,以及对公元前4世纪的石板的调查,其中包含向希腊西北部的多多纳神谕提出的问题。

档案的海洋

与此同时,韩国研究人员在处理世界上最大的历史档案之一时,正面临着截然不同的挑战:这些档案中有数十万篇文章,详细记录了从14世纪到20世纪初27位朝鲜国王的统治时期。“数据量是巨大的,”纽约市纽约大学(New York University)主要的机器翻译研究员曹景贤(Kyunghyun Cho)说。Cho平时研究的是现代语言,但在与退休的韩国文学教授父亲讨论后,对这些档案产生了兴趣。这些记录是完整的,它们的来源是已知的,但几乎没有人能读懂它们。它们是用汉字书写的,这是一种以汉字为基础的古老书写系统,与现代汉语或朝鲜语不同。

一个由政府翻译人员组成的小团队正在努力将这些文本手工翻译成现代韩语,但这项任务可能需要数十年才能完成。Cho与韩国的同事(包括首尔成均馆大学的朴金英)合作,训练了一个基于变压器的网络来自动翻译这些记录。目前还没有足够的材料翻译成现代韩国语来训练这样的模型,因此该团队采用了多语言方法,使用了几十年前翻译成古韩国语的汉字,以及数量有限的现代韩国语和英语翻译。人类专家认为,人工智能翻译——对国事访问、对叛徒的惩罚和音乐会等事件的描述——明显比古代翻译更准确、更可读,在某些情况下甚至比现代翻译更好。

另一方面,研究人员正在使用神经网络来处理只有少量文本保存下来的古代语言。在这些情况下,不能总是使用变压器模型,因为它们需要大量的培训材料。例如,希腊帕特雷大学的Katerina Papavassileiou和她的同事们使用RNN恢复了克里特岛克诺索斯的1100块迈锡尼石碑上缺失的文字,这些石碑上记载了公元前2000年用线形文字B写的羊群。在有人为产生的差距的测试中,该模型的前10个预测包括72%的正确答案,在现实世界中,它经常与人类专家的建议相匹配。为了进一步改善结果,Papavassileiou希望加入视觉数据,比如不完整字母的痕迹,而不仅仅依赖于音译的文本。她还在研究“迁移学习”,即该模型将从一系列平板电脑中学到的经验应用到另一系列平板电脑上。

Papavassilieou希望有一天能使用经过线性B训练的模型来处理线性A,这是米诺斯文明使用的一种文字,它与线性B有许多相同的符号,但从未被破译过。

破译不可读的

也许人工智能解决重大挑战的能力的最终证明是研究人员研究赫库兰尼姆卷轴的成功。“我认为他们正在做一些最惊人的工作,”阿塞尔说。在维苏威火山挑战赛参与者的帮助下,位于列克星敦的肯塔基大学的计算机科学家Brent Seales和他的同事们正在完成一项看似不可能完成的任务:阅读根本看不见的文本。

阅读赫库兰尼姆古卷需要克服两个大问题。首先,这些易碎的卷轴无法展开。为了看到它们的内部,Seales花了数年时间开发“虚拟展开”技术,包括对卷轴的内部结构进行高分辨率计算机断层扫描(CT),煞费苦心地手工绘制横截面每帧可见的表面,然后使用算法将表面展开成平面图像。2015年,研究人员使用这种技术从以色列En-Gedi的一个烧焦的、无法打开的卷轴中读取了完整的文本,该卷轴可以追溯到公元三世纪左右,原来是来自圣经的利未记11。

En-Gedi卷轴有五层;赫库兰尼姆卷轴每卷都有数百个回合,像丝绸一样薄。因此,为了获得极高分辨率的CT数据,研究小组将几个卷轴运送到牛津附近的钻石光源粒子加速器。但是,尽管En-Gedi卷轴和其他后期作品的墨水往往含有铁,在CT扫描中会发出明亮的光,但赫库兰尼姆的抄写员使用的是碳基墨水,在扫描中是看不见的,因为它与纸莎草纸的密度相同。Seales和他的团队意识到,虽然他们不能直接看到墨水,但他们可能能够探测到它的形状。如果裸露的纸莎草纤维与涂有墨水的纸莎草纤维的表面纹理有细微的不同,也许他们可以训练一个神经网络来识别这种差异。

对于西尔斯的小团队来说,工作量太大了,所以他们在2023年3月与硅谷企业家纳特·弗里德曼(Nat Friedman)合作,发起了维苏威火山挑战赛(Vesuvius Challenge),并提供巨额现金奖励。Seales和他的同事发布了卷轴表面的扁平图像,并要求参赛者训练神经网络来找到墨水。超过1000支队伍参加了比赛,每天都有数百人在比赛的Discord频道上讨论比赛的进展。2024年2月,计算机科学专业的学生Youssef Nader、Luke Farritor和Julian Schilliger共同获得了70万美元的大奖,他们制作了16列清晰可读的文本。

获胜的团队使用了一个时间变换器,这是变压器模型的最新版本,通常用于视频,它分别关注空间和时间维度。维苏威火山研究小组用它来区分纸莎草纸的深度尺寸和表面的外观。尼古拉迪和她的同事随后确定,这段文字来自一部此前不为人知的希腊哲学作品,内容涉及音乐、快乐和感觉,可能出自伊壁鸠鲁派哲学家菲洛德穆斯之手。她说,从事这项工作是“神奇的”。

从那以后,参赛者在纸莎草学家的帮助下,一直在努力改进他们的墨水检测算法。与此同时,Seales的团队正在扫描更多的卷轴,并希望机器学习可以加快虚拟展开的步骤。他说,这是目前限制参赛者必须处理的数据的瓶颈。他乐观地认为,人工智能驱动的拆封技术将及时面世,届时有人将获得2024年大奖,奖金为20万美元,因为他阅读了四卷书的90%。“一旦你实现了自动化,你基本上就可以规模化了,”西尔斯谈到展开包装时说。“我们正处在这方面的风口浪尖。”

事实上,西尔斯想要阅读整个图书馆。赫库兰尼姆博物馆有数百卷未开封的卷轴被收藏,大部分在那不勒斯,但也有在巴黎、伦敦和牛津。他说:“对于纸莎草学家来说,这将是一个世纪以来他们从未见过的古代世界的新文本。”

这种方法还打开了其他无法访问的资源,西尔斯称之为“看不见的图书馆”。其中包括隐藏在中世纪书籍封面或古埃及木乃伊包装中的文本,“它就在这里,我们拿着实物,但我们看不懂上面的文字”。研究小组已经从华盛顿特区史密森尼博物馆保存的一份未开封的埃及卷轴中获取了数据,并正在讨论分析来自约旦佩特拉的纸莎草纸,这些纸莎草纸在公元7世纪的一场大火中被烧毁。

更重要的是,一些考古学家认为赫库兰尼姆别墅的大部分图书馆仍在地下。如果它能被挖掘出来,可能会有成千上万的卷轴。阅读所有这些手稿将是“人类历史上最伟大的发现,从古代世界开始,”席尔斯说。“现在,我们有了技术。”

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号