预测过去?DeepMind用AI复原古希腊铭文,登Nature封面

2022-03-14 11:19:47   来源:商业新知网

用深度神经网络(DNN)修复受损的古希腊铭文,DeepMind 探索 AI 与古文字学的融合。

人类文字的诞生标志着历史的曙光,对于我们了解过去的文明和今天生活的世界至关重要。例如,2500 多年前,古希腊人开始在石头、陶器和金属上书写,记录下了包括租约、法律、日历、神谕在内的所有内容,从而令后人详细了解地中海地区。遗憾的是,这种记录是不完整的。

几个世纪以来,许多遗留下来的铭文已被损坏或从原来的位置移走。同时,放射性碳测年法等现代测年技术不能用于这些材料,导致解释铭文变得困难且耗时。

DeepMind 一直探索如何利用 AI 修复古老的语言。2019 年 10 月,DeepMind 联合牛津大学共同打造了 AI 工具 Pythia,它可以通过训练神经网络来修复古希腊铭文中缺失的字符或单词。

近日,在最新一期 Nature 封面文章中,DeepMind 联合威尼斯大学人类学系、牛津大学经典学院的研究者,探索利用机器学习来帮助历史学家更好地解释这些铭文,从而让人们更深入地了解古代历史,并释放 AI 和历史学家之间合作的潜力。

他们提出了首个可以恢复受损铭文缺失文本、识别原始位置并帮助确定创建日期的深度神经网络 —— Ithaca,它是以荷马史诗《奥德赛》中的希腊伊萨卡岛命名,在之前的 Pythia 工具上构建并进行了扩展。

论文地址:

https://www.nature.com/articles/s41586-022-04448-z

GitHub 地址:

https://github.com/deepmind/ithaca

研究结果表明,当单独使用时,Ithaca 在恢复受损铭文文本方面的准确率达到了 62%。相比之下,参与的历史学家的准确率为 25%,不过他们使用 Ithaca 可以将这一数字提升到 72%。

同时,Ithaca 在识别铭文原始位置方面的准确率达到了 71%,鉴定它们的年代只与真实日期范围相差不到 30 年。历史学家已经使用 Ithaca 重新评估了希腊历史上的重要时期。

此外,为了让广大研究人员、教育工作者、博物馆职员及其他人使用他们的研究成果,DeepMind 与谷歌云、谷歌艺术与文化合作推出了 Ithaca 的免费交互版本。并且,DeepMind 还开源代码、预训练模型和交互 Colab 笔记本。

Ithaca 交互版本: https://ithaca.deepmind.com/

下图 1 中修复的铭文(IG I3 4B)记录了一项关于雅典卫城(Acropolis of Athens)的法令,日期为公元前 485/4 年。

下图 2 为 Ithaca 的架构。文本受损部分用符号「-」表示,并人为损坏了字符 。提供输入后,Ithaca 恢复了文本,并识别出文本编写的时间和地点。

研究者相信,这只是 Ithaca 这类工具应用的开始。他们目前正在研究针对其他古语言训练的 Ithaca 版本,历史学家也已经可以在当前架构中使用他们的数据集来研究其他古书写系统,比如阿卡德语、古埃及世俗体、希伯来语和玛雅语言。

Ithaca

该研究使用机器学习进行铭文识别,他们提出了 Ithaca,这是一种经过训练的深度神经网络架构,可以同时执行文本恢复、地理归因和时间归因任务。

Ithaca 是在最大的希腊铭文数字数据集上训练完成,该数据集由帕卡德人文学院 (PHI)提供,这是一个非营利基金会,成立于 1987 年,该机构旨在为基础研究创建工具人文学。通常来讲,自然语言处理模型使用单词进行训练,它们在句子中出现的顺序以及单词之间的关系可以提供额外的上下文和含义。然而 Ithaca 的铭文损坏严重,丢失了大部分文本块。为了确保模型有效,该研究使用单词和单个字符作为输入。模型核心为稀疏自注意力机制,用来并行计算这两个输入(单词和单个字符)。

图 3:Ithaca 的输出

为了最大限度地发挥 Ithaca 作为研究工具的价值,该研究还创建了许多视觉辅助工具,以确保 Ithaca 的研究结果易于被历史学家解读:

恢复假设:Ithaca 为文本修复任务生成几个预测假设,供历史学家利用自身专业知识进行选择;

地理归属:Ithaca 通过为历史学家提供所有可能预测的概率分布来显示其不确定性,而不仅仅是单个输出。因此,Ithaca 返回代表其确定性水平的 84 个不同古代区域的概率。可以在地图上将这些结果可视化,以阐明古代世界可能存在的潜在地理联系;

时间归属:当需要确定一篇文献的年代时,Ithaca 会产生从公元前 800 年到公元 800 年预测日期分布,这可以使历史学家了解模型对特定日期范围的可信度,提供有价值的历史见解;

显着图:为了将结果传达给历史学家,Ithaca 使用计算机视觉中常用的一种技术来识别哪些输入序列对预测的贡献最大,输出以不同颜色强度突出 Ithaca 预测缺失文本、地点和日期的单词。

数据集与模型

为了训练 Ithaca,该研究开发了一个 pipeline 来检索未处理的 PHI 数据集,该数据集由 178,551 个铭文转录文本组成。每个 PHI 铭文都被分配了一个唯一的数字 ID,并标有与写作地点和时间相关的元数据。PHI 共列出了 84 个古代区域,而年代信息以多种格式记录,从历史时代到精确的年份间隔,用多种语言编写。PHI 数据集在经过处理和过滤后,该研究得到新数据集 I.PHI,据了解这是最大的机器可操作铭文多任务数据集,包含 78,608 个铭文。

由于部分铭文文字丢失,该研究将字符和单词作为输入,用特殊符号 [unk] 表示损坏、丢失或未知的单词。接下来,为了实现大规模处理,Ithaca 的主干是基于 transformer 的神经网络架构,它使用注意力机制来衡量输入的不同部分(如字符、单词)对模型决策的影响过程。通过将输入字符和单词表示与它们的顺序位置信息连接起来,注意力机制得到输入文本的每个部分的位置。

Ithaca 的主干由堆叠的 transformer 块组成:每个块输出一系列处理后的表示,其长度等于输入字符的数量,每个块的输出成为下一个块的输入。主干的最终输出被传递给三个不同的任务头,分别处理恢复、地理归属和时间归属。每个头都由一个浅层前馈神经网络组成,专门针对每个任务进行训练。在图 2 所示的例子中,恢复头预测了三个丢失的字符;地理归属头将铭文分为 84 个区域,并且按时间顺序的归属头将其追溯到公元前 800 年至公元 800 年之间。

该短语的前三个字符被隐藏,Ithaca 提出了修复建议,同时,Ithaca 还预测了铭文的地区和日期

评估

如下表 所示,对于恢复任务,Ithaca 始终优于竞争方法,获得 26.3% 的 CER 和 61.8% 的 top 1 准确率。具体来说,与人类专家相比,Ithaca 实现了 2.2 倍(即更好)的 CER,而与 Pythia 相比,Ithaca 的 top 20 预测实现了 1.5 倍的性能提升,准确率为 78.3%。

值得注意的是,将历史学家与 Ithaca 组合时,借助 Ithaca 辅助的人类专家的 CER 为 18.3%,top 1 准确率为 71.7%,与原始人类专家 CER 和 top 1 相比,提高了 3.2 倍和 2.8 倍。

关于区域归属,Ithaca 的 top 1 预测准确率为 70.8%,top 3 的预测准确率为 82.1%。最后,对于时间归属,从真实日期间隔到人类基线预测的平均时间是 144.4 年,中位数是 94.5 年,但 Ithaca 中位距离仅为 30 年。

关键词: 历史学家 神经网络

上一篇:
下一篇:
精彩阅读

预测过去?DeepMind用AI复原古希腊铭文,登Nature封面

热点

用深度神经网络(DNN)修复受损的古希腊铭文,DeepMind探索AI与古文字学的融合。

单张GPU搞定GPT-3超参数!先训练小模型,再“一键迁移” | 已开源

热点

一个GPU没法训练GPT-3,更别提在上面调整超参数了。

黑客大神用什么杀毒?Windows自带的就够,只是加了亿点微小的强化

热点

这年头Windows电脑还需要杀毒软件吗?现在搜索这个问题,会发现很多建议都是“裸奔就行”。

元宇宙+教育③丨基于元宇宙的智能在线学习环境构建

热点

当代学习环境正在转向智慧、非正式、整合、互动和创新。智能学习环境需要支持学生个性化学习、终身学习和可持续发展。

虎扑网友又闯祸,只因一句口嗨?女主播:裙子我自己撩的!

热点

曾有一位有过伟大成就的人物这样引用心理学家弗洛伊德的发言:“性是人最原始的驱动力”。

马云预言将要实现?未来20年,50%工作逐渐消失,你是否在其中呢

热点

其实,即使未来将会有大批职业被人工智能所取缔,具有人类特质的工作也永远不会消失。

互联网新生态战争的第一战:从改名打响

热点

“元宇宙”的概念什么时候能真正实现?没有人知道。但这个被众人看好的科技互联网未来形态的行业战争,已经打响了。

数字时代 把水稻种到“云端”

热点

近些年来,我国数字经济呈现飞速发展的态势,数字经济规模连续多年位居世界第二。

马斯克“响应”梁建章

热点

面对人口出生率可能赶不上死亡率的可怕现实,马斯克早已向外界亮明自己的主张——鼓励生育。

最年轻图灵奖得主:计算机是数学好的女性的完美学科

热点

这位最年轻的图灵奖得主观察到,机器学习和大数据促成了世界范围内的权力转移。

财富

50亿元!闻泰科技向境外特定客户正式出货

资讯

今日,国内知名果链公司闻泰科技发布一份《关于产品集成业务向境外特定客户正式出货的公告》。公告中提到,公司的产品集成业务与境外特定客

三星高管:希望在今年上半年结束前取代苹果

资讯

据印度经济时报报道,韩国智能手机巨头三星的一位高管表示,凭借其最新推出的高端设备,三星希望在今年上半年结束前取代苹果,在高端手机领

锐科激光:2021年净利润同比增长60.17%

资讯

光纤激光器供应商武汉锐科光纤激光技术股份有限公司发布了2021年度业绩快报。报告显示,2021年实现营收34 10亿元,同比增长47 18%;净利润4

销量首破百万!小牛电动2021年营收37.05亿元

资讯

近日,小牛电动发布了2021年第四季度和全年财务业绩报告。报告显示,小牛电动2021年全年营业收入37 05亿元,同比增长51 6%;净收入2 258亿元

发布会后三小时,苹果MacStudio主机推迟发货日期

资讯

在北京时间 3 月 9 日凌晨 2 点的高能传送春季发布会后不久,所有 Mac Studio 机型都在数小时内被推迟了发货日期。Apple Insider

董明珠回应退休传闻:现在不是考虑这个事的时候

资讯

据央视财经 报道,今晚董明珠作为全国人大代表、格力电器董事长兼总裁,接受了央视的采访。对于是否考虑退休生活,董明珠回应称:没考虑,

总预算91659.00万元北京联通启动总承包集中采购项目招标

资讯

北京联通日前启动综合接入(大客户接入、传送网、宽带接入、WLAN等)总承包集中采购项目招标,项目总预算金额为91659 00万元。公告显示,项目

2021年中国联通北京内网安全基础设施增补工程中标结果公布

资讯

来自联通官方消息显示,2021年中国联通北京内网安全基础设施增补工程招标结果公布,启明星辰、天融信、上海观安和奇安信四家企业入围。公告

按年算账,多退少补!2021年个税年度汇算开始啦

资讯

动动手指就有钱入账?3月1日至6月30日,迎来2021年度个人所得税综合所得年度汇算。简单来说,就是在平时已预缴税款的基础上,按年算账,多退

排队8个月,惠柏新材创业板IPO之路走得有些缓慢

资讯

相比起同期受理企业,惠柏新材料科技(上海)股份有限公司(以下简称惠柏新材)的创业板IPO之路走得有些缓慢,排队8个月,公司近期对外披露了一

单张GPU搞定GPT-3超参数!先训练小模型,再“一键迁移” | 已开源

一个GPU没法训练GPT-3,更别提在上面调整超参数了。

黑客大神用什么杀毒?Windows自带的就够,只是加了亿点微小的强化

这年头Windows电脑还需要杀毒软件吗?现在搜索这个问题,会发现很多建议都是“裸奔就行”。

元宇宙+教育③丨基于元宇宙的智能在线学习环境构建

当代学习环境正在转向智慧、非正式、整合、互动和创新。智能学习环境需要支持学生个性化学习、终身学习和可持续发展。

虎扑网友又闯祸,只因一句口嗨?女主播:裙子我自己撩的!

曾有一位有过伟大成就的人物这样引用心理学家弗洛伊德的发言:“性是人最原始的驱动力”。

马云预言将要实现?未来20年,50%工作逐渐消失,你是否在其中呢

其实,即使未来将会有大批职业被人工智能所取缔,具有人类特质的工作也永远不会消失。

为户外劳动者提供便利 重庆已建成665座“劳动者港湾”

  中新网重庆4月22日电 (韩璐 王雪宇)记者22日从重庆市城市管理局获悉,2020年重庆市已建成“劳动者港湾”665座。今年,重庆还将继续建

沈阳警方侦破特大贩卖毒品案 抓获88名涉毒违法犯罪嫌疑人

  中新社沈阳4月22日电 (王景巍)沈阳市公安局22日发布消息,近日,在中国公安部和辽宁省公安厅的指导协调下,历经9个多月,沈阳市公安局

上海警方侦破特大制售假普洱茶案 市场价值高达18亿元

  中新网上海4月22日电 (记者 李姝徵)记者22日从上海警方获悉,2021年3月,上海警方全链条侦破一起销售假冒知名品牌普洱茶案,捣毁制售

西安强化知识产权司法保护 商标权案件占比高

  中新网西安4月22日电 (记者 张一辰)在世界知识产权日即将到来之际,西安市中级人民法院(以下简称:西安中院)22日召开新闻发布会,发

今年5月至明年2月底 江西4A级及以上景区对全国学子免门票

  中新网南昌4月22日电 (记者 李韵涵)记者22日从“红五月·嘉游赣”江西五一假日旅游工作媒体吹风会上获悉,2021年5月1日至2022年2月28

福州乡村公益图书馆:图书“接地气” 门口即是农田

  中新网福州4月22日电 (叶秋云 曾路淇)世界读书日即将来临之际,驾车五十余分钟,记者来到距离福建省福州市30多公里的闽侯县白沙镇马