网易首页 > 网易号 > 正文 申请入驻

专访DeepMind团队:“伊萨卡”复原希腊铭文只是开始

0
分享至

AlphaGo战胜人类世界围棋冠军、AlphaFold在预测蛋白质结构方面准确性和人类实验结果接近、语音合成算法WaveNet帮助“渐冻人”重现更自然的声音,甚至用AI控制核聚变反应……全球范围内最受关注的人工智能公司DeepMind创立至今超过10年,试图用人工智能技术解决一切他们认为最紧迫和最基本的科学挑战。
他们最新瞄准的是那些有着数千年历史的残缺铭文。历史学家们依靠不同的来源重建过往文明的思想、社会和历史,他们的资料大多基于本文,或写在卷轴上,或刻在石头上。铭文就在其中。
“一切都始于与Thea Sommerschield博士讨论历史学家最具挑战性的任务时的一次谈话,我们立刻看到了人工智能和历史研究之间的合作潜力。”DeepMind的希腊人工智能研究科学家Yannis Assael博士和Sommerschield在接受澎湃新闻(www.thepaper.cn)记者采访时如是谈起他们这项最新兴趣的起点。Sommerschield系意大利威尼斯大学人文系玛丽·居里研究员。

Yannis Assael博士(左)和Thea Sommerschield博士。

复原损坏的铭文。这一铭文记录了一项关于雅典卫城的法令。

深度神经网络“伊萨卡”
这项研究由DeepMind、威尼斯大学人文系、牛津大学古典学院以及雅典经济与商业大学信息学系联合完成。
Assael在希腊马其顿大学获得应用信息学文凭后,相继在牛津大学、帝国理工学院学习,最终于2019年在牛津大学获得机器学习博士。而实际上,其从2007年起就开始成为了自由开发者,彼时尚在念高中。其间还创立了AccuInstruments、LipNet Artificial Intelligence等公司。直至2017年,其加入DeepMind。Assael还曾登上2021福布斯欧洲地区“30岁以下30位精英”榜单。
Sommerschieldze则是研究古希腊和古罗马文字的历史学家和铭文学家。其将机器学习应用于研究古地中海的书写文化,她还研究古代和古典西西里岛的社会和文化历史。其现为威尼斯大学的玛丽·居里研究员,同时借调在DeepMind,她也是哈佛大学希腊研究中心的研究人员。
DeepMind在一份新闻稿中写道,人类文字的诞生标志着历史的开端,对我们理解过去的文明和今天生活的世界至关重要。例如,2500多年前,希腊人开始在石头、陶器和金属上书写,记录从租约、法律到日历和预言的一切,让人们对地中海地区有了详细的了解。
然而,Assael等人意识到一个问题,这些记录通常都是不完整的。许多幸存下来的铭文在几个世纪的时间里遭到了破坏,或者从原来的位置被移走或者贩运。此外,现代年代测定技术,如放射性碳年代测定法,无法在这些材料上使用。而传统的铭文学方法涉及到高度复杂、耗时和专业的工作流程,这使得解读铭文既困难又费时。
Assael对澎湃新闻记者表示,在将人工智能切入到铭文复原中,他们的工作涉及三项主要的任务,“文本复原、确定原始的地理位置,以及追溯至铭文书写的时间。”
他们在论文中也指出,受生物神经网络的启发,深度神经网络可以发现和利用大量数据中复杂的统计模式。而近年来计算能力的提高,使这些模型能够应对包括古代语言研究在内的许多领域中日益复杂的挑战。
Assael将目标旨在完成上述三项任务的深度神经网络命名为伊萨卡(Ithaca),该工作始于2019年。“伊萨卡接受了近8万份由帕卡德人文学院(PHI,一个非营利性基金会)提供的希腊铭文数字数据集的培训,它的架构旨在捕捉上下文并有效地处理受损的单词,同时它还可以并行地“注意”输入的不同部分。”他表示。
这些希腊铭文的时间跨度在公元前7世纪至公元5世纪,并横跨古地中海世界。论文中对这些铭文的选择做出2点解释,“首先,希腊铭文记录的内容和语境的多样性,对语言处理构成了极大的挑战;其次,古希腊数字化语料库的可用性,这是训练机器学习模型的重要资源。”
Assael提到,伊萨卡是一种基于Transformer的人工神经网络,它使用注意力机制来衡量输入的不同部分对模型决策过程的影响。相比于循环神经网(RNN)、卷积神经网络(CNN)等,Transformer是一种新的神经网络结构,其仅基于注意力机制,抛弃了传统的循环或卷积神经网络结构。
研究团队提到,自然语言处理模型通常使用单词进行训练,因为它们在句子中出现的顺序和它们之间的关系提供了额外的上下文和含义。例如,“once upon a time”比单独看到的每个字符或单词有更多的含义。然而在这项研究中的挑战是,这些铭文都已损坏,而且经常丢失文本块。
“为了确保模型在使用部分字符时仍能正常工作,我们既使用单词也使用单个字符输入来训练它。”他们提到,模型核心的注意力机制并行地评估这两种输入,允许伊萨卡根据需要评估铭文。
此外,为了最大化伊萨卡作为研究工具的价值,研究团队还开发了一些视觉辅助工具,以确保历史学家能够轻松地解释伊萨卡的结果。

伊萨卡处理δήμο το αθηναίων’ (the people of Athens)的过程。该短语的前三个字符被隐藏,最终提出了修复建议。同时,伊萨卡还预测了铭文的地区和日期。

希腊铭文复原仅有助于理解全球文明图景的一部分
Assael对澎湃新闻记者表示,伊萨卡的目标是提高我们对古代史的理解,并为历史学家提供一个方便的工具来帮助他们的研究。
“出于这个原因,为了让历史学家能够解释伊萨卡,我们创造了大量的可视化图像来呈现所有的伊萨卡推测。这些可视化技术允许专家们使用他们的背景知识来选择最合适的输出,并可能对未探索的历史见解有所启发。”他进一步提到。
论文中详细提到,对于复原任务,伊萨卡并不是提供单一的假设,而是提供了一组根据概率排序的前20个解码预测。在确定地理任务方面,伊萨卡在84个区域中对输入文本进行分类,并通过地图和条形图可视化地实现可能区域预测的排名列表。
在年代方面,为增加可解释性,伊萨卡也不是输出一个单一的时间,而是预测时间的分类分布。更准确地说,伊萨卡将公元前800年至公元800年之间的所有时间处理为,取每10年为一个跨度,也就是说有160个10年。例如,如果日期范围在公元前300至公元前250年间,也就是5个10年,每一个概率分别为20%;而日期如果在公元前305年,则将以100%的概率指定为出自公元前300至公元前310年。评估显示,在复原文本方面,伊萨卡始终优于其他竞争方法,字符错误率(CER)为26.3%,top 1准确率为61.8%。对复原铭文文本和确定原始的地理位置方面,研究团队还引用top-k准确率来衡量,即正确的复原或地理位置是否在前k项预测中。
具体来说,与人类历史学家相比,伊萨卡实现了更低的字符错误率(CER),人类历史学家该项分数为59.6%。另外,与研究团队此前开发的专注于文本复原的皮提亚(Pythia)相比,表现也更为优秀。皮提亚名字取自希腊神殿德尔斐中为阿波罗神传达神谕的女祭司。在文本复原方面,皮提亚皮的字符错误率(CER)为47.0%,虽然高于伊萨卡,但也高于人类历史学家。
值得注意的是,当人类历史学家与伊萨卡合作时,历史学家的字符错误率(CER)大幅降低到18.3%,top 1准确率则从25.3%大幅提升至71.7%。
在地理定位方面,伊萨卡top 1预测准确率为70.8%,top 3预测准确率为82.1%。对于年代追溯,伊萨卡与历史学家提出的范围相差少于30年。 “值得注意的是,在我们的评估过程中,我们看到了多个伊萨卡与历史学家共识一致的例子。”Assael举例谈到,他们看到了伊萨卡如何将雅典的一篇提到尼基亚斯(Nikias)将军的铭文追溯到公元前413年,“这与历史学家提出的范围完全吻合。”
他补充到,“在进一步研究中,我们将伊萨卡的关注重点可视化,看看哪些部分的输入对这一预测贡献最大。我们看到的是个人姓名(Νικίας,“Nikias”)和希腊指挥官的军衔(στρατεγοῖς,“generals”)。尼基亚斯在雅典远征西西里岛的过程中扮演了关键的角色,而这篇铭文也与这一历史事件有关。
论文中也提到了另一案例来展示伊萨卡的潜力。研究团队注意到,目前历史学家对雅典颁布的一系列重要法令的日期存在分歧,这些法令是在苏格拉底和伯里克利等著名人物在世的时期颁布的。长期以来,这些法令被认为是在公元前446/445年之前写的。然而,也有新的证据表明,更有可能是公元前420年。
他们认为,虽然看起来差别不大,但这些法令对我们理解古代雅典的政治史是至关重要的。值得关注的是,伊萨卡对这些法令的平均预测日期是公元前421年,这与最新的推测日期几乎一致。
“雅典帝国主义是希腊历史上最重要的时刻之一。在任何情形下,伊萨卡对这组铭文的预测都不会超过公元前433年,平均预测日期是公元前421年。”研究团队认为,历史学家现在可以使用伊萨卡的可解释性工具来进一步研究这些预测,并使雅典的历史更加清晰。
Assael同时强调,模型改进的空间总是存在的。“特别是随着新铭文的发现,将会为这类文本进一步增加数字文本存储库。”
值得一提的是,Assael认为,伊萨卡很容易适用于任何古代语言,而尽管古希腊在我们理解地中海世界的过程中发挥了重要作用,但它仍只是全球文明图景的一部分。“从拉丁语到玛雅语,以及任何书写媒介,从莎草纸到手稿,我们真的很高兴看到伊萨卡将用于更多新的方向。”
此外,研究团队在论文最后还指出,他们创建了一个开源和公开可用的接口(https://ithaca.deepmind.com),便于历史学家能够使用伊萨进行个人研究,同时促进进一步应用的开发。
“我们确实看到了文化和人文领域人工智能跨学科研究的巨大潜力。”Assael表示,目前仅仅是伊萨卡这样的工具的开始,机器学习和人文学科之间合作的潜力也刚刚展示出来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又一个时代落幕了,7月1日,微软关闭了我们国家所有的线下门店!

又一个时代落幕了,7月1日,微软关闭了我们国家所有的线下门店!

史二了
2024-07-03 11:47:19
深圳大学生熬夜打游戏后手变“鸡爪”,送医院发现中毒

深圳大学生熬夜打游戏后手变“鸡爪”,送医院发现中毒

南方都市报
2024-07-03 17:00:16
72:65!恭喜中国女篮夺冠,首次获得世锦赛冠军

72:65!恭喜中国女篮夺冠,首次获得世锦赛冠军

体育就你秀
2024-07-03 09:32:53
上海东方医院一医生被举报“传播病人下半身裸照”!院方回应

上海东方医院一医生被举报“传播病人下半身裸照”!院方回应

南方都市报
2024-07-03 16:22:22
朝鲜放弃使用中国卫星,改用俄罗斯卫星传输电视信号,韩国尴尬了

朝鲜放弃使用中国卫星,改用俄罗斯卫星传输电视信号,韩国尴尬了

嘿哥哥科技
2024-07-03 13:13:30
中金公司有员工不幸离世 公司回应:深切哀悼并成立专项小组

中金公司有员工不幸离世 公司回应:深切哀悼并成立专项小组

财联社
2024-07-03 15:50:08
女人下面能承受多大的“胡萝卜”?超乎你的想象

女人下面能承受多大的“胡萝卜”?超乎你的想象

温柔圣手
2024-07-03 16:07:11
如果消息属实,那将是天大的讽刺!

如果消息属实,那将是天大的讽刺!

顾礼先生
2024-07-03 15:19:57
艾梅柏已被华纳开除,以后不会参演任何DC电影

艾梅柏已被华纳开除,以后不会参演任何DC电影

小枫大视野
2022-05-28 09:33:46
莫迪不去上合峰会,中方做了特殊安排,拉夫罗夫给中国出了道难题

莫迪不去上合峰会,中方做了特殊安排,拉夫罗夫给中国出了道难题

影孖看世界
2024-07-03 16:10:38
拒绝4000万!詹姆斯最心仪大鱼来了,请求加盟湖人,组超级三巨头

拒绝4000万!詹姆斯最心仪大鱼来了,请求加盟湖人,组超级三巨头

詹妹侃体育
2024-07-03 11:02:36
英雄胡友平月薪仅3500,非日本人学校职员,媒体报道缺失3大信息

英雄胡友平月薪仅3500,非日本人学校职员,媒体报道缺失3大信息

公关界的007
2024-07-03 12:34:47
陆毅小女儿被曝校园欺凌,多次攻击同学长相,本人被骂到关评论!

陆毅小女儿被曝校园欺凌,多次攻击同学长相,本人被骂到关评论!

古希腊掌管月桂的神
2024-07-03 13:50:12
网红“夹包哥”被捅身亡后续:曝离异有个儿子,生前动态一语成谶

网红“夹包哥”被捅身亡后续:曝离异有个儿子,生前动态一语成谶

180°视角
2024-07-03 12:48:11
完了!日本撤走空调压缩机产线,国产空调可以替代吗?

完了!日本撤走空调压缩机产线,国产空调可以替代吗?

怪识TNT
2024-07-02 10:23:00
性萧条时代就要来临了!

性萧条时代就要来临了!

吾天
2024-07-03 01:50:02
小米SU7女车主遮挡车牌停应急车道打卡深中通道!官方:罚400扣18分,驾驶证被暂时扣留,需重新考试

小米SU7女车主遮挡车牌停应急车道打卡深中通道!官方:罚400扣18分,驾驶证被暂时扣留,需重新考试

和讯网
2024-07-03 13:55:45
霸榜全国前三!今天的浙江成了中国“火焰山”,局地体感达40℃,杭州又刷新了今年新高

霸榜全国前三!今天的浙江成了中国“火焰山”,局地体感达40℃,杭州又刷新了今年新高

都市快报橙柿互动
2024-07-03 17:08:39
两名华人在菲律宾遭绑架遇害,家属:一度打电话回来筹措赎金

两名华人在菲律宾遭绑架遇害,家属:一度打电话回来筹措赎金

澎湃新闻
2024-07-03 16:42:27
离岸人民币对美元跌至7.31关口,创去年11月中旬来低位

离岸人民币对美元跌至7.31关口,创去年11月中旬来低位

每日经济新闻
2024-07-03 10:04:10
2024-07-03 17:48:49
澎湃新闻
澎湃新闻
专注时政与思想的新闻平台。
693948文章数 5036044关注度
往期回顾 全部

科技要闻

吴世春:"中国大模型五虎"想跑出来非常难

头条要闻

重庆落马局长借邻居银行卡收钱 结果卡里钱被邻居花掉

头条要闻

重庆落马局长借邻居银行卡收钱 结果卡里钱被邻居花掉

体育要闻

世界第二打第三,成了一场英格兰模仿秀

娱乐要闻

刘亦菲唐嫣深夜晒照,美女贴贴好养眼

财经要闻

张军:房地产是经济收缩的受害者而非原因

汽车要闻

巴黎4S店价格对比 同款车型中国售价打对折

态度原创

家居
艺术
时尚
游戏
本地

家居要闻

温柔简约 浅色基调与明亮空间的协奏

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

今日热点:NCT127主打曲《WALK》;《长相思2》官宣上星......

黄旭东电话致歉JKL 腾讯TES回应:带节奏早习惯了

本地新闻

云游中国 | 走进安塞,寻觅黄土高原文化记忆

无障碍浏览 进入关怀版