AI研究甲骨文：五年的工作一天就做完了- 通历史

首页 > 历史人物 > 商朝 > AI研究甲骨文：五年的工作一天就做完了

中文名:: AI研究甲骨文：五年的工作一天就做完了
别名:
国籍:: [!--guoji--]

人物简介:: 而中文的故事，还要从甲骨文说起。甲骨文是现存最早的文字，最早的甲骨文可以追溯到春秋时代（约公元前1200年），它的发现将中国信史向上推进了约1000年，可以解读出大量珍贵信息。然而，甲骨文研究是一项极度消耗人力的工作。全世界目前已发现

商朝名人推荐

AI研究甲骨文：五年的工作一天就做完了资料

AI研究甲骨文：五年的工作一天就做完了简介 文章

[!--ziliao--]

而中文的故事，还要从甲骨文说起。

甲骨文是现存最早的文字，最早的甲骨文可以追溯到春秋时代（约公元前1200年），它的发现将中国信史向上推进了约1000年，可以解读出大量珍贵信息。

然而，甲骨文研究是一项极度消耗人力的工作。

全世界目前已发现的殷商甲骨文不到5000字， 真正被释读出来的字数仅在1500-2000字之间。在“先秦史研究室”网站上，学者们会公布最新的甲骨文较重、缀合结果， 依靠人力，一年只能更新几十组。甲骨文的整体研究工作往往被基础资料整理所困，推进困难。

首都师范大学甲骨文研究中心的莫伯峰教授团队，联合微软亚洲研究院武智融研究员，希望用人工智能找到甲骨文难题的另一个解法。

“较重”难题

1899年，金石学家王懿荣用龙骨熬药时，发现龙骨上刻着一些“符文”。因为对古文字颇有研究，他辨认这不是单纯的划痕，而是一种远古时期的文字，随即把它们收藏了起来。在殷墟甲骨被科学挖掘以前，经历了多年的私人挖掘、倒卖，因此流散到了很多地方。

从甲骨文首次被发现至今，出土的甲骨实物约有15万片。这些甲骨在不同的人手中流转，留下了多张拓本图像， 这些对同一片甲骨的不同拓本被称为“重片”，是解读甲骨文的重要材料。

不同时期的拓片，外观差距很大｜微软亚研院

甲骨重片数量繁多，质量参差不齐， 整理和校对重片成了一项重要的基础工作，被称作“校重”。多年来，校重依靠学者靠肉眼和经验一一对照，费时费力。正如《甲骨文合集补编》前言中所述：“这种对重、选片的工作，其烦琐、费工是局外人难以想象的。”

到了今天，大多数拓本图像已经数字化，一个新想法应运而生：人工智能是不是可以为校重工作加速？

难题的另一种解法

微软亚洲研究院的武智融一直在寻找一个好课题。毕业后，他专注于研究视觉方面的自监督模型，了解到甲骨文研究的困境后，他感到豁然开朗：“甲骨文既是文字，又是图像，比一般的多模态研究更有趣。”

一开始，他想研究甲骨文释读，但之后武智融发现，想要释读甲骨文，就得先把较重工作做好。

在武智融看来， 较重工作天然就适合机器来做。判断一张拓片是不是重复的，理论上需要把它和现存的重片都比对一遍。随着时间流逝， 甲骨不仅会模糊，还会破裂成小块，一些不完整的拓片让较重工作更难。

B（局部）和 A（整片）是重片，C（局部）和A（整片）是重片，不能断定B和C就一定是重片。这种情况下，基于全局特征来计算两张拓片相似度的办法就不奏效了。

于是武智融决定从局部下手： 如果两张拓片的多个“点与点”之间能够精准地对应上，便能断定它们很大程度上为重片。

尽管字迹模糊，但每个字的关键点仍然可以对应｜微软亚研院

武智融训练了一套自监督学习的深度神经网络算法——甲骨文校重助手 Diviner。

自监督学习与监督学习的区别，在于 模型在训练时是否需要人工标注的标签信息。所谓监督学习，是利用大量的标注数据来训练模型，使模型基于标记的输入和输出数据进行推理，而自监督学习是让模型自己来寻找规律进行分类。

武智融先尝试用监督学习的方式训练，但发现这种方式并不适用甲骨文校重。首先， 重片的形状差异大，模型很快就被搞迷糊了，其次， 监督学习需要人工标注大量的数据，而甲骨文的数据没有那么多。

于是武智融决定把这个工作交给模型自己去解决：人类更擅长给出基于整体的、甚至主观“微妙”的判断，如果是循着规律的密集排查，机器的效率远在人之上。

变粗变细变模糊，都是同一个字，对人类来说很简单的道理，机器却不一定学得会｜微软亚研院

当然，基于局部匹配的方法能行得通还有很重要的一个原因： 来自于同一块甲骨的重片，文字大小是不会变动的。武智融将每张拓片分割成能承载足够信息，又尽可能小的方格，哪怕重片是破碎的，也可以对应得上。

新模型的比对效率甚至高于他的预期。

将18万幅数字化拓本输入Diviner之后，模型发现了大量甲骨重片，不仅复现了专家过去所发现的数万组重片，而且经过初步整理， 已发现了三百多组未被前人发现的校重新成果。

给人类专家做助手

Diviner成果已经在对专家工作产生实质性的帮助。

Diviner新发现的重片，补齐了一些没有拓全的拓本，一些时间久远字迹模糊的拓本也被清晰的重片替代。过去的很多疑惑都被解决了，专家们如获至宝。

Diviner还可以直接帮助“缀合”。 缀合的目的是将一些支离破碎的甲骨，拼接成一个更完整的甲骨，复原整片甲骨的信息，有助于完整性地解读史料。

人工对Diviner的结果再次验证，从反馈来看，Diviner的“查重”准确率能接近97%。这将 鼓励更多机构甚至个人将其私藏的甲骨文拓本拿出比对，供学术界讨论研究。

很多团队在尝试用人工智能技术帮助甲骨文的研究、传播，他们有人做甲骨文翻译，也有人做“认识甲骨文”小程序，但还是那个老生常谈的问题，人机协作中，机器如何辅助好人类专家。

武智融举了个例子。

甲骨文最初的目的是记录占卜。占卜者将龟甲炙烤后，通过出现的裂纹的长短、粗细、隐现来判断吉凶、成败，并将占卜的内容和结果刻在卜兆的近处，即为卜辞。

武智融和莫伯峰教授交流时才知道，卜兆在拓片上是模糊不清的，判断卜兆信息的位置高度依赖专家经验。

人工智能能帮人类专家做数据、资料的恢复工作，但只有专家学者才知道“一是一横，二是两横，三是三横，四是四横，一横之差，看似相似度非常高，阐释出来的意义却全然不同”。

人工智能技术如何才能对甲骨文研究产生直接且具体的推动作用？随着Diviner项目的进程，他开始更好地理解这个议题。

Diviner还能有其他延伸用途吗？

注：文章中用到的拓本来自四本甲骨著录书。①《甲骨文合集》②《甲骨文合集补编》③《上海博物馆所藏甲骨文字》④《殷虚书契续编》

作者：沈知涵

编辑：翻翻

封面图来源：东方ic

如有需要请联系sns@guokr.com

历史解密 战史风云 野史秘闻 风云人物 文史百科

夺门之变的真相是什么（夺门之变如果失败）

朱祁镇发动夺门之变以后（朱祁镇夺权）

夺门之变（又称南宫复辟）是景泰八年（1457年）被代宗囚禁在南宫的明英宗朱祁镇复位的历史事件。景泰八年正月，景帝病重不能临朝。石亨、曹吉祥、张軏、杨善、许彬、徐有贞等人为了自身利益密谋发动政变。十六日夜，徐有贞、石亨等引军千余潜入长安门掖详情>>

大明王朝的复兴:弘治中兴十八年（弘治中兴与嘉靖中兴）2023-04-24
夺门之变于谦如果抵抗能赢吗（于谦为什么不阻止夺门之变的原因）2023-04-23
明朝的地方行政区划（明朝的行政区划情况介绍）2023-04-23
明朝真实的国土面积（明朝疆域有多大面积变化）2023-04-23

戴高乐投入80万法军在北非参战，为何都没能打败阿尔及利亚

美军电磁炮要复活了？美国国会知道被忽悠，但拜登还想上杆子给钱

原创不易，请随手关注赞赏！作者：毅品文团队战巡基洛夫，欢迎转发！对于火炮来说，实现更远的射程，更快的炮口初速度以及更优秀的打击精度无疑是最重要的追求目标。但是如果走传统的火炮技术发展路线的话，想要实现这些目标就必须付出很大的代价，比如说详情>>

1950年浙江前国军军官主动上交手枪后被枪毙示众

建国后尚小云全国巡演黄牛把票价炒到原来三倍

何亮亮：在京剧四大名旦之中，尚小云的政治待遇不算高，戏曲改革实践却是最超前的。在梅兰芳、程砚秋入选全国政协之时，尚小云正在参加为期两个月的首期戏曲讲习班，衷心接受文艺为工农兵服务的教育，新中国开国大典刚刚落幕，尚小云剧团的第一部新戏就问世了详情>>

开国上将阎红彦,传奇功绩的一生，为何最终却早逝？原因竟是如此

高岗高谈阔论，碰上了此人，却鸦雀无声，如同猫见了老鼠，他究竟有多厉害？

在我国近代有许多著名的将领，今天我们就来说说，高岗高谈阔论，碰上了此人，却鸦雀无声，如同猫见了老鼠，他究竟有多厉害？详情>>

《阿凡达2》定档，即将到来的贺岁档会有惊喜么？

台湾省2340多万人，普通人一个月的工资，到底有多少钱？

在之前的文章中，作者和大家聊了一系列关于台湾省的故事，例如台湾省的人口、台湾省的房价、台湾省的区划等等。今天，我们聊聊台湾省的工资水平。目前，台湾省总人口2340多万。鉴于台湾省复杂的地形结构，台湾省的人口属于非常稠密的。对于台湾省的普通详情>>

中国历史

AI研究甲骨文：五年的工作一天就做完了

AI研究甲骨文：五年的工作一天就做完了简介 文章

历史解密 战史风云 野史秘闻 风云人物 文史百科

最新话题最热话题

热门文章推荐文章

人物

中国历史

AI研究甲骨文：五年的工作一天就做完了

AI研究甲骨文：五年的工作一天就做完了简介文章

您可能喜欢:

历史解密 战史风云 野史秘闻 风云人物 文史百科

最新话题最热话题

热门文章推荐文章

人物

历史解密战史风云野史秘闻风云人物文史百科