而中文的故事,还要从甲骨文说起。 甲骨文是现存最早的文字,最早的甲骨文可以追溯到春秋时代(约公元前1200年),它的发现将中国信史向上推进了约1000年,可以解读出大量珍贵信息。 然而,甲骨文研究是一项极度消耗人力的工作。 全世界目前已发现
纣王妲己日日腻在一起,却没有孩子,其实是妲己不敢有,也不能有
酒池肉林到底是不是商纣王的发明?
有人说:“夏朝是人们生活最幸福的朝代。”你认同这个观点吗?
国博考古·视频 | 走近山西绛县西吴壁遗址商代墓地
夏朝,一个只活在文献中的朝代
妲己祸害商朝江山,遭后人唾骂,为何西施覆灭吴国,却无人指责?
闻仲作为姜子牙真正的对手,虽然战死了,但也得到了足够的尊重
身为大罗金仙,手持打王金鞭,闻太师为什么不敢杀妲己?
纣王到底对贾夫人做了什么,以至于美丽的她跳楼自尽
追踪夏朝.夏代考古的文献解析7:石峁古城(二次重建)是冀都平阳的卫城和夏启首封之城,夏启龙兴于此城
霍英东逝世16周年!霍启刚带着大儿子去朝拜,霍中熙手捧鲜花看着
刘邦打败项羽称帝后,本想学周朝定都洛阳,为何最终选了长安?
乐羊儿子堪比伯邑考第二,但乐羊注定无法成就周文王那样的霸业
这个女人微笑有毒,一笑国破家亡,昏君还乐此不疲,褒姒是不是妖孽
封神演义中,为什么元始天尊从不教姜子牙法术?原因很简单
河南出土五个骷髅头,疑是夏朝遗物?历史上的后羿竟是暴君
走800步王朝延续800年?文王:背你多走一程,姜子牙:天数不可改
姜子牙,为何没能救比干?还是因为卖空心菜的人是妖精?
沃丁以德治商
原创商朝令人谈虎色变的“滴水刑”,并没那么可怕,前提是别胡思乱想
而中文的故事,还要从甲骨文说起。
甲骨文是现存最早的文字,最早的甲骨文可以追溯到春秋时代(约公元前1200年),它的发现将中国信史向上推进了约1000年,可以解读出大量珍贵信息。
然而,甲骨文研究是一项极度消耗人力的工作。
全世界目前已发现的殷商甲骨文不到5000字, 真正被释读出来的字数仅在1500-2000字之间。在“先秦史研究室”网站上,学者们会公布最新的甲骨文较重、缀合结果, 依靠人力,一年只能更新几十组。甲骨文的整体研究工作往往被基础资料整理所困,推进困难。
首都师范大学甲骨文研究中心的莫伯峰教授团队,联合微软亚洲研究院武智融研究员,希望用人工智能找到甲骨文难题的另一个解法。
“较重”难题
1899年,金石学家王懿荣用龙骨熬药时,发现龙骨上刻着一些“符文”。因为对古文字颇有研究,他辨认这不是单纯的划痕,而是一种远古时期的文字,随即把它们收藏了起来。在殷墟甲骨被科学挖掘以前,经历了多年的私人挖掘、倒卖,因此流散到了很多地方。
从甲骨文首次被发现至今,出土的甲骨实物约有15万片。这些甲骨在不同的人手中流转,留下了多张拓本图像, 这些对同一片甲骨的不同拓本被称为“重片”,是解读甲骨文的重要材料。
不同时期的拓片,外观差距很大|微软亚研院
甲骨重片数量繁多,质量参差不齐, 整理和校对重片成了一项重要的基础工作,被称作“校重”。多年来,校重依靠学者靠肉眼和经验一一对照,费时费力。正如《甲骨文合集补编》前言中所述:“这种对重、选片的工作,其烦琐、费工是局外人难以想象的。”
到了今天,大多数拓本图像已经数字化,一个新想法应运而生:人工智能是不是可以为校重工作加速?
难题的另一种解法
微软亚洲研究院的武智融一直在寻找一个好课题。毕业后,他专注于研究视觉方面的自监督模型,了解到甲骨文研究的困境后,他感到豁然开朗:“甲骨文既是文字,又是图像,比一般的多模态研究更有趣。”
一开始,他想研究甲骨文释读,但之后武智融发现,想要释读甲骨文,就得先把较重工作做好。
在武智融看来, 较重工作天然就适合机器来做。判断一张拓片是不是重复的,理论上需要把它和现存的重片都比对一遍。随着时间流逝, 甲骨不仅会模糊,还会破裂成小块,一些不完整的拓片让较重工作更难。
B(局部)和 A(整片)是重片,C(局部)和A(整片)是重片,不能断定B和C就一定是重片。这种情况下,基于全局特征来计算两张拓片相似度的办法就不奏效了。
于是武智融决定从局部下手: 如果两张拓片的多个“点与点”之间能够精准地对应上,便能断定它们很大程度上为重片。
尽管字迹模糊,但每个字的关键点仍然可以对应|微软亚研院
武智融训练了一套自监督学习的深度神经网络算法——甲骨文校重助手 Diviner。
自监督学习与监督学习的区别,在于 模型在训练时是否需要人工标注的标签信息。所谓监督学习,是利用大量的标注数据来训练模型,使模型基于标记的输入和输出数据进行推理,而自监督学习是让模型自己来寻找规律进行分类。
武智融先尝试用监督学习的方式训练,但发现这种方式并不适用甲骨文校重。首先, 重片的形状差异大,模型很快就被搞迷糊了,其次, 监督学习需要人工标注大量的数据,而甲骨文的数据没有那么多。
于是武智融决定把这个工作交给模型自己去解决:人类更擅长给出基于整体的、甚至主观“微妙”的判断,如果是循着规律的密集排查,机器的效率远在人之上。
变粗变细变模糊,都是同一个字,对人类来说很简单的道理,机器却不一定学得会|微软亚研院
当然,基于局部匹配的方法能行得通还有很重要的一个原因: 来自于同一块甲骨的重片,文字大小是不会变动的。武智融将每张拓片分割成能承载足够信息,又尽可能小的方格,哪怕重片是破碎的,也可以对应得上。
新模型的比对效率甚至高于他的预期。
将18万幅数字化拓本输入Diviner之后,模型发现了大量甲骨重片,不仅复现了专家过去所发现的数万组重片,而且经过初步整理, 已发现了三百多组未被前人发现的校重新成果。
给人类专家做助手
Diviner成果已经在对专家工作产生实质性的帮助。
Diviner新发现的重片,补齐了一些没有拓全的拓本,一些时间久远字迹模糊的拓本也被清晰的重片替代。过去的很多疑惑都被解决了,专家们如获至宝。
Diviner还可以直接帮助“缀合”。 缀合的目的是将一些支离破碎的甲骨,拼接成一个更完整的甲骨,复原整片甲骨的信息,有助于完整性地解读史料。
人工对Diviner的结果再次验证,从反馈来看,Diviner的“查重”准确率能接近97%。这将 鼓励更多机构甚至个人将其私藏的甲骨文拓本拿出比对,供学术界讨论研究。
很多团队在尝试用人工智能技术帮助甲骨文的研究、传播,他们有人做甲骨文翻译,也有人做“认识甲骨文”小程序,但还是那个老生常谈的问题,人机协作中,机器如何辅助好人类专家。
武智融举了个例子。
甲骨文最初的目的是记录占卜。占卜者将龟甲炙烤后,通过出现的裂纹的长短、粗细、隐现来判断吉凶、成败,并将占卜的内容和结果刻在卜兆的近处,即为卜辞。
武智融和莫伯峰教授交流时才知道,卜兆在拓片上是模糊不清的,判断卜兆信息的位置高度依赖专家经验。
人工智能能帮人类专家做数据、资料的恢复工作,但只有专家学者才知道“一是一横,二是两横,三是三横,四是四横,一横之差,看似相似度非常高,阐释出来的意义却全然不同”。
人工智能技术如何才能对甲骨文研究产生直接且具体的推动作用?随着Diviner项目的进程,他开始更好地理解这个议题。
Diviner还能有其他延伸用途吗?
注:文章中用到的拓本来自四本甲骨著录书。①《甲骨文合集》②《甲骨文合集补编》③《上海博物馆所藏甲骨文字》④《殷虚书契续编》
作者:沈知涵
编辑:翻翻
封面图来源:东方ic
如有需要请联系sns@guokr.com
夺门之变(又称南宫复辟)是景泰八年(1457年)被代宗囚禁在南宫的明英宗朱祁镇复位的历史事件。景泰八年正月,景帝病重不能临朝。石亨、曹吉祥、张軏、杨善、许彬、徐有贞等人为了自身利益密谋发动政变。十六日夜,徐有贞、石亨等引军千余潜入长安门掖详情>>
原创不易,请随手关注赞赏!作者:毅品文团队战巡基洛夫,欢迎转发!对于火炮来说,实现更远的射程,更快的炮口初速度以及更优秀的打击精度无疑是最重要的追求目标。但是如果走传统的火炮技术发展路线的话,想要实现这些目标就必须付出很大的代价,比如说详情>>
何亮亮:在京剧四大名旦之中,尚小云的政治待遇不算高,戏曲改革实践却是最超前的。在梅兰芳、程砚秋入选全国政协之时,尚小云正在参加为期两个月的首期戏曲讲习班,衷心接受文艺为工农兵服务的教育,新中国开国大典刚刚落幕,尚小云剧团的第一部新戏就问世了详情>>
在我国近代有许多著名的将领,今天我们就来说说,高岗高谈阔论,碰上了此人,却鸦雀无声,如同猫见了老鼠,他究竟有多厉害?详情>>
在之前的文章中,作者和大家聊了一系列关于台湾省的故事,例如台湾省的人口、台湾省的房价、台湾省的区划等等。今天,我们聊聊台湾省的工资水平。目前,台湾省总人口2340多万。鉴于台湾省复杂的地形结构,台湾省的人口属于非常稠密的。对于台湾省的普通详情>>