考古出土的青铜器铭文是非常宝贵的文字材料

更新:02-08 民间故事 我要投稿 纠错 投诉

青铜器是商周时期社会祭祀和战争的主要工具。 通过对青铜器的造型、工艺、纹饰、铭文等的研究,我们可以深入了解古代社会的政治、经济、文化。 其中,铸造有铭文的青铜器,是因为留下了古代文字材料,是古文字学、语言学、考古学和古代史研究的重要研究对象。 目前保存的青铜器中,有铭文的有数万件。 其中,可研究的古代文字资料主要是西周至春秋时期。 都是青铜铭文。 可见,金文无论从其本身的古文字学意义,还是其文字内容,都具有很大的研究价值。 解读古文字时,一般要先识字形、读音,再识字义。 意义。 古文字的形体、笔画复杂多样,古文字并不统一。 不同的地方、不同的时代有不同的书写方法。 想要解读古文字,就必须熟悉古文字的原形,比如象形字、表音字、借字等。 除了指物、知物、转注等构词法外,还必须参考甲骨文、战国文字,熟悉《说文解字》等古汉字词典,这是非常有帮助的。难的。 有学者甚至将其归为“独特知识之内”。 总之,解读金文需要研究人员拥有广泛的知识基础和训练,是一项非常具有挑战性的任务。

随着计算机技术特别是图像识别技术的快速发展,基于图像识别技术并结合古文字特别是甲骨文的研究基础来识别古文字已经成为可能。 本文提出了一种新的青铜铭文识别研究方法,利用图像识别技术来识别青铜铭文,希望能够更准确、更广泛地识别青铜铭文,或者说获得铭文中文字的最大相似度,这提供了为进一步解读文本奠定基础。 主要方法是:采集金文图像,同时我们还采集了《古文字》中的甲骨文、金文以及《说文解字》中相同文字的图像,提取出各个古文字,然后使用深度卷积神经网络(CNN)提取图像特征来识别青铜器。 铭文用于获取鉴定结果或推荐结果。

本文的主要贡献如下:1)首次提出了基于CNN的青铜铭文识别模型,采用两阶段距离约束对应关系,并相应设计了两阶段特征映射神经网络模型提取每个文本的特征。 物理特征,最终与目前已知的文字研究结果进行对比,取得了满意的结果,大大减少了考古研究者的搜索和推测空间,有效提高了考古过程中青铜器铭文鉴定的效率和准确性; 2)建成首个数字金文数据库,包含古文字77个、图片2102张。 该数据库为利用深度学习模型识别青铜器铭文的技术路线提供了良好的试验田,也为未来更大规模数据库的采集奠定了基础。 根据。

本文的组织结构如下:首先,第一节简要介绍了图像识别在古文字识别中的研究现状; 然后,第二节讨论了古文本库的构建和碑文识别模型的设计; 第三节,定量和定性实验分析了利用古字部首分析优化碑文识别的模型效果; 最后总结了该方法的改进点和应用前景。

1 研究现状

青铜铭文的研究由来已久。 据史料记载,最早的碑文解读者是西汉末年的张昌。 到了北宋,已有专门的书籍来描述和解释文字,或编成字典。 近代,罗振玉、王国维查阅甲骨文。 为了研究金文,郭沫若编撰了《金文集》,综合了周代金文,研究了周代社会的政治、经济、文化等方面。 在铭文考证方面,荣庚参照甲骨文编着了《生物集》,杨叔达编着了《集微居青铜器铭文综合解说》,中国社会科学院考古研究所编着了《金文》。张雅初在《殷周金文集》中提出了考证解释的十二种方法。 然而,商周青铜器铭文仍有近40%未鉴定,还有近3000个文字需要考证和解读。 此外,金文和甲骨文的比较研究成果还很有限。

目前大多数研究仍以单个青铜器或某考古遗址出土的青铜器为主要对象,对铭文进行考证、收集或补充解释。 研究范围小且有限,如刘渊的《团盘金文考证》、连少明的《安徽省寿县蔡侯墓出土金文考》、朱震雷的《对安徽省寿县蔡侯墓出土金文的解说》等。安徽寿县蔡侯墓”、胡长春、吴劲松的《殷代近十年(2001-2010)》《周金文研究述评》、吴劲松的《整理与整理》近十年新刊殷周金文研究》; 研究方法仍然没有创新。 大多数研究者一般首先引用王国维、杨树达、唐澜、郭沫若、荣庚、陈梦嘉、李学勤、邱锡贵等前辈学者的研究观点,然后用来佐证《论语》等经史经典。 《说文》、《诗经》、《尔雅》、《吕氏春秋》、《周易》,最后从解释出发,对语法和构词法进行简要分析,得出自己的解释。

在古文字计算机识别领域,目前的研究论文大多与甲骨文有关,如周新伦的《甲骨文计算机识别方法研究》、李峰的《甲骨文自动识别的图论方法》甲骨文》、顾绍同的《基于拓扑配准的甲骨文形状识别方法》、吕晓庆的《一种基于图形识别的甲骨文分类方法》等。从研究成果来看,一般是计算机图形学的应用,图解拓扑等方法,具有一定的识别效果,但仍难以达到满意的效果,在应用方面,最新的图像识别技术,有王家梅的《基于图像分割的古彝文字识别系统研究》 ”、孙华的“基于多特征融合SVM的古汉字图像识别研究”、孙莹莹的“基于混合核LS-SVM的古彝文字识别系统研究”。 《汉字图像识别》等,应用图像分割、支持向量机等图像识别技术来识别古汉字。 他们的研究对象是古彝文字或古籍中记载的古文字。 目前尚不清楚所使用的样本规模或样本量是否较小。 该算法虽然有效,但准确率不高,此外,这些研究没有结合古代文字的研究成果,也没有对具体的考古材料进行研究,因此研究成果无法有效应用于考古。

关于青铜器铭文的鉴定,尚未找到有针对性的相关论文。 目前仅发现了陕西省考古研究所吴振峰课题组开发的“青铜器铭文普检”系统。 它使用输入文本来搜索和查阅青铜铭文数据。 目前尚未实现自动识别和验证。 图像识别。

图像识别技术是人工智能的一个重要领域。 近年来,深度学习的兴起使得图像识别技术越来越实用。 特别是,卷积神经网络(CNN)被广泛使用。 CNN 的历史可以追溯到 20 世纪 80 年代。 20世纪末,其创建基于20世纪60年代初的人工神经网络(ANN)和多层感知器(MLP)。 图形处理单元(GPU)的兴起以及GPU处理重复任务的速度使得CNN得以大规模使用。 2012年,计算机视觉智能领域的工作取得了重大飞跃。 Krizhevsky 使用 DeepCNN 赢得了 ImageNet 竞赛,这成为基于深度学习的图像识别技术发展的里程碑事件。 经过几年的研究和发展,Deep CNN 在目标识别、目标检测、目标分割等任务中表现出色。 在ImageNet上,Deep CNN对普通物体的识别已经超越了人类的表现。 尤其是深度学习在文本识别方面表现出色。 这方面也取得了很大进展。 相关研究表明,Deep CNN是一个大型复杂的神经网络。 经过海量数据的训练,Deep CNN 内部的神经元学会了用抽象语义来表达各种概念,例如各种目标物体的特征。 局部肢体、各种表征纹理等,甚至某些神经元可以表达完整的目标。 这些抽象概念分布在神经网络的不同层中,最终形成对目标的整体感知。 Deep CNN 具有强大的特征归纳能力,可以提取不同目标的本质特征,对目标进行准确分类。

2 研究方法

2.1 研究思路

考古学和古文字学研究发现,古代文字字体的演变过程是有迹可循的。 古代文字的字体形式和书法风格在各个时期的演变中都保留着一些特征和风格。 如图1所示,我们以“宝”字的各种进化变体为例。

图1 “宝”字的各种演化变体(包括甲骨文、金文、篆书等)

从图1可以看出,“包”字的演变变体虽然形式不同,但都保持了特征的内在一致性,尤其是部首“人”,如图2所示,显然具有相似之处。 特征。

图2 一个人旁边的不同形态

从“女”字(图3)、“女”字、“好”字(图4)来看,“女”字作为偏旁部首,在以其为基础的字中具有显着的特征。 。 一致性。

上述研究过程属于古字部首解析法。 受这一研究思路的启发,我们将 Deep CNN 用于古文字识别的任务:通过两阶段特征映射,Deep CNN 可以学习古文字整体或部分(如部首)的各种变体的一致性特征,然后用于识别模型未见过的其他变体。 模型设计细节将在后面描述。

图3 “女”字的不同形式

图4 “女”字和“好”字的不同形式

2.2 青铜铭文数据库

为了定量分析本文提出的基于 DeepCNN 的古文本推理方法,我们收集、总结和整理了一个以青铜铭文为主的小型古文本库,包括商周甲骨文、青铜器等。商周时期的器物铭文,时代的陶器、石刻等文字,以及《说文解字》中记载的篆书、古文字。 每个字体或字形图片都是古代字符的变体。 文字图片主要来自高明、屠百奎所著的《古文字》。 “编辑”,其中有一些是金文拓片的图像。 考虑到深度学习模型的需要,作者从手头的数据中随机选取了更多的样本,特别是金文较多的文字,形成了字库。 另外,考虑到金文内容主要涉及封建诸侯,笔者还选取了金文中常用的文字组成字库,内容包括皇家朝觐、祭祀仪式、征伐方国、胜利记录、官方亮相、截至目前,一幅包含77个古文字的图画已经建成。 该库共藏图2102幅,平均每个字有27个变体,其中金文图840幅,甲骨文图483幅,陶石刻图678幅,《说文》图101幅。 词库的部分图片如下图5所示。

图5 字体图像示例

我们列出了77个古文字,如下图6所示。

图6 77个古字库

2.3 模型设计

在图像识别领域,神经网络的深度至关重要。 研究表明,随着网络深度的增加,神经网络的学习能力和模式表达能力会不断增强。 比如从掀起深度学习热潮的AlexNet,到VggNet、GoogleNet再到ResNet等模型,网络越来越深,性能也越来越好。 此外,我们还注意到大型图像数据库Im-ageNet中的领先团队使用了非常深的模型。 尤其是ResNet应用广泛。 ResNet采用跳跃连接网络结构,有效解决了超深网络优化学习时梯度消失的问题,大大增加了网络表达图像模式的能力。 这使得采用该结构的网络深度达到1000层,充分发挥了人工神经网络强大的表达能力。 具体来说,与传统网络相比,ResNet增加了ay=x层(身份映射层),其主要作用是使网络随着深度的增加而提高。 表达能力不下降,并且还具有良好的收敛效果。 因此,ResNet通常可以非常深,其达到的识别效果目前在各大数据库的评价中都是非常不错的。 此外,ResNet还具有泛化能力强、结构简单、训练收敛速度快等特点。

从我们构建的古字库中可以看出,每个字平均有27个变体。 每个字符的形状不固定,这意味着神经网络要表达的模式不固定,这就要求神经网络具有很强的学习能力。 它能够以细粒度的方式表达各种不同但本质相似的模式。 此外,在我们设定的任务中,我们希望让网络学习每个字符的一些形态特征,然后期望它学习以前没有见过的新的形态特征。 能做出正确的预测。 也就是说,古文字的各种演变,都具有“不移不离其本”的特点。 我们希望网络能够学会求同存异,在“千变万化”中进行归纳推理,这就需要网络的强大。 抽象映射能力和泛化能力使图像像素空间通过连续映射最终走向更抽象、更高层次的语义空间。

基于以上分析,我们认为ResNet将更适合完成古文字的识别任务。 同时,为了进一步增强网络的泛化能力,我们精心设计了一套网络模型学习策略。 下图7是我们方法的示意图:

如图7所示,由于古文字图片总量较少,我们使用了相对轻量级的ResNet神经网络,其主干网络包含18个卷积网络层,并且我们对卷积层的每一层进行了进一步的限制。 最大通道数为 16。

模型设计核心思想:为了获得更好的模型泛化能力,我们希望网络对每一类古汉字提取的特征能够满足以下两个特征:1)同类型的汉字特征为在特征空间中尽可能地聚集在一起,模型要能够完成这样的映射,就需要尽可能地提取同类型汉字的内部共性; 2) 特征空间中不同类型汉字特征的簇彼此之间的距离尽可能远,使得不同汉字之间能够有足够的空间。 给分类器一个宽阔的空间,使得分类器有更高的概率将新的未见过的汉字分类成对。 基于上述动机,我们设计了图7模型右侧的两阶段特征映射的结构。训练以Batch方式进行。 首先,我们使用ResNet18最后一层的特征Feature1作为第一阶段特征映射的基础:以Feature1作为输入,一方面,我们通过全连接层(fc)结合Softmax来训练第一层损失。 另一方面,分类器根据Batch中的汉字类别标签提取特征对,并将其与对比损失相结合以实现距离约束。 例如,Batch 取 3 个汉字:“BI”、“古”、“国”,每个汉字有 4 张不同的图片,因此每个汉字可以采样 6 个正对,总共 24 个正对,负对的数量要大得多。 我们采用困难负对挖掘的方法,使正负比较比例为1:1.5,实现训练。 为了进一步达到映射相似特征的目的,我们进一步进行第二阶段特征映射,即将Feature1转换为Feature2,然后对Feature2进行与Feature1相同的分类和距离损失约束。 同时优化四种损失,实现特征表达的映射和重映射,如图8所示。

图7 基于18层ResNet的古文字识别模型示意图

图8 两阶段映射图(第一个Loss有能力更好地将杂乱的原始数据聚类;第二个Loss进一步对数据进行聚类)

3 实验分析

3.1 实验装置

我们采用图7的模型结构进行训练,基于mxnet平台使用梯度下降法学习模型参数。 我们将所有文本图像的宽度和高度标准化为 128 像素,并将彩色图像转换为灰度图像。 ,我们同时计算了所有图片的平均图片。 将一张图片减去均值后,送入神经网络进行特征表达和学习。

为了训练和评估,每个文本的变异图像的60%用作训练集,总共1,290张图像,其余40%用作测试集,总共812张图像。 也就是说,60% 的变体图像用于每个文本。 从卷图片中学习,让模型总结每个文本的内部一致性特征,然后让模型识别并预测40%的未见过的测试集。 我们的模型在构建的数据库上迭代学习 100 轮,然后分析识别结果。

由于训练图像数量较少,为了避免过拟合,我们采取了以下措施:1)简化ResNet18卷积核数量,使得任意层不能超过16个卷积核。 同时,中间层全连接层的节点数设置为64或128; 2)基本ResNet18网络结构的预训练。 我们收集了 8000 个印刷简体汉字的 80000 张图片来预训练我们的 ResNet18,以分类任务为目标,在我们的古汉字数据集上以 0.0001 的学习率进行微调,即除 ResNet18 之外的其他可学习层的学习率设置为 0.001; 3)我们同时使用Dropout和更大的权重衰减来进一步减少过拟合。

3.2 实验结果

模型学习完成后,我们在测试集上测试其识别准确率。 如上所述,测试集共有 870 张图片和 77 个单词。 我们将每个单词设置为一个类别,总共 77 个类别。 给定一张图片,经过模型测试后,会给出这张图片所属的各个类别的准确率。 将 k 定义为类别数。 一张图片的真实类别在前k个预测类别中的准确率是Top-k。 我们报告了 Top-1、Top-3、Top-5、Top-8 和 Top-10 五个案例中基线分类器、分类器 I 和分类器 II 的识别准确率。 其中,基线分类Classifier I是指:保留图7中的第一阶段分类器,删除两阶段距离约束和第二阶段分类器。 分类器I是指:保留图7中的第一级分类器和第一级距离约束。 分类器II是指:保留图7中的第二级分类器和两级距离约束。

表1 测试集识别准确率

从基线分类器和分类器I的实验结果对比可以看出,引入样本对之间的距离约束是有效的,可以提高模型的泛化能力。 从基线分类器I和基线分类器II的实验结果对比可以看出,第二个分类器的分类效果明显优于第一个分类器,说明我们提出的两阶段映射是有效的,进一步的特征映射有助于提高模型的泛化能力。

综上所述,该模型有效地学习了每个文本变体固有的一致性特征。 在Top-1测试条件下,模型判别最高准确率为58.3%(Top-1随机判别准确率仅为1/77=1.3%),在Top-10测试条件下,准确率准确率可达94.2%(随机识别Top-10的准确率仅为10/77 = 13.0%)。 这表明,当古文字研究人员遇到新的文本变体时,本文提出的方法可以大概率将文本的识别结果限制在10个左右的已知字符内,这将大大减少研究人员的搜索推测空间和有效提高效率和准确性。

3.3 示例说明

为了直观地理解整个方法的流程,我们举一个例子来说明。 图9展示了“妈妈”一词的训练和识别过程。

图9 “妈妈”一词的网络学习和预测过程示意图

在我们收集的数据集中,共有27张“妈妈”一词的图片,如图9所示。根据我们的实验设置,随机选择其中16张作为模型学习的训练图片,其余11张图片将保留为测试集。 当模型完成学习后,我们将对每张测试图片进行预测。 11张图片中有8张被成功预测,其中3张被错误识别。 大多数正确分类的图片都可以在具有类似示例的训练集中找到。 ,而这三个错误识别的文字分别来源于《上海博物馆藏战国楚竹书》中《人民父母》中的“母亲”字、《古代印章藏品》中收藏的“母亲”字”,以及《甲骨文集》中的“母”字。 “妈妈”一词代表“收藏”,如下图10所示。

图10 三个错误识别的“妈妈”字符

这三个字并非源自金文,而是来自于竹文、玉印、甲骨文。 直观上看,她们与其他“母亲”角色的特征并不相似,甚至不一致。 如果确认这三个字仍是“母”字,则可见:1)楚国竹书的书写风格和字体结构确实与中原国家不同。 如果把字看成形状的话,“母”字就没有其他字母字那样优美的体态和女性化的造型。 她们也不穿裙子,特征基本没有相似之处,很难识别; 2)玉玺上的篆刻书写方式与金文或甲骨文有很大不同。 玉印的形状可能会使文字变形,从而产生鲜明的特征。 这个角色的表现力很弱,所以很难识别; 3)最后一个甲骨文“娘”字,在女性胸形的外侧有4个点,这与所有其他字母字符的特征完全不一致,确实很难将其识别为同一个字符。

从这个例子中我们看到,该网络具有很强的抽象和泛化能力,能够从给定的图片中求同存异地提取一些本质特征,从而实现从训练集到测试集的迁移。 这对于古文字识别具有重要价值。

3.4 讨论

在分析实验结果和对比古文字数据库的过程中,我们发现有一个现象严重影响识别结果,那就是鸟文字的存在。 鸟文字,又称“鸟文字”,出现于春秋中期,盛行于春秋时期。 战国晚期至中期的一种书法风格,通常加入鸟纹修饰文字,类似于今天的装饰字、艺术字。 图 11 显示了三个示例。

图11“子”、“己”、“名”三个字的甲骨文、金文、鸟文对比

从图11可以看出,甲骨文和金文中的各个文字都有一定程度的相似,但鸟文却有很大的不同。 鸟类铭文在很大程度上是人物和绘画的结合,因此我们的模型很难从类似于Oracle Bone Bone铭文和青铜铭文的形状中推断出古老的鸟脚本的真实含义。 4未来的工作在构建古代文本数据库时,本文受到手头数据的限制。 除了青铜铭文外,它还记录了大量陶器,石雕,竹条,丝绸文字,密封件和其他角色,以及许多鸟铭文也包括在青铜铭文中。 从实验结果中,它增加了模型在一定程度上识别古代字符的困难。 将来进一步优化模型时,将首先调整古代字符。 图书馆的收集范围应尽可能基于青铜铭文,并补充甲骨文骨铭文,并暂时删除具有明显区域特征的鸟铭文。 此外,结合深度学习技术的特征,应将图书馆中包含的字符数量扩展到尽可能多的具有较高字符频率的古代字符,以帮助该模型更好地了解古代的特征和进化规则人物。

大多数汉字是组合字符,也就是说,大多数数字由单个字符和固定的激进分子组成。 因此,当使用模型分析古代字符的物理特征时,可以构建一个单独的单个字符库,并且可以设计模型以首先识别单个字符。 模型训练完成后,将测试组合字符的识别效果,并将进一步研究单个字符特征在识别古代字符中的作用,以优化模型的识别效果。

此外,本文提出的方法基于对单个角色特征的识别。 除了身体上的认可外,对角色的识别还需要使用其他研究方法以及对相关因素的全面分析。 单个青铜铭文的识别和推断不仅可以依赖于其自身的特征,还可以根据根本结构分析,单词发音,单词含义,语法,上下文,上下文,青铜伪影类别,分期和挖掘地点进行全面解释。等等。对于上下文单词之间的相关信息尤为重要,深度学习领域也是一个分支:经常性神经网络(RNN)具有巨大的潜力。 它可以同时结合单个文本变体本身的特征和其使用环境的上下文文本特征,从而可以大大提高推理的准确性。

5结论本文提出了一种基于图像识别技术识别青铜铭文的方法,这是人工智能与青铜铭文考古学之间有意义的跨学科研究。 受古代文本激进分析方法的启发,我们设计了一种基于两阶段特征映射深度学习模型的方法。 该方法使用大量字符样本有效地吸收和消化古代字符的研究结果,尤其是甲骨文骨铭文和青铜铭文的研究结果。 它可以准确,快速地识别不明的古代角色,有效地提高古代角色研究人员的研究效率,并有效地有助于推断新发现的古代文本的推论解释和解释。

我们认为,基于深度学习的图像识别技术在古代性格识别中具有重要的应用价值。 实验证明,它可以有效地识别未知的古代角色并提供高度准确的推断识别结果,从而可以大大提高古代性格识别的准确性。 准确性和认可效率。 通过有效扩展古代文本图片数据库,进一步优化模型并结合了考古学和古征的现有研究结果,它可以积极应用于识别新发掘的考古古铜色铭文,促进现场考古研究和发展的发展还可以帮助公众识别和理解博物馆中展示的青铜铭文的解释,甚至确定有争议的古代人物或困难的单词,并帮助识别未知的古代人物。 在未来的工作中,我们将考虑扩展数据库或从深度学习观点的小样本中学习,以探索青铜铭文的识别。

(本文的电子版本由作者提供。作者:李·温尼(Li Wenying在历史上,中国人民大学。他的主要研究方向是基于模式识别方法的古老文本识别,基于计算机视觉的考古学。他的主要研究方向是周和周考古学,古铜色和铭文。本文的通讯作者;中国科学与技术大学自动化系Cao Chunshui以及中国自动化研究所,国家关键模式认可研究所,中国科学院的一名博士候选人由实验室共同培训,他的主要研究指示是深度学习和计算机视觉。 Huang Yongzhen是国家主要认可,自动化研究所,中国科学院的副研究人员,他的主要研究指示是模式识别和计算机视觉。 原始文章发表在2018年11月44卷的《自动化杂志》中。第11期。此处省略了评论。 有关完整版本,请单击左下方的“读取原始文本”)

【考古出土的青铜器铭文是非常宝贵的文字材料】相关文章:

1.动物故事精选:寓教于乐的儿童故事宝库

2.《寓教于乐:精选动物故事助力儿童成长》

3.探索动物旅行的奇幻冒险:专为儿童打造的童话故事

4.《趣味动物刷牙小故事》

5.探索坚韧之旅:小蜗牛的勇敢冒险

6.传统风味烤小猪,美食探索之旅

7.探索奇幻故事:大熊的精彩篇章

8.狮子与猫咪的奇妙邂逅:一场跨界的友谊故事

9.揭秘情感的力量:如何影响我们的生活与决策

10.跨越两岸:探索彼此的独特世界

上一篇:你OUT了!道家思想名著老子的「道德经」 下一篇:风萧萧雨萧萧 中国最美的10个诗,你去过几个?