不知道你有没有印象。 此前,一款大圆脸、风耳、身穿黄色僧袍的“仙二”机器人僧人,曾因可爱的外表和“我去请教师父”等口头禅而“占领市场”。 ”在许多社交平台上。 12月20日,由腾讯主办的2020科技园开发者大会分论坛上,也迎来了一位特邀演讲嘉宾。 与“仙二”一样,这位嘉宾仙超法师也来自北京龙泉寺。
咸超,北京大学物理学院凝聚态物理研究所硕士,现任北京市海淀区龙泉寺藏经室主任。 他透露,自己之所以关注人工智能,与AlphaGo战胜李世石有关。 此后,现超开始尝试将人工智能与自己在OCR(识别并获取图像等文档上的文本数据)和自动标点符号方面的研究结合起来。
显超法师致辞
“在围棋领域,人类已经彻底失败了。我们中华文明非常重视文字记录,而古代文献承载着我们民族的记忆。那么我想古代文献和书籍是否会再次成为人类的滑铁卢? AI如此‘无视武德’,我们人类该如何应对?” 贤超说道。
咸超首先介绍了自动标点技术。 所谓自动标点,是指基于算法,无需人工干预,在古代文本中自动标注现代汉语标点符号的技术。 这主要是为了方便现代读者。
他说,与现代标点符号不同,古代标点符号也称为句子阅读,大致相当于仅逗号(或停顿)和句点。 现代标点符号分为两类。 一类是标记,如双引号、单引号、书名标记等; 第二类是点号,如句号、问号、感叹号等……据统计,大约每五到六个汉字就需要一个句号,其中逗号、句号、冒号等出现频率较高。
古代文本中标点符号的出现频率
冼超指出,标点符号也是可以互换的,因为不同的人可能有不同的标记方法。 其中,分号和句号的可互换性最强,这意味着它们使用的必要性最小,反之亦然。 当然。
标点符号替换统计
据他介绍,人工智能首次应用在这一领域只是用于自动分句,即给古代文本添加句号。 不过,现超认为这种做法“比较保守、比较学术”。 随后,贤超表示,他的团队将深度学习应用于自动标点符号。
那么效果如何呢? 贤超提到,如果标点符号是手工独立完成的,作品之间的相似度应该在80%左右。 如果相似度太高,就会有抄袭的嫌疑。 按照这个标准,先超团队开发的Transformer的标注结果与人类标注的结果“几乎没有区别”。
Transformer自动标注结果评估
先超也认为,自动标点仍然具有一定的灵活性和标准化。 以“听真话听善思惟”这八个字为例,冼超表示,人类至少有16种不同的加标点符号的方式,但自动标点符号只提供了六种解决方案,这并不能解决问题。 “太单一”。
自动标点标注结果
介绍完自动标点技术后,咸超开始讲解超分辨率和古籍图像增强技术。 他认为,如果能够实现“所见即所见”,即将屏幕上人眼所能看到的图像进行“重构”,以满足出版的要求,将极大地促进传播和古籍普及。
另外,这也有利于古籍图像的存储。 贤超表示,古籍图像的存储成本非常巨大,而超分辨率实际上是一种非常高效的解压技术。 即使保存了非常低分辨率的图像,也可以随时将其重建为高清图像。 那么“存储起来就会非常非常经济”。
对于这项技术,先超现场播放了多段视频,展示了团队开发的工具。 从视频中可以看出,该工具可以比较快速地获取、识别、定位图片上的古文字,并为其添加标点符号。 它甚至可以“对齐”文言文和白话文文本来辅助翻译。 此外,它还具有搜索功能,可以按时间等类别显示搜索结果。
对于未来的研究方向,先超希望能够架起“移动端和桌面端”的桥梁。 他坦言,目前此类应用主要针对电脑,能在手机上使用的不多。 此外,他还希望创建本地化的应用程序。 现在大多数功能都需要互联网连接才能运行,但许多学者对知识产权非常敏感,不愿意将文本放在服务器上进行处理。
【古文标点符号 AI如此“不讲武德”,我们人类如何应战?】相关文章: