很多人最后一次与文言的“亲密接触”大概是在学生时代,有的人甚至已经忘记了。 近年来,无论是汉服文化的火爆,还是九大博物馆联手将国宝栩栩如生的“国宝”,用现代音乐演奏经典诗词的“经典咏流传”,以及聚焦文化经典的“经典中的中国”等,新的展示形式让越来越多的人重新关注到中国传统文化的魅力。
文言文是中国传统文化的重要载体。 大量的古籍和文章记录了中国五千年来博大精深的文化。 其中所积累和蕴含的思想和智慧值得我们不断探索和反思。 因此,古典汉语对于中华文化的传承和传播至关重要,正如了解西方文化的精髓始于了解莎士比亚一样。
借助机器翻译,游客在游山玩水时,可以了解古建筑、古碑刻上的古文诗词。 学生在学习汉语时多了一个通过实践举一反三、整理古籍的工具。 对于翻译研究工作来说,也能提高效率,事半功倍。
“从技术角度来看,文言文可以被视为一种独立的语言。当文言文和现代文可以自由互译时,文言文与英语、法语、德语等语言之间的翻译将成为可能。”这是理所当然的。”微软亚洲研究院高级研究员张冬冬说。 届时,国际友人将能够在阅读中国经典时瞬间读懂,了解更原汁原味的中国传统文化。
文言翻译AI模型最大难点:缺乏训练数据
人工智能模型训练中最关键的要素是数据。 只有数据量足够大、质量足够高,才能训练出更准确的模型。 在机器翻译中,模型训练需要双语数据:原始文本数据和目标语言数据。 由于文言翻译极其特殊,不是日常用语,与其他语言的翻译相比,文言翻译的训练数据量很小,不利于机器翻译模型的训练。
虽然微软亚洲研究院的研究人员前期收集了大量公开的古今汉语数据,但原始数据并不能直接使用。 需要进行数据清洗,清洗不同来源、各种格式、标点符号、全角/半角等的数据,标准化统一,最大限度地减少无效数据对模型训练的干扰。 这样一来,实际可用的高质量数据的数量就进一步减少了。 微软亚洲研究院研究员马书明介绍,为了解决数据不足的问题,研究人员做了大量的数据合成和增强工作,包括:
首先,对共享字符进行对齐和扩展,以扩大数据量。 与英语、法语、俄语等其他语言的翻译不同,文言文和现代汉语具有相同和共同的字符。 利用这一特性,微软亚洲研究院的研究人员利用创新算法,让机器翻译能够回忆并自然地对齐常见字符,然后进一步扩展到单词、短语和短句,从而合成大量可用数据。
其次,句子结构变形提高了机器翻译的鲁棒性。 针对句子和诗歌的不同切分,研究人员添加了多种变形,使机器在学习古诗词时更加全面。 比如古诗《寻隐者不遇你》,一般的分句方式是“松下问童子,师拾取药。”但对于人类来说,即使是像“老师去采药,他只留在这座山”这样的异常句子,他看到就会知道前后句子的关系和含义。但是对于从未见过如此碎片化的翻译模型来说因此,数据格式的变形不仅可以扩大训练数据量,还可以提高训练模型翻译的鲁棒性。
第三,传统和简化的字符翻译训练增加了模型的适应性。 在汉语中,无论是文言文还是现代汉语,都有繁体字。 因此,为了提高模型的适应性,研究人员在训练翻译模型时,不仅对简体中文进行训练,还加入了繁体中文数据,以及繁体中文和简体中文混合的数据,这样翻译模型既能理解它,又能简化翻译。 更准确。
第四,加大集外词的训练,提高翻译准确率。 现代语言翻译成文言文时,还会出现一些外来词,这些外来词是古汉语中从未出现过的新名词,比如微软、计算机、高铁等近代才出现的实体词。 。 针对此类“意外”,研究人员训练了一个小型模型来识别实体。 他们先翻译实体外的意思,然后将实体填回去,以保证机器处理集合外的单词的准确性。
此外,机器翻译模型还专门针对非正式文体进行了训练,例如博客、论坛、微博等非正式文体,进一步提高了现代汉语和文言文之间翻译的鲁棒性。
张冬冬表示,“我们将在现有翻译系统的基础上,继续在丰富数据集、改进模型训练方法等方面进行改进,使方法更加稳健、通用。 未来,它可能不仅用于文言翻译,还可能得到扩展。 更多的应用场景。”
图2:文言翻译流程
创新科技助力文化遗产保护和传承
由于时间和空间的限制,中华文明五千年的历史传承下来,能够被后人理解和记录的只有有限的一部分。 多年来,微软亚洲研究院一直致力于将最前沿的技术和研究成果应用于历史、文化、考古等的保护和传承,让文化遗产以更丰富的方式展现在人们面前。直观且互动的方式。
自2005年起,微软亚洲研究院基于自然语言处理、机器学习等人工智能技术开发了微软对联系统,并逐步加入了微软猜字谜、微软绝句等内容。 2010年,微软亚洲研究院与故宫博物院、北京大学合作,完成了《清明上河图》沉浸式数字音视频展示项目的研发。 独创的三维布局复原算法和虚拟环境组织方式,让观众身临其境地欣赏画中的每一个细节,不仅以新的方式保护和传承了书画等历史文物,也为书画的发展带来灵感。新技术时代的传统博物馆 2011年,微软亚洲研究院向敦煌研究院捐赠了专为敦煌莫高窟量身打造的“飞天”十亿像素数码相机系统,在解决敦煌壁画和佛教佛龛数码摄影问题上取得了突破性进展。 。
微软亚洲研究院也在积极探索与专业文言研究机构的沟通与合作,希望从技术角度提高文言翻译系统的准确性,同时也获得专业的意见和建议。
立即单击链接下载 Microsoft 的翻译应用程序。 您还可以访问 Microsoft Bing 的在线翻译服务 () 体验。 如果您是开发者,请不要错过微软Azure认知服务的翻译工具API,来开发更多有趣、好用的文言翻译应用。
【文言文翻译AI模型的最大难关:训练数据少人工智能模型】相关文章: