山东省日照市斜口(zhan4)子庄村四个村委会开会编写村志。村子的正式名称是“詹子庄”,但村委会并不关心这个。村史书上必须写“谢口子庄”。庄子、子诞生于清朝末年。两条入海的小河环绕村庄,人们聚集定居。文人根据这一地理特征,创造了“溪口”字作为村名,远行的旅人看到这些字就会想起故乡。道光年间,经过26位村民的公开讨论,将村庄的由来刻成碑,立于村中。后来,这里成为抗日模范村,并产生了著名地质学家叶炼。世世代代以来,村民们每次写地址时都会赠送两盎司水并喝一口。
须口子村地图,地图上这个地方叫站子村| 地图截图
直到20世纪80年代国家进行第一次地名普查时,村民们才知道家乡的地名被称为“镇地”,无法输入电脑。无奈之下,官员们只好选择了同音字“栈”。地图、政府网站、官方报道都称这个地方为“赞子庄”,但服务中心、商店铭牌、村小学名称也称其为“秀古庄”。村民们开始了漫长的捍卫“这台电脑上不存在的单词”的过程。他们先是筹集资金修复了“官方纪念碑”,并建造了一个户外凉亭以使其免受风吹雨打,然后继续强调村名的由来和村子背后的历史,开始编年史。 ——“如果我能输入这个词,那就太好了。”
秀口子庄议会纪念碑| 百度百科
第1 步:挽救丢失的单词将生僻单词输入计算机的第一步是查找并确定它。据粗略统计,中国流传下来的汉字有30万多个,其中常用字只有3500个左右,其余的都可以称为“生僻字”。根据维基百科的解释,“生僻字”是指使用频率极低、读音和含义都难以确定的汉字。现实比这更有趣。有些生僻单词非常简单,以至于您认为它们是常见单词。例如,拟声字——“丁丁丹东”的输入和显示并不容易,预计未来该字将在电脑和手机上频繁使用。此外。有些还带有故事。 “召三”由“山、西、人”三部分组成,是山东人用来指代不同口音的外地人的(有的地方用同音“侉”表示同一个东西)。 (也有人写为“侉”)。 “尚、唐、人”)。山东地方戏曲“灶梆”原名“灶梆”,是源自山西的戏曲,因口音与“大伞”不同而被称为“灶梆”。
左边zhao3,右边kua3 | 腾讯生僻字小程序
文字的起源不一定是汉语,有的是少数民族文字,与汉字一起出现在地名、人名中,有的文字是沿用至今的古代方言。
图1-2:rang4,意思是水牛,是图查人的语言。由于图查人没有文字,当地人用汉字“水牛”创造了新的文字。
图3-4:浙南话“蓬2”(草木茂盛,四棵树的意思)
图5: 网上的自制词“biu4”指的是发出的声音。
图片来源:受访者提供,《湖南省永顺县地名录》、《浙江省天台县地名志》,或者历史上的各种“自制词”。最著名的例子就是武则天即位后自称“曌”。昭的意思是太阳和月亮在天上。 “生僻字”散布在我们生活的各个角落,但其中很多还没有在计算机字体库中注册。对于普通人来说,“不寻常”是一种身份,是一种日常必需品,所有使用不寻常这个词的人都无法逃避。尤其是地名、人名中出现不常见的词语时,可能会遇到户口簿必须手写、入住手续比一般人复杂很多倍、支付账户无法登记等问题。这包括您的真实姓名,甚至是因为您无法输入姓名而被取消的保险单。这些生僻字词散落在生活的角落而不被人注意,需要人们去捡拾。王晓阳是一名“职业采摘员”。从大学时代起,我就热衷于在互联网和旧书店的学术数据库中寻找各种地名、合同、文件、贺信等,挖掘稀有文字。滚动页面并写下生僻单词。
村志中发现“冫口”二字| 受访者提供
王晓阳的工作就像在文学的海洋里寻找稀有的贝壳,努力比运气更重要。为了更好地掌握汉字,他休学一年,阅读了2000多本地方书籍,最终发现了500多个生僻字。王晓阳每次“猎取”一个稀有字,都会进行“考察”,证明该字的使用价值和现实意义,将那些有一定历史、明确意义的字称为“动字”。所创造的角色被称为“移动角色”。读音、意义不明确、价值未知的词称为“死词”。这是罕见的人物元气判断。 “来源”是判断证据是否成立的主要标准。 1949年以前,最好的——本旧书手写版画,字体有较大变化,不被认为是好的证据。 1949年以后,官方出版的印刷文件被视为证据。在流行期刊上发表的学术论文中发表的证据比在学术论文中发表的证据更好。报纸、路标和街道标志上发表的文字也被视为证据。政府签发的正式信件证明某人具有:最可靠的证据是该地区实际使用的罕见词汇。
人名、地名中常用生僻字的地区| 数据来源:腾讯
如果没有找到上述证据,或者证据的措辞没有清晰地显示出来,王燮阳只能在脑海中回忆这些话,等待有一天在文件的海洋中再次相见。这样的人物有40多个。幸运的是,寻找证据的过程并不乏味,追寻词的归属也颇有诗意。王晓阳很喜欢乔治·马洛里的故事。乔治·马洛里出生于1886年,现代登山装备还没有出现之前,曾多次尝试登顶珠穆朗玛峰,并最终献出生命。当记者问他:“他为什么要攀登珠穆朗玛峰?”乔治用一个后来出名的简单答案回答道:“因为这座山就在那里。”
第二步:字符的“真实身份” 拾取并验证字符的目的是向制定字符代码国际标准的组织申请。—— 这是稀有字符数字化的第二步。电子设备并非设计用于显示汉字。这些电子系统的基本原理,例如计算机和移动电话,都是处理二进制数据。为了在电子设备上显示汉字,需要形成汉字与二进制数据之间的映射关系,这就需要对汉字进行编码。现代计算机诞生于西欧,但最初设计时并没有考虑显示汉字。 20世纪80年代最具代表性的个人电脑——美国的IBM PC,仅包含256个字母、数字和符号,早期的Windows系统也不支持中文。大家还记得当时流行的“中国软件”、“中国卡”、“中国机器”等产品,它们是那个时代的必需品。
IBM PC | 维基共享资源
与英文字符相比,汉字数字化要复杂得多。第一个障碍是数量,所有英文表达都可以用26个字符构成,但在汉字(或形态字符)中,每个字符都是一个独立的符号,代码量与英文不可比。汉字的显示也比较复杂。 IBM PC 上的所有英文字符均以9 * 14 像素点阵的形式显示,而汉字至少需要16 * 16 像素才能清晰显示。当时的计算机存储容量还是以千字节为单位,很难容纳大量的汉字。但电子信息浪潮正在无差别地影响着现代化的各个角落。 BP机(寻呼机)、游戏机、相机……这些风靡全球的电子产品迅速在中国流行起来,汉字数字化成为迫切需要。 1991年,山东省一家叫浪潮的公司编制了自己的《寻呼通信用汉字信息表示及编码字符集》,并定制了编码规则,在其BP机——上打印汉字“这就是我”。中文并发送至“中文显示”。它已成为BP高端机器的象征。这是当时常见的解决方案,不同的电子设备和操作系统分别编码来解决其汉字显示需求。
BP机百度百科
对于只需要显示汉字的产品,例如BP机,自编码可以解决问题。但很快计算机就开始流行起来。与BP 机器不同,计算机交互是双向的,这给普通消费者带来了汉字输入问题——。此外,这种交互是系统与系统、产品与产品之间的交互。仅仅能够显示汉字是不够的,还必须规范汉字的编码标准,否则在软件A中可以输入并显示的汉字在软件B中很可能会变成乱码。如果没有统一的标准,输入法也会带来问题。如果输入法的编码标准与计算机的编码标准不匹配,就会出现输入法键盘上有文字但在计算机文档中无法显示的情况。在此背景下,1991年制定了17*65536个码位(17称为“平面数”,每个平面可容纳65536个字符),用于编码字母、标点符号、符号等。统一码标准(Unicode Standard)(又称Unicode) ) 出生于。适用于全球所有国家/地区。这相当于将以前的编码孤岛纳入统一标准。更重要的是,它具有普遍适用性。汉字是一种全球文字,流行于中国大陆、香港、澳门、台湾、日本、朝鲜、越南、新加坡等国家。事实上,日本是第一个探索汉字数字化的国家,从20 世纪60 年代末开始就想出了如何将2000 多个日语汉字塞入计算机系统的方法。
汉语、韩语、越南语和日语汉字标准中“ci”的变体| 维基百科
日本最终制定了JIS C 6226编码标准,但韩国这个标准有KS C 5601,中国有GB18030,中国香港有HKSCS——,使得汉字的世界编码标准支离破碎。被制成如果你经历过那些日子,你可能还记得玩日本或台湾的盗版游戏,但首先你需要准备一个转码器,这样你就不会盯着满是乱码的屏幕感到困惑。还记得四通丽芳、安吉星、东方快车吗?还记得游戏中那个“危难时良臣,危难时奸臣”的“转型巨人”吗?
世通力帆| 百度百科
Unicode标准字符集的汉字部分被称为“中日韩统一表意字符”,使用汉字的人遵循相同的原则和标准来提交他们编码的汉字。 ——的汉字根据地区的不同,形状相同或几乎没有差异,并且具有相似的含义,并且被分组为相同的代码,这是真正的全球化。该字符被发现并被加密。它属于汉字“千与千寻”,不仅在计算机系统中获得了独特的地位,而且在世界汉字家族中也占有一席之地。
第三步:连接值Lun(lun2),昆仑,源自《山海经》,意为富士山。吴晓润的父母以这个词的简化版给他取名。
Unicode标准字符集中lun2字符的典型字形| 照片由受访者提供
这使得登机、乘坐火车、使用支付宝或网上银行转账比普通人更加困难。 Unicode 标准解决了汉字没有统一标准的问题,但对于罕见字符这还不够。在Unicode标准的17个平面中,目前只有0、1、2、3和14平面可以编码某些字符。汉字编码在第0、2、3平面。新添加的汉字正常放置。在第三架飞机上。为了保证实用性和效率,避免浪费有限的码位,汉字编码标准对常用汉字进行优先排序,将生僻字和不常用字按顺序排列。如果运气好并且有足够的证据,你可以在每两年提交新单词的周期中获得站在Unicode 标准前面的机会,并在等待3-5 年审核后,该单词将被接受为Unicode 标准——。将被纳入。 这是未竟的事业。对汉字进行编码会产生有规律的编码循环。对于所有生僻词的使用者来说,这样的时间太长了。
第一代身份证| 百度百科
2004年,公安部在全国范围内推出第二代身份证,将由塑料盖和卡片组成的身份证升级为带有电子芯片的身份证。公安字库也进行了升级,4600多个曾经手写的生僻字在公安系统登记,与常用汉字一起作为稳定的电子字体印在身份证上。当时,公共安全系统使用PUA 代码(私有区域)来表示这4,600 多个罕见字符——。这是一个基于Unicode标准系统的私有代码区。如果要基于Unicode 标准显示Unicode 标准,则必须显示Unicode 标准。 Unicode 标准尚未在框架中进行编码。这些私有代码区域的编码可以用来临时表示相应的字符。然而,使用PUA代码的字符很难在其他电子设备和系统上显示,更不用说相互通信了。当时代进入“实名制+移动互联网时代”时,这一系列PUA代码作为一种折中的解决方案引发了新的问题。身份证上可以显示的生僻字符在其他信息系统中是不存在的,而且在很多需要实名注册的地方,比如购买机票、网上购物、网上银行转账、在网上发表评论时,这其他信息系统中没有稀有字符,将显示该字符。字符只能用于拼音或*/替换。这不符合实名制标准。疫情期间,像吴小龙这样具有罕见性格的人,更是难上加难。一位名叫“日伟(wei3)”的北京市民曾在人民网留言称,自己无法使用健康宝,因为他用不了。进出所有公共场所、公共交通和服务都受到严格的医疗控制,使得“寸步难行,所有社交活动基本暂停”。
吴晓林的现金卡只有拼音受访者提供
也有一些妥协。云南丽江傈僳族村民集体将古姓“尼亚4”改为鸭——。这对我的生活来说很方便,但我并不高兴。 2022年,国家标准委会同相关部门发布了新版《信息技术 中文编码字符集》(GB 18030-2022),新增生僻字17000余个。它是中国的官方编码标准,随着Unicode的更新而强制执行和更新,但只关注中文部分(包括汉字和少数民族文字)并推动和监督其实施,有专门的机构和管理部门。该国家标准有2000年和2005年两个版本,2005年版收录汉字7万多个。但是,只需要20,000 个或更多汉字字符;建议使用其他字符。因此,市场上大多数信息技术产品最多支持超过20,000个汉字。 17年来首次制定的新版国家标准现在要求全文,并且需要数字化的汉字分为三个级别,电子产品要求达到1级,政府要求达到27000个字符或更多。办公和公共服务系统必须达到三级,具有不寻常的特征。这至少可以确保稀有角色用户的基本生活需求不受阻碍,例如购买公交车票和网上银行支付。
第四步:画漂亮的字母2017年,村委会坚持写《冫口子庄村志》,被王燮阳发现。他以村里的记录为证,申请Unicode对“冫口”进行编码。五年后,“冫口”的意思是“嘴”,大约300个生僻字通过了审核,并使用Unicode标准进行了编码。
Unicode标准字符集中“冫口”的典型字形| 照片由受访者提供
腾讯搜狗输入法是距离用户最近、最直观的纽带,因此用户总会抱怨“为什么我用身份证打不出字,而用你们的输入法却打不出来?”。所有输出问题都是由输入方法引起的。腾讯搜狗输入法项目经理顾海波表示,“90%的用户认为这款输入法可以解决生僻字的问题,但生僻字数字化其实是一个复杂的系统工程,不知道是不是这样” ,”他解释道。字符解决方案。 “除了输入之外,我们还需要解决生僻字的显示、存储、传输、输出、打印等环节,打通生僻字数字化的所有环节,让生僻字能够顺利使用。新国标出台后,腾讯搜狗输入法将于2022年开始对其输入法产品进行改造。我们放弃了16年的基础架构,将之前使用PUA代码显示的字符集成到Unicode编码中,并扩展了我们的字体。这是一个艰难而漫长的过程,但理想的终点是罕见的汉字能够在数字世界中无障碍地显示、输入和使用,当整个社会和整个数字系统意识到这一点时,回归就开始了。 它成为了。引入统一标准—— 20世纪90年代以来编码标准的混乱仍然是一个重要因素身份证上可以显示的单词在其他系统中仍然“找不到” 即使在同一家医院内也有两套不同的注册和处方代码是某事。
生僻字收集小程序截图
“其实不需要对每个系统重新编码,做好转码映射,让每个产品都能显示国标规定的字符。”电子工业标准化研究院中国信息实验室黄珊珊说。导演。工业和信息化部电子标准化协会表示,“从技术上来说,这一切都很简单。重要的是让整个社会认识到稀有字符统一标准的重要性。”我们致力于宣传新的国家标准,并配合和协助主管部门开展合规性测试等工作。参与数字系统的各方也在尝试联手。今年春天,联合国中文日前后,腾讯联合电子标准协会、汉仪字库等组织推出的珍稀汉字征集小程序走红。截至今年6月初,小程序已有2.1万人参与,5000多个生僻字(去重后),其中300多个生僻字通过该渠道进入专家验证阶段。塔。新的国家和国际标准预计将在明年产生收入。
生僻字小程序提交的前10名生僻字| 照片由受访者提供
8月1日,字符编码强制性国家标准GB18030-2022也将正式实施。 “冫口”一词预计到2022年才进行Unicode编码,因此暂时不纳入新国标。 ——没有被纳入新国标,没有人有意愿完成后续步骤,而“冫口”字只留在字体设计步骤和字库输入步骤中。村民们并不气馁,创作了一首歌。村里的孩子们小时候,常唱《弯弯曲曲的河水,微微泛起涟漪》。我记得村外有两条小河流过,歌名是:010.-30000。我希望你下次输入“zhan”时你的家就会出现。
【没人认识的字句子,没人认得的字】相关文章: