您现在的位置是:首页 > 业界业界

因姓氏太罕见全村集体改姓鸭 解法来了

查看 cc博主 的更多文章cc博主2023-04-24【业界】218人已围观

【CC博客】近日,“寻找姓鸭的人”“因姓氏太罕见全村集体改姓鸭”登上微博热搜,引发热议。截至发稿,相关话题阅读量达1.6亿。这背后发生了什么?

因姓氏太罕见全村集体改姓鸭 解法来了 第1张

故事还得从古代说起。云南丽江傈僳族中有一个以鸟为图腾的家族,姓“nià”,即上面一个鸟字,下面一个甲字,意为飞翔的鸟。

然而到了现代,这个字却成为了生僻字,在信息系统中无法输入和显示,带来种种不便,全村村民无奈只能改姓为“鸭”。

值得注意的是,他们不是个例。许多人的姓氏、家乡地名不被信息时代接纳,他们或是办不了银行卡,或是买不了火车票,甚至连最简单的在线支付都用不了。

据统计,全国有6000万人名及大量地名、古籍、方言中包含生僻字,其中多数尚未实现数字化。

生僻字数字化为什么这么难?

“最老的身份证上,姓氏是手写上去的。换二代身份证的时候,电脑里显示不出来,就通知我们改名了,直接打成了鸭子的鸭。”一位“nià”姓村民在接受媒体采访时如此表示。

这位村民称,自己并不喜欢姓“鸭”。但不喜欢也得改,不然就用不了微信,买不了火车票,医院不能正常实名挂号,社保公积金也难办,总之所有需要实名认证的地方都很麻烦。

因姓氏太罕见全村集体改姓鸭 解法来了 第2张

据了解,1994年编纂的《中华字海》,收录汉字约87000个,而我们手机、电脑能打出来的字,仅有3万个左右。

为什么会出现这种情况呢?

工信部电子标准院主任黄姗姗向CC博客等表示,汉字与英语不同,英语是表音文字,汉字是表意(图形)文字。信息系统要认识汉字,需要有字、形和编码三者建立对照表,某个汉字有形无码,或者其编码不被某个系统支持,就是信息时代的生僻字。 

可以说,生僻字是表意字所特有的信息处理问题。具体来看,汉字信息处理的难点来自四个方面:

一是汉字信息化编码难度高。汉字与拉丁文字一样,需要一字一形一码,要对数万个汉字逐一进行编码、整理和考证工作,难度很高。

二是字形规范化工作量大。每个汉字都有其独特的字形,确定每个字的规范字形并设计开发字库产品,也费时费力。

三是生僻字标准化专业复杂。尚有大量人名、地名生僻字未收录于标准,没有获得编码,也就难以实现输入、处理和输出。

四是产品对标准的支持不充分。很多信息技术产品和服务系统只支持2万多字,忽视生僻字处理的需求。

要用电脑打出一个汉字,需要有对应且全国统一的汉字编码——对应的字形——输入法支持该汉字的输入——系统或应用支持该汉字的显示,四个步骤中任何一环掉链子,都无法完成数字化。

nià姓村民何时能找回自己的姓?

由于“鸭”姓无法寄托“nià”姓的真正含义,现在当地的小孩出生后基本都跟妈妈姓。有“nià”姓村民在得知自己的姓氏登上热搜后有些欣喜,也许能找到一个合适的解决办法。

为解决这个难题,腾讯搜狗输入法真的想出了办法,尝试用一个键盘和一个小程序来帮助“nià”姓村民找回自己的姓氏。

1.生僻字小程序

对于没有编码的生僻字,要从头开始,首先要做的是找到它们。所以,腾讯和工信部电子工业标准化研究院共同发布了“生僻字征集”小程序,用户通过拍照上传,就可以提交。

据腾讯输入法部总经理鲁剑披露,4月20日“生僻字征集”小程序上线后,首日访问量突破63万,用户提交生僻字1404个。

大家提交的生僻字将经过考证、审查、赋码等一系列环节,专业审核通过的生僻字将被赋码并收录进国标字库,并最终实现在电脑、手机等设备及信息系统中输入与显示。

2.生僻字键盘

针对已有编码的文字,或是用户只识生僻字字形、不知读音的情况,腾讯搜狗输入法开发上线了“生僻字键盘”,通过拆解字形实现三种生僻字输入方式,包括笔画输入、拼音输入,以及“拼音+笔画”的混合输入。

因姓氏太罕见全村集体改姓鸭 解法来了 第3张

同时,腾讯搜狗输入法还与字库厂商合作,将已编码的文字设计成字体包,供用户下载使用。用户就可以用搜狗输入法打出生僻字,并在更多平台上显示了。

据腾讯方面透露,“nià”姓村民再过两年,就可以打出自己的姓来了。这主要因为“编码还需要两年左右才能公布,这是一个过程。”

One More Thing

上世纪60年代,随着商用电脑的普及,人们开始用计算机处理文字,但当时的技术还不能有效处理英文以外的文字。直到1974年,我国“748”工程启动,一批学者、专家前赴后继,开启汉字信息化攻关,汉字进入信息化处理的时代。

1980年,全球第一个汉字编码标准GB 2312《信息交换用汉字编码字符集 基本集》发布,让计算机处理汉字成为现实。此后,中文信息处理领域累计发布一百余项国家标准,一些生僻字和少数民族的文字也得以进入数字时代。

2022年7月,国家市场监管总局批准发布《信息技术 中文编码字符集》(GB 18030-2022 国标),新版标准共收录汉字88115个,比上一版增加录入了1.7万余个生僻汉字,不仅收录《通用规范汉字表》全部汉字,还可覆盖我国绝大部分人名、地名用生僻字以及文献、科技等专业领域的用字。新版标准将于2023年8月1日正式实施。

总体而言,解决生僻字难题,是难度高、周期长的体系化改造,涉及相关方众多。腾讯等企业愿意秉持“科技向善”,助力解决这一难题得到很多网友点赞。正如一位网友说的,这是一件很有意义的“小事”,希望能一直做下去。
 

Tags:

文章评论

加入组织
广告

   有免费节点资源,我们会通知你!  加入纸飞机订阅群  

×
天气预报查看日历分享网页电报扫码留言评论Telegram