当前位置: 首页 > article >正文

蛇年的第一篇博客:设想中的汉字编码

龙年的最后一天,下载了unicode文档,发现unicode 16.0共有字符154998个。其中汉字占了将近10万个,韩语字符1万多个。若能用“拼字”的方法简化汉字编码,就有希望将字符数压缩至65536个以内,就能用2字节表示。
在这里插入图片描述
压缩的难度不仅是数量,还有字形的微小差别。如“林”字,粗略看上去是左右两个木,但仔细一看,两个木字形不同。
玃→犬字旁(在左)+(上中下结构)+(林字结构)+目+隹+又。共6部分占12字节。
廤→广(在外)+(上下结构)+車+(左右结构)+口+匕。也是6部分12字节。

其它例子

感情→咸+心(在下)+竖心旁(在左)+表字头(在上)+月。共5部分占10字节。
对应的英语,feeling,算上空格共8字母占16字节。
戌戍戊咸成。
咸→戊字旁(在外)+(上下结构)+一+口。4部分8字节。
代入“感情”,→4+1+3=8部分16字节。
“咸”的英文是salty,算上空格是6字母12字节,汉字编码8字节仍然更短。
咸的→4+1=5部分10字节。
总的原则:保持汉字编码和其它语言编码长度接近,不要差太多。
盐→提土旁(在左)+卜+皿字底(在下)。3部分6字节。
salt→5字母(算上空格)占10字节。
墢→提土旁(在左)+癸字头(在上)+(左右结构)+弓+殳(没有的没的右半部分)。5部分10字节。
發財→4+貝字旁(在左)+才。6部分12字節。
纔→絞絲旁(在左)+刀口比+兔?
㲋兔免,兔和免是兩個不同的字,㲋不常用,是個組合字。
㲋→刀字頭(在上)+口+比字底(在下)。
靐→(品字结构)+雷→(品字结构)+雨字头(在上)+田。

编码原则

盐→提土旁(在左)+卜+皿字底(在下)。
记录“字根”的附属信息,如提土旁(在左)的后边应该跟一个字根,在这里是卜。提土旁和卜组成一个新的字根。皿字底(在下)的附属信息是:它前边应该有一个字根,正好这里有一个,它们一起构成了“盐”字。
靐→(品字结构)+雨字头(在上)+田。
品字结构的附属信息说明它后边应该跟一个字根,它后边是雨字头(在上),这不完整,还要再加一个。加上田之后,雨田构成雷,品字结构和雷构成靐。

总结

本文描述了想象中的汉字编码,希望用拼接字根的方法,简化汉字编码。简化后,韩语字符也会跟着简化。最后,unicode字符的数量控制在216以内,可以用2字节表示。至此,用不同语言表达相同意思,所需编码长度差不多的设想,就更近了。
虽然目标是2字节,但使用UTF-16仍有必要,保证可以编码114万多个字符,避免万一2字节不够用时的尴尬。
新的编码将不兼容现有编码,可以命名为unicode CJK compressed。


http://www.kler.cn/a/524815.html

相关文章:

  • Java面试题2025-并发编程基础(多线程、锁、阻塞队列)
  • unity实现回旋镖函数
  • 机器人基础深度学习基础
  • 蓝桥杯例题四
  • Deepseek的RL算法GRPO解读
  • 二叉树-堆(补充)
  • Sprintboot原理
  • VMware安装win10记录
  • MySQL备忘录
  • 上位机知识篇---Linux的shell脚本搜索、查找、管道
  • 【数据结构】初识链表
  • MongoDB常见的运维工具总结介绍
  • 《刚刚问世》系列初窥篇-Java+Playwright自动化测试-19- 操作鼠标悬停(详细教程)
  • 代码随想录|动态规划 300.最长递增子序列 674. 最长连续递增序列 718. 最长重复子数组
  • Go学习:格式化输入输出
  • solon-flow 你好世界!
  • C++传送锚点的内存寻址:内存管理
  • G. Rudolf and CodeVid-23
  • [250125] DeepSeek 发布开源大模型 R1,性能比肩 OpenAI o1 | 希捷推出高达 36TB 的硬盘
  • 【C++】STL容器使用与实现详解:vector
  • STM32 PWM驱动直流电机
  • 2024 CVPR Highlight Learning-Feedback
  • C# 环境:深入探讨与优化
  • Python中的函数(上)
  • 十大主流联邦学习框架:技术特性、架构分析与对比研究
  • 【电工基础】1.电能来源,触电伤害,触电预防,触电急救