当前位置: 首页 > article >正文

韩语字符分析

查看unicode文档,发现韩语字符有11172个,这是19×21×28,其实就是19+21+28=68个符号的排列组合。分析如下:
第一部分:
가까나다따라마바빠사싸아자짜차카타파하
去掉右边的那个“卜”,共19个符号。
第二部分:
가개갸걔거게겨계고과괘괴교구궈궤귀규그긔기
忽略左边的横折,注意看卜、H等,共21个。
第三部分:
가각갂갃간갅갆갇갈갉갊갋갌갍갎갏감갑값갓갔강갖갗갘같갚갛
注意看下边的变化,第一个下边什么也没有,第二个开始是7、77、7人等,共28个。
上述三个部分排列组合,产生19×21×28=11172个字符。此处不再罗列这一万多个符号,可以用以下程序输出:

for ch in range(0xac00,0xac00+11172):
    print(chr(ch),end='')

unicode 16.0中共有符号154998个,到现在为止,还没有发现哪个字体能支持所有这些符号。设想中,汉字用字根拼接而成,韩语也放弃这一万多个字符,使字符总数降低到6万,可以用2字节表示,也方便制作字体。
具体方案:
在unicode BMP中,即最开始的216个符号,有CJK ext A,包含6592个字符,从3400到4DBF,这一段可以替换成韩语68个字母,和汉字的结构描述符、字根。
例:
闻→门字框(在外)+耳+(字结尾)
靐→(品字结构)+雨字头(在上)+田+(字结尾)
添加了“字结尾”之后,方便进行分析,例如字数统计。字结尾就像是英语的空格一样。
多数汉字可拆分成两部分,算上字结尾,是三个符号。一个汉字变成了三个符号,编码长度变成了三倍。而表达相同的意思,英语字母数是汉语的三倍。汉语编码变长后,长度接近一样长了。同时,韩语也是一个字变三个字,表示相同的意思,需要的字节数和汉语、英语都一样了。


http://www.kler.cn/a/530248.html

相关文章:

  • Kafka下载
  • 【自开发工具介绍】SQLSERVER的ImpDp和ExpDp工具01
  • Python 网络爬虫实战:从基础到高级爬取技术
  • 高清种子资源获取指南 | ✈️@seedlinkbot
  • 《OpenCV》——图像透视转换
  • JavaScript面向对象编程:Prototype与Class的对比详解
  • 你需要更深层次的解放
  • 队列—学习
  • 基于RAG的知识库问答系统
  • DedeBIZ资源系统源码 高仿XDGAME模板源码
  • 流处理 CompletableFuture
  • 马铃薯叶子病害检测数据集VOC+YOLO格式1332张9类别
  • 基于SpringBoot的青年公寓服务平台的设计与实现(源码+SQL脚本+LW+部署讲解等)
  • Flutter Raw Image Provider
  • Python 中 `finally` 的执行时机与 `return` 的微妙关系
  • SD存储卡功能特性解析
  • 【C++语言】卡码网语言基础课系列----11. 句子缩写
  • DeepSeek让英伟达狂跌三年?
  • openEuler系统磁盘管理方法
  • Ubuntu 下 nginx-1.24.0 源码分析 - ngx_strerror_init()函数
  • OpenAI发布o3-mini:免费推理模型,DeepSeek引发的反思
  • MySQL 基础学习(4):条件查询(WHERE)更新操作(UPDATE)删除操作(DELETE)分页查询(LIMIT)
  • 算法随笔_36: 复写零
  • 面向初学者的卷积神经网络_卷积神经网络好学吗
  • C++泛型编程指南03-CTAD
  • shell编程(1)——shell介绍