[oeasy]python0129_unicode_中文字符序号_十三道大辙_字符编码解码_eval_火星文

unicode 中文字符分类

回忆上次内容

  • 字符集
    • 从博多码
    • ascii
    • 再到 iso-8859 系列
    • 各自割据
  • 如何把世界上各种字符统进行编码
    • unicode顺势而生不断进化
    • 不过字符总量超过了65536
    • 每个汉字都有位置

图片描述

  • 所有汉字里面第一个汉字是什么呢?

分布

图片描述

  • 第一个字就是一

图片描述

  • 一切本是混沌
    • 河出图洛出书
    • 一划开天
    • 分出阴阳
  • 一生二
    • 太极生两仪
  • unicode把一放在中文第一个
    • 感受先人创建文明之源

后面的汉字

  • 分在几个 blocks 里面
    • 最常用的在0x4E00-0x9FBF
      • F、B都是16进制的数字就像1、2、3一样
      • 这个范围就是中日韩(CJK)字符的范围
    • 也属于 2个字节 以内
    • 字符数量也很多

图片描述

  • 不过由于汉字数量太多
    • 原来给的空间不够用了

新分空间

  • 又给CJK分配了几个扩展空间
    • Extension

图片描述

  • 我们 对比一下
    • 原来 \x表示法 和 \u表示法

两种转义

  • 原来ascii字符a可以用\x61表示
    • \x61 对应十六进制的(61)十六进制
    • 占用个字节
    • 使用\x进行转义
  • 现在unicode字符可以用\u4e00表示
    • \u4e00 对应十六进制的(4e00)十六进制
    • 占用个字节
    • 使用\u进行转义

图片描述

  • ascii 字符也能用 \u 的方式进行转义

图片描述

  • \u必须得4位16进制数
  • 不过这样有点浪费空间和带宽
  • 序号、字节状态和字符是什么关系呢?

关系

图片描述

  • 序号、字节状态和字符
  • 这三个东西也构成一个闭环
  • 就像ascii一样

图片描述

  • 我们现在再看一下ord和chr的帮助

ord 和 chr

  • ord将字符的unicode编码转化为单字字符串

图片描述

  • chr 将[0,0x10ffff] 转化为unicode 单字字符串

图片描述

  • 序号是unicode的序号
  • 在[0,127]范围内
    • ascii 和 unicode 重合
    • unicode 兼容 ascii
  • unicode 形成了主流 之后
    • 会吸取周围的小支流
  • 类似的还有办公文档的标准

办公文档的标准

  • dos时代之后
    • win3.1的年代
      • 微软推出了字体处理软件

图片描述

  • 金山在wps的基础上推出了盘古系统

图片描述

win95之后

  • win95之后
    • 图形用户界面都基于微软的api进行开发
    • 微软自身也有office系列

图片描述

  • 客观上
    • 微软也就制定了办公软件的标准
  • 微软office系列
    • 形成了 主流 之后
      • wps、中文之星只能按照去兼容它的格式
    • 失去了定义标准的可能
  • 规则一旦形成
    • 就会对后来的事物产生影响
  • 其实汉字
    • 也有自己的一套归类规则

按照发音来归类

  • 可以按照发音来归类
    • 甚至可以生成语音…

图片描述

  • 还可以进一步归类吗?

韵母归类

  • 押韵助手
    • https://yayun.la/

图片描述

  • 可以用来找到押韵词汇

十三道大辙

  • 字典用的是拼音排序
    • 按照声母的顺序
    • 大辙按的是韵母
  • 这样就可以更方便找相同韵母的汉字了
大辙对应十八韵
一发花十八韵的一麻
二梭波十八韵的二波三歌
三乜斜十八韵的四皆
四衣欺十八韵的五支、六儿、七齐
五灰堆十八韵的八微
六怀来十八韵的九开
七姑苏十八韵的十姑
八衣欺十八韵的十一鱼
九由求十八韵的十二侯
十遥条十八韵的十三豪
十一言前十八韵的十四寒
十二人臣十八韵的十五痕
十三汪洋十八韵的十六唐
十四中东十八韵的十七庚和十八东
  • 四、八其实可以合成一道大辙

  • 如果要双押

    • 就得找词组韵母一致的
    • 其实都可以把所有的词归类
    • 然后制作一个押韵神器
  • 很多各种各样的发音

    • 也被所谓的韵
      • 进行分类
  • 词是由字组成的

    • 词是如何编码进入计算机的呢?

编码解码

  • 两个汉字的unicode编码
  • 占用四个字节

图片描述

  • 已知汉字,得到 unicode 值,叫做编码
    • 过程为 encode
  • 已知 unicode 值,得到汉字,叫做解码
    • 过程为 decode

encode decode

  • 把 str 字符串 encode 编码 为 bytes 字节序列

图片描述

  • 把 bytes 字节序列 decode 解码 为 str 字符串
  • 编码和解码是互为逆运算的

图片描述

  • 绕了一圈又回来了
  • 😁

ascii 和 eval

  • ascii 得到字符串的unicode编码状态

图片描述

  • eval 得到编码的字符串状态
  • 这两个也是逆运算
  • 好像也可以然绕一个圈
  • eval应该如何理解呢?

eval

  • help(eval)

图片描述

  • eval
    • 意思是evaluate衡量
    • 是一个内置的函数
    • __builtins__这个module里面
  • 根据全局变量和局部变量的值进行衡量
    • 这里衡量的是
      • 按unicode形式的编码好的字符串
  • 实际编码的时候是按照什么排序的呢?

unicode 汉字排序

图片描述

偏旁部首检字法

图片描述

  • 禾木字旁的放到一起

图片描述

  • 按照偏旁的次序排列
    • 其实偏门的汉字很多的
  • 偏门的汉字
    • 形成了 小众火星文

火星文

  • 在火星文转化器中
    • 如果爱,请深爱
      • 洳淉嬡,埥堔嬡。
    • 团长,我从此就是杀马特的人了,爱你呦
      • 團萇,莪苁泚僦湜摋骉特哋亾孒,嬡沵呦。
    • 爱我不是你的错
      • 嬡莪芣湜沵哋措
    • 你是我的翅膀
      • ༺༒妳ィ是俄棏翄艕ོ
    • today is my birthday
      • 特嘚孓麥波斯嘚

图片描述

  • 这真的有点亚文化
    • 用这个问人工智能
      • 也会晕吧?!

火星文输入法

  • 其实火星文就是把常用汉字序号
    • 和不常用的汉字的序号
    • 对应了起来
      • 文字转化就是找到序号的映射

图片描述

  • 也是一种 加密方法
    • 你用这语料进行深度学习
      • 学出来也是一头雾水

总结

  • 中文字符可以有各种分类方法
    • 声母
      • 拼音检字法
    • 韵母
      • 合辙押韵的分类
    • 偏旁部首
      • 实际上unicode的排序方法

图片描述

  • 我们以前勇闯地下城时候获得了一把屠龙宝刀
    • 给他镶上了❤️宝石
    • 这宝石应该如何理解?

图片描述

  • 我们下次再说!👋
  • 蓝桥->https://www.lanqiao.cn/courses/3584
  • github->https://github.com/overmind1980/oeasy-python-tutorial
  • gitee->https://gitee.com/overmind1980/oeasypython

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/6850.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OD-求字符串中所有整数的最小和(Python)

题目描述 说明 字符串s,只包含 a-z A-Z - ;合法的整数包括 1) 正整数 一个或者多个0-9组成,如 0 2 3 002 102 2)负整数 负号 - 开头,数字部分由一个或者多个0-9组成,如 -0 -012 -23 -00023 输…

新加坡量子软件公司Horizon完成1810万美元A轮融资

​ (图片来源:网络) 近期,Horizon宣布已完成来自印度红杉资本、腾讯、SGInnovate、Pappas Capital和Expeditions Fund的1810万美元A轮投资。 Horizon是一家开发新一代编程工具的公司,总部位于新加坡,它致力…

【多线程与高并发】1、线程的基本概念

1、线程和进程的基本概念 程序(program):为完成特定任务、用某种语言编写的一组指令的集合。即指一段静态的代码,静态对象。进程(process):程序的一次执行过程,或是正在运行的一个程序。是一个动态的过程:有它自身的产…

腾讯会议10秒编译百万代码|鹅厂编译加速标杆案例公开

👉腾小云导读作为一个天然跨平台的产品,腾讯会议从第一行代码开始,团队就坚持同源同构的思想,即同一套架构,同一套代码,服务所有场景。过去一年,腾讯会议,迭代优化了 20000 个功能&a…

互联网坊间鄙视链,现在反过来了?

在互联网的坊间,流传着一条鄙视链:技术看不起产品,产品看不起运营,运营看不起自己。同时,从工资层面也存在着鸿沟,技术最高,产品其次,运营最低。 但这说的是:以前。 现在…

STM32F4_外部中断详解(EXTI)

目录 1. EXTI 是什么? 2. EXTI主要特性 3. EXTI框图 3.1 外部中断/事件线映射 4. EXTI寄存器 4.1 中断屏蔽寄存器 EXTI_IMR 4.2 事件屏蔽寄存器 EXTI_EMR 4.3 上升沿触发选择寄存器 EXTI_RTSR 4.4 下降沿触发选择寄存器 EXTI_FTSR 4.5 软件中断事件寄存器…

row_number 和 cte 使用实例:分组轮流排班

row_number 和 cte 使用实例:分组轮流排班分组轮流排班需求小分析使用 cte 模拟临时数据使用 row_number 分组编号使用聚合函数得到各组最大值使用日期差函数计算轮班天数使用求余运算完成排班使用列转行完成当日排班表小结分组轮流排班 问题出自问答区某个小伙伴的…

基于单片机的室内空气质量检测系统设计_kaic

目录 设计总说明 Instruction 1 绪论 1.1 设计背景及意义 1.2 国内外现状 1.3 设计内容及要求 2 室内空气质量标准及改善方式 2.1 室内空气质量标准参数 2.2 室内空气品质监测方法 2.3 改善空气品质方法 3.1 各模块电路的方案选择和讨论证明 3.1.1 单片机模块的选取和讨论 3.1.…

IOS - 某段子APP分析

抓包走起: 我这边习惯用vpn转发方式; 直接抓出来2.0协议了; 上trace url定位吧; frida-trace -UF -m "+[NSURL URLWithString:]"11891 ms 堆栈 from: 0x101b67038 /var/containers/Bundle/Application/72A10900-034F-400A-A822-6F5BB4FE6933/tieba.app/tie…

实现js程序在vscode控制台输出的方法(看完方便多了)

当我们想要写一段js代码时,我们可能会在vscode中新建一个html文件,然后再script标签下去编写js代码,完了之后我们想要看看js打印输出的效果,还会通过浏览器的 F12 去查看输出结果。好麻烦呀~ 如何解决呢? 我们可以在…

红黑树(算法导论版)

1 定义 (1)每个节点是红色或者黑色的。 (2)根节点是黑色的。 (3)所有叶子结点(NIL)都是黑色的。 (4)如果一个节点是红色,则它的两个子节点都…

nginx反向代理网页502、SSL_do_handshake()握手失败

配置反向代理后,开发反馈网页502,手里辣条吃完,自己试了一把,竟然不行 看看配置文件,没什么问题 之前一直这么写的不科学呀,换百度试试,百度可以,测试代理的域名直接访问也正常 日志…

聊聊MySQL主从延迟

文章目录 MySQL 的高可用是如何实现的呢?二、什么是主备延迟?三、主备延迟常见原因1、备库机器配置差2、备库干私活3、大事务四、主库不可用,主备切换有哪些策略?1、可靠优先2、可用优先实验一实验二3、结论MySQL 的高可用是如何实现的呢? 高可用性(high availability,缩…

SpringBoot整合XXL分布式任务调度(图文详细)

SpringBoot整合XXL分布式任务调度 1 简介 1.1 官网地址 官网地址: https://www.xuxueli.com/xxl-job/ 1.2 概述 XXL-JOB是一个分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。 1.3 功能特性 1、简单:支持通过Web页面对任…

ThreeJS-VR小岛(二十七)

素材: 链接: https://pan.baidu.com/s/1CXaRgxuIfKfzjDRJ8Gx1oQ 提取码: prg3 复制这段内容后打开百度网盘手机App,操作更方便哦 关键代码: let rgbeLoader new RGBELoader(); rgbeLoader.loadAsync("three/050.hdr").then((l…

Windows配置虚拟网络

系列精品文章目录 centos7配置静态网络常见问题归纳_centos7网络问题_张小鱼༒的博客-CSDN博客 python当中的第三方wxPython库的安装解答_pip install wx_张小鱼༒的博客-CSDN博客 jupyter notebook第八章pyecharts库的一些案例分析加相关函数的解析_jupyter安装pyecharts_张…

ASEMI代理HMC717ALP3E原装ADI(亚德诺)车规级HMC717ALP3E

编辑:ll ASEMI代理HMC717ALP3E原装ADI(亚德诺)车规级HMC717ALP3E 型号:HMC717ALP3E 品牌:ADI /亚德诺 封装:QFN-16 批号:2023 安装类型:表面贴装型 引脚数量:16 …

Kafka3.0.0版本——生产者同步发送消息 (API代码示例)

目录一、生产者同步发送消息&#xff08;API代码示例&#xff09;1.1、pom文件导入依赖1.2、API代码1.3、在 kafka集群服务器上开启 Kafka 消费者一、生产者同步发送消息&#xff08;API代码示例&#xff09; 1.1、pom文件导入依赖 依赖包 <dependency><groupId>o…

【SSM】Spring6(七.Spring IoC注解式开发)

文章目录1.声明Bean的注解2.Spring注解的使用2.1 添加aop的依赖2.2 在配置文件中添加context命名空间2.3 在配置文件中指定要扫描的包2.4 在Bean上使用注解2.5 细节3.选择实例化Bean3.1 方案一3.2 方案二4.负责注入的注解4.1 value4.2 Autowired Qualifier4.3 Resource5.全注解…

第四届国际工业信息安全应急大会完美落幕,赛宁网安载誉满满!

3月22-24日&#xff0c;为期2天半的第四届国际工业信息安全应急大会&#xff08;以下简称大会&#xff09;在北京市通州区圆满落幕。大会以“共话安全&#xff0c;共赢发展&#xff0c;共建开放协同新生态”为主题&#xff0c;共设交流论坛、应急大赛、产业推介会、线下展区、投…
最新文章