字符编码(ASCII码、音码、形码、区位码,国标码、机内码,字形码)
1、西文字符编码
ASCII(美国信息交换标准代码)字符编码,该编码标准已经被国际标准化组织(ISO)指定为国际标准,是国际上使用最广泛的一种字符编码。标准的ASCII码采用二进制编码,他可以表示27即128个字符。
计算机内部存储与操作常以字节(Byte)为单位,即以8个二进制位为单位,因此一个ASCII码在计算机内实际是用一个字节(8位)表示。
ASCII编码表
小写英文字母的ASCII码值>大写英文字母的ASCII码值>数字的ASCII码值>空格的ASCII码值。小写字母比对应大写字母的ASCII码值大32
2、汉字字符编码
1.通过键盘输入汉字时实际输入汉字的编码信息,这种编码称为汉字的输入码
2.计算机为了存储、处理汉字,必须将汉字的外部码转换成汉字的内部码
3.为了将汉字以点阵的形式输出,还要将汉字的内部码转换为汉字的字形码
(1)输入码
1️⃣ 音码。主要以汉语拼音为基础的编码方案,如:全拼、双拼、简拼和智能ABC等
2️⃣ 形码。主要根据汉字的特点,按汉字固有的形状,把汉字先拆分成首部,然后进行组合,如:五笔字型法、郑码输入法等。
3️⃣ 数字编码。常用的是区位码,用数字串输入一个汉字。优点是无重码,与内部码的转换比较方便,缺点是代码难以记忆。
(2)国标码
国标码是我国1980年发布的《信息交换用汉字编码字符集——基本集》(代号GB2312-80),是中文信息处理的国家标准,也称汉字交换码,简称GB码
国标码对汉字进行编码时,每个汉字的编码占两个字节(Byte),最大可容纳128*128=16384个汉字集字符。
区位码和国标码之间的转换方法是将一个汉字的十进制区号和十进制位号分别转换为十六进制数,然后再分别加上20H
汉字国标码=汉字区位码+20 20H(区位分别加20H)
(3)机内码
汉字在计算机内部使用的编码就是机内码。每个汉字的内码占用两个字节,并且吗每个字节的最高位为1
汉字机内码=汉字国标码+80 80H=汉字区位码+A0 A0H
(4)字形码
汉字字形码也叫汉字字模或汉字输入码,用于汉字在显示屏或打印机输出
1️⃣点阵式
点阵式表示字形时,分为16 * 16点阵、24 * 24点阵等。在计算机中,8个二进制位组成一个字节,它是度量空间的基本单位,因此,一个16* 16点阵的字形码需要16 *16/8=32字节(Byte)存储空间
点阵字形码所占字节数=点阵行数 * 点阵列数/8
2️⃣矢量式
矢量式表示法描述汉字字形的轮廓特征,当要输出汉字时,字形和大小与计算机的分辨率无关,可以产生高质量的汉字输出,并节省存储空间。
西文字符在计算机内用ASCII表示,汉字在计算机内用机内码表示。ASCII码每个字节均小于80H,机内码的每个字节均大于A0H。