当前位置：首页 > article >正文

P3数据结构、数据类型、数字编码、字符编码：保姆级图文详解

article 2025/3/3 18:42:44

文章目录

前言
1、数据结构分类
- 1.1、逻辑结构：线性与非线性
- 1.2、物理结构：连续与分散
- 1.3、数据结构的实现方式
- 1.4、数据结构的选择依据
2、基本数据类型
- 2.1、定义与分类
- 2.2、存储形式
3、数字编码
- 3.1、原码、反码与补码
- 3.2、浮点数编码
- 3.3、整数与浮点数区别
4、字符编码
- 4.1、ASCII 字符集
- 4.2、GBK 字符集
- 4.3、Unicode 字符集
- 4.4、UTF-8 编码

前言

亲爱的家人们，创作很不容易，若对您有帮助的话，请点赞收藏加关注哦，您的关注是我持续创作的动力，谢谢大家！有问题请私信或联系邮箱：fn_kobe@163.com

1、数据结构分类

从两个维度划分：

①逻辑结构：关注数据元素之间的逻辑关系。
②物理结构：关注数据在计算机内存中的存储方式。

1.1、逻辑结构：线性与非线性

①定义：逻辑结构揭示数据元素之间的逻辑关系。数据线性排列或呈现更复杂的层次或网络关系。

②分类：
i：线性结构：
数据呈一对一的顺序关系。常见结构：数组、链表、栈、队列、哈希表。

ii：非线性结构：
数据呈一对多或多对多的关系。分为以下两类：
i：树形结构：如树、堆、哈希表。
ii：网状结构：如图。
在这里插入图片描述

③特点：
i：线性数据结构：简单直观，逻辑关系呈线性排列。
ii：非线性数据结构：适合表示复杂层次和网络关系，逻辑关系更复杂。

1.2、物理结构：连续与分散

①定义：物理结构描述数据在计算机内存中的存储方式。内存由单元格（内存空间）组成，每个单元格通过内存地址访问。
在这里插入图片描述

②分类
i：连续空间存储：数据存储在连续的内存块中。常见结构：数组。
ii：分散空间存储：数据存储在非连续的内存块中，通过指针连接。常见结构：链表。
在这里插入图片描述

③特点：

i：连续存储：访问效率高，但需要大块连续内存。适用于静态数据结构。
ii：分散存储：内存利用率高，支持动态调整。适用于动态数据结构。

1.3、数据结构的实现方式

①基于数组的实现：
i：可实现：栈、队列、哈希表、树、堆、图、矩阵、张量等。
ii：特点：初始化后长度固定，但可通过重新分配内存实现一定的动态性。

②基于链表的实现：
i：可实现：栈、队列、哈希表、树、堆、图等。
ii：特点：支持动态长度调整，适合在运行时需要频繁修改长度的场景。

③动态与静态数据结构
i：链表：动态数据结构，长度可在运行时调整。
ii：数组：静态数据结构，长度在初始化时固定，但通过内存重分配可具备动态性。

1.4、数据结构的选择依据

①性能与内存效率的权衡
i：连续存储（如数组）：适合需要快速访问的数据结构，但对内存连续性要求高。
ii：分散存储（如链表）：适合需要频繁插入和删除操作的数据结构，内存利用率更高。

②实际应用中的组合
数据结构往往基于数组和链表的组合实现。如哈希表可能结合数组（存储槽位）和链表（处理冲突）。

2、基本数据类型

2.1、定义与分类

基本数据类型是 CPU 直接运算的数据类型，用于表示数据基本形式。包括整数、浮点数、字符和布尔类型。
①主要类型：
i：整数类型：byte、short、int、long，用于表示整数。
ii：浮点数类型：float、double，用于表示小数。
iii：字符类型：char，用于表示字母、标点符号及其他字符。
iv：布尔类型：bool，用于表示“是/否”判断。

2.2、存储形式

所有基本数据类型以二进制形式存储，一个二进制位（bit）是计算的最小单位。一个字节（byte）由 8 个比特（bit）组成（绝大多数现代操作系统遵循此规则）。基本数据类型的取值范围取决于其占用的空间大小，例如：
在这里插入图片描述

3、数字编码

3.1、原码、反码与补码

①定义：

i：原码：二进制表示中，最高位为符号位（0表示正数，1表示负数），其余位表示数值。
ii：反码：正数的反码与原码相同，负数的反码为原码符号位不变，其余位按位取反。
iii：补码：正数的补码与原码相同，负数的补码为其反码加1。

在这里插入图片描述

②补码特点：
解决原码和反码中“正零”和“负零”带来的歧义问题。通过将负数的运算转化为加法运算，简化硬件设计。
支持负数范围比正数多一个。

③计算机使用补码原因：
统一正负数的加减法运算，不需要单独设计减法电路。消除正负零的歧义，简化条件判断。硬件电路设计更简单，高效支持并行化运算。

3.2、浮点数编码

①表示方式：
根据 IEEE 754 标准，32 位浮点数 float 由以下三部分组成：
i：符号位（1 位）：表示正数或负数。
ii：指数位（8 位）：表示数值的指数部分。
iii：分数位（23 位）：表示有效数字部分。
计算公式：
在这里插入图片描述

3.3、整数与浮点数区别

①存储空间：
int 和 float 都占用 4 字节，但表示范围和精度不同。int 使用所有比特表示均匀分布的整数。float 使用部分比特表示指数位，扩展范围但降低精度。

②适用场景：
整数类型适用于精确计算，如计数或索引操作。浮点数类型适用于需要表示小数或范围极大的数值。

4、字符编码

**①定义：**字符编码通过“字符集”将字符与二进制数一一对应，实现二进制数到字符的转换。
②需求背景：不同语言和符号的表示需要统一规则，字符编码规范解决这一问题。

4.1、ASCII 字符集

①特点：ASCII 是最早的字符集，使用7位二进制表示，共支持128个字符。包含英文大小写字母、数字、标点符号及控制字符。
②扩展：EASCII：扩展到8位，可表示256个字符。不同地区的 EASCII 字符集后128个字符定义不同，以适应本地语言需求。
在这里插入图片描述

4.2、GBK 字符集

①背景：GB2312（1980 年发布）解决汉字表示问题，支持 6763 个汉字，但无法覆盖罕见字和繁体字。
②扩展：GBK 在 GB2312 基础上扩展，支持 21886 个汉字。
③编码方式：ASCII 字符使用 1 字节。汉字使用 2 字节。

4.3、Unicode 字符集

①特点：统一字符集，支持全球语言和符号，理论上可容纳 100 多万个字符。通过统一的“码点”为每个字符分配编号。
②意义：解决多语言环境乱码问题。消除不同字符集之间的兼容性障碍。
③问题：Unicode 只是定义字符码点，没有规定如何存储字符，导致在实际实现中需要额外编码方案。
在这里插入图片描述

4.4、UTF-8 编码

①定义：UTF-8 是 Unicode 的一种编码方式，使用 1 至 4 字节表示一个字符。根据字符复杂性调整字节数，具备高效性和兼容性。
②规则：1 字节：ASCII 字符（最高位为 0）。多字节：起始字节高位以 1 标识字节长度，其余位用于编码字符码点。后续字节以 10 开头用于填充字符码点。

③优点：向下兼容 ASCII，适合处理历史遗留文本。多字节的起始位和校验位设计便于错误检测。
④其他编码方式：
UTF-16：2 或 4 字节表示字符，常用非英文字符占 2 字节。
UTF-32：固定使用 4 字节，适配性差，占用空间大。
在这里插入图片描述