当前位置：首页 > article >正文

关系模型的数据结构及形式化定义

article 2025/2/11 3:10:42

1 关系模型的核心结构

①单一的数据结构（关系）

现实世界的实体以及实体间的各种联系均用关系来表示

②逻辑结构（二维表）

从用户角度，关系模型中数据的逻辑结构是一张二维表，行代表元组（记录），列代表属性（字段）

2 相关定义

（1）域（Domain）：一组具有相同数据类型的值的集合。

例如：整数、实数、介于某个取值范围的整数、指定长度的字符串集合、{‘男’，‘女’}等。

示例：
- 性别域：{'男', '女'}；
- 年龄域：1~120的整数；
- 课程域：{'数学', '英语', '物理'}。

（2）笛卡尔积（Cartesian Product）

给定一组域D1，D2，…，Dn，这些域中可以有相同的。

D1，D2，…，Dn的笛卡尔积为：

注意：

所有域的所有取值的一个组合

不能重复

笛卡尔积中每一个元素（d1，d2，…，dn）叫作一个n元组或简称元组。

笛卡尔积元素（d1，d2，…，dn）中的每一个值di叫作一个分量。

基数：若Di（i＝1，2，…，n）为有限集，其基数为mi（i＝1, …，n），则D1×D2×…×Dn的基数M为：

示例：

域 𝐷1={𝑎,𝑏}，𝐷2={1,2}}
笛卡尔积：{(𝑎,1),(𝑎,2),(𝑏,1),(𝑏,2)}
基数：2×2=4

关键点：
- 元组（Tuple）：笛卡尔积中的每个元素，如 (𝑎,1)。
- 分量（Component）：元组中的每个值 𝑑𝑖，如 𝑎或 1。
- 基数（Cardinality）：若域 𝐷𝑖Di 的基数为 𝑚𝑖mi，则笛卡尔积的基数为 𝑀=𝑚1×𝑚2×…×𝑚𝑛

（3）关系

D1×D2×…×Dn的子集叫作在域D1,D2,…,Dn上的关系，表示为：

R（D1，D2，…，Dn）

R：关系名

n：关系的目或度（Degree）

关系也是一个二维表，表的每行对应一个元组，表的每列对应一个域。

属性

关系中每一列必须起一个名字，称为属性。比如上表中的“导师”、“专业”、“研究生”就是属性

码

候选码：若关系中的某一属性组的值能唯一地标识一个元组，且没有多余属性，则称该属性组为候选码。

主码（Primary key）若一个关系有多个候选码，则选定其中一个为主码。

全码（All-key）所有属性组共同组成的候选码，称为全码（All-key）。

看到这里是不是很迷糊，没关系我们下面通过一个具体的例子来说明这几个码的概念！

现有如下两个表：

学生信息表

学号	姓名	性别	年龄
1001	张三	男	22
1002	李四	女	21
1003	王五	男	20

选课表

学号	课程号	成绩
1001	H001	98
1002	H001	88
1001	H002	78

1. 属性

在 “学生信息表” 中，“学号”“姓名”“性别”“年龄” 是该表的属性，它们分别为每一列命名，用于区分不同类型的数据。同样，在 “选课表” 中，“学号”“课程号”“成绩” 是属性。

2. 候选码

在 “学生信息表” 中，“学号” 可以唯一地标识一个元组（每一个学号对应唯一的学生），且没有多余属性，所以 “学号” 是候选码。“姓名” 不是候选码，因为可能存在重名的学生，不能唯一标识元组。
在 “选课表” 中，“学号” 和 “课程号” 的组合能唯一地标识一个元组（一个学生选一门课的记录是唯一的），且没有多余属性，所以 “学号” 和 “课程号” 这个属性组是候选码。单独的 “学号” 或 “课程号” 都不能唯一标识元组，因为一个学生可以选多门课，一门课可以被多个学生选。

3. 主码

在 “学生信息表” 中，由于只有 “学号” 这一个候选码，所以 “学号” 就是主码。
在 “选课表” 中，因为 “学号” 和 “课程号” 的组合是候选码，我们可以选定这个组合作为主码。如果还有其他候选码，比如在特定情况下有另外一个能唯一标识元组的属性组，就可以从这些候选码中选择一个作为主码。

4. 全码

假设存在一个关系表 “学生 - 课程 - 教师 - 教室”，记录学生选课后上课对应的教师和教室信息。在这个表中，可能需要 “学生”“课程”“教师”“教室” 所有属性组共同才能唯一地标识一个元组（因为可能存在不同学生选同一门课，不同教师教同一门课，同一门课在不同教室上的情况），此时 “学生”“课程”“教师”“教室” 就共同构成了全码。

下面再来介绍几个概念，数据库这块的概念非常多，不过不用太担心，我尽量用浅显的语言的给大家讲明白、讲到位。

主属性与非主属性

候选码的诸属性称为主属性。例如在 “学生信息表” 中，“学号” 是候选码，那么 “学号” 就是主属性，它对于确定表中的唯一元组至关重要。

不包含在任何侯选码中的属性称为非主属性或非码属性。以 “学生信息表” 为例，“姓名”“性别”“年龄” 都不能单独或组合起来唯一标识一个元组，它们也不是候选码的一部分，所以属于非主属性

三类关系

基本关系（基本表或基表）：实际存在的表，是实际存储数据的逻辑表示。比如学校用来存储学生基本信息的 “学生信息表”，存储课程信息的 “课程表” 等，这些表中的数据会被实际存储在数据库中。

查询表：查询结果对应的表。例如在 “学生信息表” 中查询年龄大于 20 岁的学生信息，查询结果所形成的表就是查询表，它是基于查询操作临时生成的。

视图表：由基本表或其他视图表导出的表，是虚表。比如可以从 “学生信息表” 和 “选课表” 导出一个 “学生选课成绩视图表”，该视图表中可能包含学生姓名、所选课程名称、成绩等信息，它本身并不实际存储数据，而是在使用时根据定义从相关的基本表中获取数据。

关系与表的对应

数学术语	数据库术语	示例
域	数据类型	`INT`, `VARCHAR(10)`
笛卡尔积	所有可能组合	全排列（无实际意义）
关系	表（Table）	学生表、课程表
元组	行（Row）	一条学生记录
分量	列值（Cell）	学生姓名为“张三”

3 关系模式

关系模式是对关系的描述。包括：

①元组集合的结构：

属性构成;

属性来自的域 ;

属性与域之间的映象关系。

②元组语义以及完整性约束条件。常见的完整性约束有实体完整性（如主码不能取空值，确保每个元组能被唯一标识）、参照完整性（用于维护表与表之间的关联关系，比如外键的值必须在相关表的主码取值范围内）和用户定义的完整性（根据具体业务需求定义的约束条件，如学生的年龄必须大于 0 等）。

③属性间的数据依赖关系集合。例如函数依赖，若在 “学生 - 课程 - 成绩” 关系中，知道了 “学号” 和 “课程号”，就能唯一确定 “成绩”，那么 “成绩” 函数依赖于 “学号” 和 “课程号”。

关系模式可以形式化地表示为：

R（U，D，DOM，F）

R 关系名

U 组成该关系的属性名集合

D 属性组U中属性所来自的域

DOM 属性向域的映象集合

F 属性间的数据依赖关系集合

关系模式的简化形式：

R (U) 或 R (A1，A2，…，An)

R (U，F)

R: 关系名

A1，A2，…，An : 属性名

假设我们要设计一个用于存储员工信息的数据库关系。
关系名：我们将关系命名为 Employee，这里 Employee 就是R。
属性名：员工信息可能包括员工编号（EmployeeID）、员工姓名（EmployeeName）、年龄（Age）、部门（Department）。那么用 R (A1，A2，…，An)的形式表示这个关系模式就是 Employee (EmployeeID, EmployeeName, Age, Department)