当前位置：首页 > article >正文

matlab快速入门（2）-- 数据处理与可视化

article 2025/3/10 20:42:35

MATLAB的数据处理

1. 数据导入与导出

(1) 从文件读取数据

Excel 文件：

data = readtable('data.xlsx');  % 读取为表格（Table）

CSV 文件：

data = readtable('data.csv');   % 自动处理表头和分隔符

文本文件：

data = load('data.txt');        % 数值数据直接加载为矩阵

(2) 导出数据到文件

保存为 Excel：
```
writetable(data, 'output.xlsx'); 
```
保存为 CSV：
```
writetable(data, 'output.csv');
```

2. 数据清洗与预处理

(1) 处理缺失值

1>查找缺失值：ismissing(data)

missingValues = ismissing(data);  % 返回逻辑矩阵标记缺失值（NaN 或空字符）

功能：检测 data（可以是数组、表格、时间表等）中的缺失值，生成一个与 data 维度相同的 逻辑矩阵（logical matrix）。
输出规则：
- missingValues 中 true（1）表示对应位置是缺失值。
- false（0）表示该位置数据正常。

支持的缺失值类型

数值型数据：NaN（Not a Number）。
时间型数据：NaT（Not a Time）。
字符串/字符数据：空字符串 ""（字符串数组）或 <missing>。
分类数据：<undefined>。
表格/时间表：自动识别各列的缺失值类型。

示例
假设 data 是一个表格：

ID	Age	Status
1	25	“Complete”
2	NaN	“”
3	30	“”

执行 missingValues = ismissing(data) 后，结果如下：

ID	Age	Status
0	0	0
0	1	1
0	0	1

2> 填充缺失值：fillmissing
代码作用

data.Age = fillmissing(data.Age, 'constant', mean(data.Age, 'omitnan'));  % 用均值填充

功能：将 data.Age 列中的缺失值（NaN）填充为该列的均值（忽略缺失值计算）。
参数解析：
1. data.Age：待填充的列（数值型向量）。
2. 'constant'：填充方式为“常量填充”，即用固定值替换缺失值。
3. mean(data.Age, 'omitnan')：计算 data.Age 列的均值时忽略 NaN 值。

关键步骤

计算均值：
```
avg = mean(data.Age, 'omitnan');  % 忽略 NaN 计算均值
```
- 假设 data.Age = [25, NaN, 30]，则 avg = (25 + 30)/2 = 27.5。
填充缺失值：
```
data.Age = fillmissing(data.Age, 'constant', avg);
```
- 原始数据：[25, NaN, 30] → 填充后：[25, 27.5, 30]。

其他填充方法

插值填充：fillmissing(data.Age, 'linear')（线性插值）。
邻近值填充：fillmissing(data.Age, 'previous')（用前一个有效值填充）。

注意事项

确保数据类型一致：
- fillmissing 的填充值必须与列的数据类型兼容（例如，数值列用数值填充，字符串列用字符串填充）。
处理全缺失列：
- 若某列全部为 NaN，mean(..., 'omitnan') 会返回 NaN，导致填充无效。需额外处理：
```
if all(isnan(data.Age))
    data.Age = zeros(size(data.Age));  % 用0填充全缺失列
end
```

分类变量处理：

分类数据（如 'Male', 'Female'）需用众数填充：

modeGender = mode(data.Gender, 'omitnan');
data.Gender = fillmissing(data.Gender, 'constant', modeGender);

完整示例
原始数据

Age
25
NaN
30

执行代码后

Age
25
27.5
30

总结

ismissing：精准定位数据中的缺失值，生成逻辑掩码。
fillmissing：灵活填充缺失值，支持均值、插值、邻近值等方法。
核心技巧：结合 ismissing 的检测结果，选择合适策略清洗数据，确保后续分析可靠性。

(2) 数据筛选

按条件筛选行：

highScores = data(data.Score > 90, :);  % 筛选 Score 列大于90的行

选择特定列：

selectedData = data(:, {'Name', 'Age'});  % 选择 Name 和 Age 列

(3) 数据转换

涵盖 类型转换 和 分类数据编码 的核心操作。

一、类型转换：`data.Age = double(data.Age);`

1. 作用与原理

目标：将 data.Age 列的数据类型转换为 双精度浮点数（double）。
适用场景：
- 原始数据可能是整数（int）、字符（char）或其他类型。
- 需要统一数值类型以确保计算精度（例如参与科学计算或统计分析）。

2. 示例说明

原始数据

假设 data.Age 原本是整数类型（int32）：

data = table([25; 30; 28], {'Male'; 'Female'; 'Male'}, 'VariableNames', {'Age', 'Gender'});
disp(class(data.Age));  % 输出 'int32'

原始数据

Age (double)	Gender
25	Male
30	Female
28	Male

转换代码

data.Age = double(data.Age);  % 转换为双精度浮点数
disp(class(data.Age));         % 输出 'double'

转换后数据

Age (double)	Gender
25.0	Male
30.0	Female
28.0	Male

3. 常见类型转换函数

函数	作用	示例
`double()`	转为双精度浮点数	`x = double(int32(5))` → `5.0`
`single()`	转为单精度浮点数	`x = single(3.14)`
`int32()`	转为32位整数	`x = int32(10.7)` → `10`
`string()`	转为字符串数组	`x = string(123)` → `"123"`
`cellstr()`	转为字符向量元胞数组	`x = cellstr("Text")` → `{'Text'}`

4. 注意事项

精度丢失：将浮点数转换为整数时，小数部分会被截断（非四舍五入）。
```
x = 3.9;
y = int32(x);  % y = 3
```

数据溢出：超出目标类型范围的转换会引发错误或产生意外值。

x = 500;
y = int8(x);   % int8 范围是 [-128, 127]，y = 127（溢出）

分类数据编码：data.Gender = categorical(data.Gender);

1. 作用与原理

目标：将字符或字符串数据转换为 分类变量（categorical）。
优势：
- 节省内存：分类变量内部存储为整数索引，而非重复的字符串。
- 高效操作：支持快速分组统计、排序、筛选。
- 语义清晰：保留原始标签，方便可视化与分析。

2. 示例说明

原始数据

假设 data.Gender 是字符串数组：

data.Gender = ["Male"; "Female"; "Male"; "Female"];
disp(class(data.Gender));  % 输出 'string'

注意：一定要转换为categorical类型的数据

转换代码

data.Gender = categorical(data.Gender);  % 转换为分类变量
disp(class(data.Gender));                % 输出 'categorical'
disp(categories(data.Gender));           % 输出 {'Female', 'Male'}

转换后数据

Gender (categorical)
Male
Female
Male
Female

3. 分类变量的核心操作

(1) 统计频数

counts = countcats(data.Gender);  % 输出 [2; 2]（Female:2, Male:2）

(2) 排序数据

sortedData = sortrows(data, 'Gender');  % 按分类顺序排序（默认字母顺序）

(3) 合并类别

% 将 'Male' 和 'Female' 合并为 'Other'
data.Gender = mergecats(data.Gender, {'Male', 'Female'}, 'Other');
disp(categories(data.Gender));  % 输出 {'Other'}

(4) 处理缺失值

% 添加缺失值并填充
data.Gender(2) = missing;        % 设置为 <undefined>
data.Gender = addcats(data.Gender, 'Unknown');  % 添加新类别
data.Gender(isundefined(data.Gender)) = 'Unknown';  % 填充缺失

4. 分类变量的优势对比

操作	字符串数组	分类变量
内存占用	高（存储所有字符）	低（存储整数索引）
分组统计速度	慢	快
支持自定义类别顺序	不支持	支持（有序分类）

三、综合应用场景

场景：数据预处理流程

% 步骤1：读取数据
data = readtable('survey_data.csv');

% 步骤2：类型转换（Age列转为double）
data.Age = double(data.Age);

% 步骤3：分类编码（Gender列转为分类变量）
data.Gender = categorical(data.Gender);

% 步骤4：处理缺失值（用众数填充Gender）
modeGender = mode(data.Gender, 'omitnan');
data.Gender = fillmissing(data.Gender, 'constant', modeGender);

% 步骤5：保存处理后的数据
writetable(data, 'cleaned_survey_data.csv');

四、注意事项

类型转换前检查数据：
- 确保转换后的类型适合后续分析（例如日期数据应转为 datetime）。
分类变量的顺序：
- 默认按字母顺序排列，可通过 'Ordinal', true 指定逻辑顺序。
缺失值处理：
- 分类变量中的缺失值显示为 <undefined>，需用 addcats 和 fillmissing 处理。

总结

类型转换：确保数据格式统一，满足计算需求。
分类编码：提升处理离散标签数据的效率和可读性。
核心函数：double(), categorical(), countcats(), mergecats()。

3. 数据分析与统计

一、聚合统计

1. 分组统计：`groupsummary`

功能：按指定分组变量对数据进行分组，并计算统计量（如均值、总和、标准差等）。

语法

groupStats = groupsummary(data, groupVars, method, dataVars)

data：输入表格（table）。
groupVars：分组变量（列名或列索引），支持单列或多列。
method：统计方法（如 'mean', 'sum', 'std'）。
dataVars：需要统计的数据列（列名或列索引）。

示例 1：按性别计算平均分

% 创建示例数据
data = table({'Male'; 'Female'; 'Male'; 'Female'}, [85; 92; 78; 88], 'VariableNames', {'Gender', 'Score'});

% 按性别分组计算平均分
groupStats = groupsummary(data, 'Gender', 'mean', 'Score');

输出结果：

Gender	GroupCount	mean_Score
Female	2	90
Male	2	81.5

示例 2：多分组变量与多统计方法

% 按性别和部门分组，计算销售额的总和和均值
groupStats = groupsummary(data, {'Gender', 'Dept'}, {'sum', 'mean'}, 'Sales');

2. 交叉分析：`crosstab`

功能：生成交叉频数表，统计两个或多个分类变量的组合频数。

语法

[table, chi2, p] = crosstab(var1, var2, ...)

var1, var2：分类变量（向量或分类数组）。
table：交叉频数表。
chi2：卡方检验统计量。
p：p 值（检验变量独立性的显著性）。

示例：性别与部门的交叉分析

% 创建示例数据
gender = categorical({'Male'; 'Female'; 'Male'; 'Female'});
dept = categorical({'IT'; 'HR'; 'IT'; 'HR'});

% 生成交叉表
[counts, ~, ~] = crosstab(gender, dept);
disp(counts);

输出：

	HR	IT
Female	2	0
Male	0	2

二、数值计算

1. 矩阵运算：`cov`（协方差矩阵）

功能：计算数据列之间的协方差矩阵，反映变量间的线性相关性。

语法

covMatrix = cov(data)

data：数值矩阵或表格中的数值列。
covMatrix：对称矩阵，对角线为方差，非对角线为协方差。

示例：计算协方差矩阵

% 提取表格中的数值列（第2到5列）
numericData = data{:, 2:5};

% 计算协方差矩阵
covariance = cov(numericData);
disp(covariance);

协方差解读：

正值：变量同向变化。
负值：变量反向变化。
绝对值大小：表示相关性强度。

2. 自定义函数应用：`arrayfun`

功能：对数组的每个元素应用自定义函数，避免显式循环。

语法

output = arrayfun(func, array)

func：函数句柄（如 @(x) x + 5）。
array：输入数组。
output：与输入数组同维度的结果。

示例：所有分数加5

% 定义分数列
data.Score = [85; 92; 78; 88];

% 对每个分数加5
data.AdjustedScore = arrayfun(@(x) x + 5, data.Score);

输出：

Score	AdjustedScore
85	90
92	97
78	83
88	93

对比向量化操作：

% 更高效的向量化写法
data.AdjustedScore = data.Score + 5;

三、综合应用场景

场景：销售数据分析

% 步骤1：读取数据
data = readtable('sales_data.csv');

% 步骤2：按地区和产品类别分组，计算总销售额和平均利润
groupStats = groupsummary(data, {'Region', 'Product'}, {'sum', 'mean'}, {'Sales', 'Profit'});

% 步骤3：生成地区和销售员的交叉表
[counts, ~, ~] = crosstab(data.Region, data.Salesperson);

% 步骤4：计算销售额与利润的协方差
covMatrix = cov(data{:, {'Sales', 'Profit'}});

% 步骤5：调整销售额（所有值乘以1.1）
data.AdjustedSales = arrayfun(@(x) x * 1.1, data.Sales);

四、注意事项

数据类型一致性：
- 聚合统计和交叉分析要求分组变量为分类变量或可离散化的数值。
- 协方差计算需确保输入为数值矩阵。
缺失值处理：
- groupsummary 默认忽略缺失值，但需提前确认数据完整性。
- crosstab 会将缺失值单独列为一类（<undefined>）。
性能优化：
- 优先使用向量化操作（如 data.Score + 5）替代 arrayfun，提升效率。
- 对大型数据，避免在循环中频繁操作表格，可转换为矩阵处理。

五、扩展函数推荐

函数	作用	示例
`grpstats`	分组统计（类似 `groupsummary`）	`grpstats(data, group, 'mean')`
`varfun`	对表格列应用函数	`varfun(@mean, data)`
`corrcoef`	计算相关系数矩阵	`corrcoef(data{:, 2:5})`
`pivot`	生成透视表	`pivot(data, Rows='Gender')`

生命如同寓言，其价值不在于长短，而在于内容。 —塞涅卡

查看全文

http://www.kler.cn/a/528704.html

【Redis】Redis修改连接数参数

自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测，对预测结果计算精确度和召回率及F1分数

Java小白入门教程：LinkedList

车载以太网---数据链路层

Spark SQL读写Hive Table部署

SQL入门到精通理论+实战 -- 在 MySQL 中学习SQL语言

10：预处理

C++，vector：动态数组的原理、使用与极致优化

回溯算法理论基础

递归练习七（floodfill 算法）

C#属性和字段(访问修饰符)

代码随想录-训练营-day17

自制虚拟机(C/C++)(二、分析引导扇区，虚拟机读二进制文件img软盘)

代码随想录算法训练营第四十二天-动态规划-股票-188.买卖股票的最佳时机IV

JVM运行时数据区域-附面试题

笔记：同步电机调试时电角度校正方法说明

Python GIL（全局解释器锁）机制对多线程性能影响的深度分析

《逆向工程核心原理》第三~五章知识整理

MATLAB实现多种群遗传算法

SQLAlchemy通用分页函数实现：支持搜索、排序和动态页码导航

1. 数据导入与导出

(1) 从文件读取数据

(2) 导出数据到文件

2. 数据清洗与预处理

(1) 处理缺失值

(2) 数据筛选

(3) 数据转换

一、类型转换：data.Age = double(data.Age);

1. 作用与原理

2. 示例说明

原始数据

转换代码

3. 常见类型转换函数

4. 注意事项

1. 作用与原理

2. 示例说明

原始数据

转换代码

转换后数据

3. 分类变量的核心操作

4. 分类变量的优势对比

三、综合应用场景

场景：数据预处理流程

四、注意事项

总结

3. 数据分析与统计

一、聚合统计

1. 分组统计：groupsummary

语法

示例 1：按性别计算平均分

示例 2：多分组变量与多统计方法

2. 交叉分析：crosstab

语法

示例：性别与部门的交叉分析

二、数值计算

1. 矩阵运算：cov（协方差矩阵）

语法

示例：计算协方差矩阵

协方差解读：

2. 自定义函数应用：arrayfun

语法

示例：所有分数加5

对比向量化操作：

三、综合应用场景

场景：销售数据分析

四、注意事项

五、扩展函数推荐

相关文章：

一、类型转换：`data.Age = double(data.Age);`

1. 分组统计：`groupsummary`

2. 交叉分析：`crosstab`

1. 矩阵运算：`cov`（协方差矩阵）

2. 自定义函数应用：`arrayfun`