当前位置: 首页 > article >正文

李沐深度学习 自制数据集

os.makedirs(os.path.join('.','data'),exist_ok= True)
data_file = os.path.join('.','data','house_tiny.csv')

'.'生成在当前目录中

完整代码

import torch
import os
import  pandas as pd
os.makedirs(os.path.join('.', 'data'), exist_ok=True)
data_file = os.path.join('.', 'data', '通信2402.csv')
with open(data_file, 'w',encoding='utf-8') as f:
    f.write('Name,性别,Salary,Level\n')  # 列名
    f.write('1,男,127500,1\n')  # 每行表示一个数据样本
    f.write('2,女,106000,2\n')
    f.write('3,男,178100,3\n')
    f.write('4,男,NA,NA\n')
    f.write('5,男,NA,NA\n')
    f.write('NA,NA,106000,NA\n')
    f.write('7,男,178100,NA\n')
    f.write('8,男,140000,2\n')
data = pd.read_csv(data_file)
print(data)
# 计算每一列的缺失值数量
missing_counts = data.isnull().sum()###计算每一列 缺失值的数量 是缺失值为True= 1

# 找到缺失值最多的列的名称
column_to_drop = missing_counts.idxmax()  ##column_to_drop = level

# 删除缺失值最多的列
data_cleaned = data.drop(columns=[column_to_drop]) ##丢弃掉level行
# 打印处理后的数据
print("\n删除缺失值最多的列后数据:")
print(data_cleaned)
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean(numeric_only = True))###将Name行进行平均填充
print(inputs)
inputs = pd.get_dummies(inputs, dummy_na=True,dtype=int)###独热编码
x,y = torch.tensor(inputs.values),torch.tensor(outputs.values)
print(x)
print(y)

data_file 为写入文件名称,'w'为写模式,encoing='utf-8'处理中文字符 

with open(data_file, 'w',encoding='utf-8') as f:

 计算每一列NAN个数并求和 赋值给变量

isnull() 

missing_counts = data.isnull().sum()###计算每一列 缺失值的数量 是缺失值为True= 1

idxmax

它通常用于查找数据集中最大值对应的行或列名。


http://www.kler.cn/a/302654.html

相关文章:

  • Linux磁盘空间不足,12个详细的排查方法
  • 内网渗透测试工具及渗透测试安全审计方法总结
  • 用户中心项目教程(四)---Vue脚手架完成前端初始化
  • 【Python运维】用Python管理Docker容器:从`docker-py`到自动化部署的全面指南
  • 数据结构漫游记:动态实现栈(stack)
  • ASP .NET Core 学习(.NET9)配置接口访问路由
  • Iptables命令常用命令
  • C#中的闭包
  • 2024.9.13 Python与图像处理新国大EE5731课程大作业,SIFT 特征和描述符,单应性矩阵透视变换
  • redis常见的数据类型?
  • 解决:Module build failed (from ./node_modules/sass-loader/dist/cjs.js)问题
  • 秋招突击——9/10、9\11——算法练习——携程笔试练习——2024年秋招第一批笔试
  • 数据库的实施过程分析
  • 【白话树】之 树的基本知识、存储结构和二叉树转换
  • RabbitMQ创建交换机和队列——配置类 注解
  • Idea 创建 Maven项目的时候卡死
  • 体育数据API纳米足球数据API:足球数据接口文档API示例⑫
  • 【解决方案】双系统中修复ubuntu引导
  • 【算法】-单调队列
  • 数据库系统 第43节 数据库复制
  • LabVIEW回转马达试验系统
  • Git撤销add
  • Flutter类
  • Vue:通过js控制css变量 - 一键修改全局样式
  • Docker 常用命令(未完待续...)
  • 外贸网站建设该怎么做