当前位置: 首页 > article >正文

Pytorch使用torch.utils.data.random_split拆分数据集,拆分后的数据集状况

对于这个API,我最开始的预想是从 '猫1猫2猫3猫4狗1狗2狗3狗4' 中分割出 '猫1猫2狗4狗1' 和 '猫4猫3狗2狗3' ,但是打印结果和我预想的不一样

数据集文件的存放路径如下图

测试代码如下

import torch
import torchvision

transform = torchvision.transforms.Compose([
    torchvision.transforms.Resize((512,512)),  # 调整图像大小为 224x224
    torchvision.transforms.ToTensor(),  # 转换为张量
    torchvision.transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 归一化
])
dataset = torchvision.datasets.ImageFolder('C:\\Users\\ASUS\\PycharmProjects\\pythonProject1\\cats_and_dogs_train',
                                                 transform=transform)

val_ratio = 0.2
val_size = int(len(dataset) * val_ratio)
train_size = len(dataset) - val_size
train_dataset, val_dataset = torch.utils.data.random_split(dataset, [train_size, val_size])


cats_num = 0
dogs_num = 0
for x,y in train_dataset:
    if y == 0:
        cats_num += 1
    else:
        dogs_num += 1

print("cats_num: ",cats_num)
print("dogs_num: ",dogs_num)

cats_num2 = 0
dogs_num2 = 0
for x,y in val_dataset:
    if y == 0:
        cats_num2 += 1
    else:
        dogs_num2 += 1

print("cats_num2: ",cats_num2)
print("dogs_num2: ",dogs_num2)

输出如下

可以看到总共25000张图片的数据集,分割后并不是cats_num:10000,dogs_num:10000,cats_num2:2500,dogs_num2:2500

也就是说,分割后的状况是猫狗的数量并不一定相等,如结果为 '猫1猫2猫4狗1' 和 '狗4猫3狗2狗3'


http://www.kler.cn/news/108949.html

相关文章:

  • Android 主题 vs 样式
  • 正确部署Baichuan2(Ubuntu20.4) 步骤及可能出现的问题
  • RateLimiter限流
  • 安装pandas报错
  • [毕设记录]@开题调研:外文博客搬运整理
  • 比较 opacity: 0、visibility: hidden、display: none
  • Hive SQL的编译过程
  • M1安装OpenPLC Editor
  • 2318.不同骰子序列的数目
  • 在Linux上使用Docker实现应用程序打包和分发
  • Day10力扣打卡
  • DIANA算法c++实现
  • Annotorious入门教程:图片注释工具
  • React 生成传递给无障碍属性的唯一 ID
  • 【Git企业开发】第一节.Git 初识
  • 队列(Queue)概念+通过单、双链表来模拟队列+环形队列+OJ面试题(用队列实现栈、用栈实现队列、设计环形队列)
  • [Python]unittest-单元测试
  • Pytorch detach()方法
  • Transformers实战(二)快速入门文本相似度、检索式对话机器人
  • ChatGPT扩展系列之ChatExcel
  • Python连接数据库报错处理
  • 数组OJ题汇总(一)
  • PHP下载文件
  • Linux shell编程学习笔记16:bash中的关联数组
  • 高级深入--day42
  • 缓解大模型幻觉问题的解决方案
  • Python算法例2 判断平方数
  • python基础语法(十一)
  • 【wespeaker】模型ECAPA_TDNN介绍
  • 【MATLAB源码-第58期】基于蛇优化算法(SO)和粒子群优化算法(PSO)的栅格地图路径规划最短路径和适应度曲线对比。