当前位置: 首页 > article >正文

2.5 数据部分总结

2.5 数据部分总结

李沐

B站:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144
课程主页:https://c.d2l.ai/stanford-cs329p/

在这里插入图片描述

1. 数据方面的挑战:

  • 数据量和标注质量的权衡:

​ 在数据方面也会有挑战:数据量和标注质量之间的平衡。

​ 不同的机器学习问题对以上两个方面的要求不完全一样,特别是深度学习模型,他不仅要求有一定高质量的标注数据,而且数据量的大小和丰富度也很重要。因此,应根据实际情况来平衡两者之间的关系。

  • 数据质量:
  • 多样性:数据集中应包含主题的方方面面。比如无人驾驶的数据集,不同的天气情况和道路场景都应该包含。
  • 数据集非偏:数据集没有对某个方面的偏向性。比如前面提到的房子数据集,收集的都是斯坦福附近的,因此训练出来的模型只适合斯坦福附近的情况,数据集是有偏向的。
  • 公平性:没有区别对待某些特定的人或事物。
  • **大数据的管理:**在·实际工业场景中,整个机器学习流程是一个不断迭代的过程,会不断收集添加新的数据,数据会越来越多。因此,数据的存储、处理、版本控制、数据安全都是挑战。

http://www.kler.cn/a/5002.html

相关文章:

  • 3月31号 上午 数据结构课程中 引出的几个算法题目
  • 合创科技C4D设计师网站大全
  • [Few-shot learning] Siamese neural networks
  • 智能驾驶芯片赛道混战:如何看待5类玩家的竞争格局?
  • 【Unity入门】资源包导入和导出
  • Python中进程和线程到底有什么区别?
  • 【代码 | 格式转换】Dicom转png
  • 信息系统项目管理师-挣值管理
  • 2023爱分析 · 认知智能厂商全景报告 | 爱分析报告
  • 【C++】类和对象(中)—构造函数|析构函数|拷贝构造|赋值重载
  • 亚商投资顾问 早餐FM/0328人工智能驱动部署工作
  • 基于sprinmgboot实现实习管理系统的设计【源码+论文】
  • 环境搭建:使用python matplotlib画图不显示中文问题解决
  • JQuery——BreakingNews.js新闻滚动效果
  • 搜索与图论 - 搜索与图在算法中的应用【中】
  • [oeasy]python0120_英语的崛起_英文字符_小写字母的由来_不列颠帝国
  • vue-router路由守卫详解
  • android:手搓一个即时消息聊天框(包含消息记录)
  • 【新】(2023Q2模拟题JAVA)华为OD机试 - 机器人活动区域
  • Node.js的web框架koa2入门