2.5 数据部分总结
2.5 数据部分总结
李沐
B站:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144
课程主页:https://c.d2l.ai/stanford-cs329p/
1. 数据方面的挑战:
- 数据量和标注质量的权衡:
在数据方面也会有挑战:数据量和标注质量之间的平衡。
不同的机器学习问题对以上两个方面的要求不完全一样,特别是深度学习模型,他不仅要求有一定高质量的标注数据,而且数据量的大小和丰富度也很重要。因此,应根据实际情况来平衡两者之间的关系。
- 数据质量:
- 多样性:数据集中应包含主题的方方面面。比如无人驾驶的数据集,不同的天气情况和道路场景都应该包含。
- 数据集非偏:数据集没有对某个方面的偏向性。比如前面提到的房子数据集,收集的都是斯坦福附近的,因此训练出来的模型只适合斯坦福附近的情况,数据集是有偏向的。
- 公平性:没有区别对待某些特定的人或事物。
- **大数据的管理:**在·实际工业场景中,整个机器学习流程是一个不断迭代的过程,会不断收集添加新的数据,数据会越来越多。因此,数据的存储、处理、版本控制、数据安全都是挑战。