数据集的选取、标注
数据集
下图为数据处理的一般流程,来自于:跟李沐学AI
数据集有不同的类型,例如图像、文本、二进制、文件夹等等格式
文本文件:CSV、TSV、Json、Txt
二进制文件:npy
图片文件:jpg、jpeg、png等
公共数据集
1.papers with code
人工智能方向研究生的必备网站
如何使用的参考文章:papers with code介绍(人工智能方向研究生的必备网站)
2.kaggle datasets
下载参考文章:从kaggle上下载数据集方法
3.huggingface
也可以称作抱抱脸,快速入门文章推荐:Hugging Face快速入门
4.Google Dataset Search
推荐配合Google Colab使用:Google Colab 无敌详细使用教程
数据的标注
标注过程大致分为三种情况:
1.足够多的标注
2.足够多的钱
3.缺少以上两种
数据标注是一个对原始数据进行标记和分类的过程,使其可用于训练ML模型。
数据标注有助于将原始数据转化为ML算法可以理解和学习的结构化格式。通过为数据提供背景和意义,标注过的数据可以作为训练ML模型的基础,以识别模式,进行预测,并执行各种任务。
图像标注参考示例文章:【数据标注】数据集标注规范与常见情况
常见图像标注分类:十种常见的图像标注方法 | 数据标注