当前位置: 首页 > article >正文

深度学习中常用的开源数据集

图像分类

1.MNIST

http://yann.lecun.com/exdb/mnist/

MNIST 数据集是机器学习和计算机视觉领域中最著名的数据集之一,常用于训练各种图像处理系统。

MNIST 数据集包含了 70,000 张小型的黑白图像,每张图像的大小是 28x28 像素。每个图像都是手写数字(0到9)的一个实例。

它非常适合初学者练习图像分类技术和卷积神经网络(CNN)等算法。
在这里插入图片描述

图片

2.CIFAR-10

CIFAR-10 数据集是另一种在机器学习和计算机视觉研究领域广泛使用的标准数据集。

https://www.cs.toronto.edu/~kriz/cifar.html

它由加拿大高级研究院(Canadian Institute For Advanced Research, CIFAR)发布,因此得名 CIFAR。CIFAR-10 特别适用于开发和测试图像识别算法。

CIFAR-10 包含 60,000 张 32x32 像素的彩色图像,这些图像被分为 10 个类别,每个类别各 6,000 张图像。这些类别包括:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。
在这里插入图片描述

图片

3.ImageNet

https://www.image-net.org/

ImageNet 数据集是一个大规模的图像数据集,广泛用于计算机视觉研究和各种图像处理算法的训练和测试。

这个数据集由斯坦福大学的研究人员启动和维护,包含超过 1400 万张图片和超过 20,000 个类别。

它用于大规模视觉识别挑战和训练深度学习模型。
在这里插入图片描述

图片

4.fashion-mnist

Fashion-MNIST 数据集是由 Zalando(一家德国的时尚科技公司)发布的一个图像数据集,旨在作为机器学习研究中经典的 MNIST 手写数字数据集的直接替代品。

Fashion-MNIST 包含 70,000 张 28x28 像素的灰度图像,这些图像分为 10 个类别,每个类别有 7,000 张图像,这些类别包括:T恤/上衣、裤子、套头衫、连衣裙、外套、凉鞋、衬衫、运动鞋、包和踝靴。
在这里插入图片描述

图片

5.CelebA

https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

CelebA 数据集是一个大型的人脸属性数据集,广泛用于计算机视觉研究中,特别是在面部识别、面部属性识别和面部编辑等领域。

这个数据集由香港中文大学的研究者开发和维护,CelebA 包含超过 200,000 张名人面部的图像,覆盖了大约 10,000 名不同的名人,每张图像都标有 40 种不同的属性(如发型、帽子、眼镜、笑容等),以及 5 个关键点位置(眼睛、鼻子、嘴巴)的标记。
在这里插入图片描述

图片

自然语言处理

6.IMDB 评论

https://ai.stanford.edu/~amaas/data/sentiment/

IMDB 评论数据集(Internet Movie Database Review Dataset)是一个广泛用于自然语言处理(NLP)和情感分析研究的数据集。

它包含来自 IMDB 网站的 50,000条电影评论,分为训练集和测试集各 25,000 条,每个评论都是一个文本片段,并且带有一个标签,表示该评论是正面的(positive)还是负面的(negative)。
在这里插入图片描述

图片

7.20个新闻组

https://www.kaggle.com/datasets/crawford/20-newsgroups

20 个新闻组数据集由 Ken Lang 编制,包含约 18000 个新闻组文档,分布在 20 个不同的新闻组。

它常用于文本分类和聚类任务。
在这里插入图片描述

图片

8.SQuAD

https://rajpurkar.github.io/SQuAD-explorer/

斯坦福问答数据集 (SQuAD) 是一个阅读理解数据集,由众包工作者针对一系列维基百科文章提出的问题组成,其中每个问题的答案都是来自相应段落的一段文本。斯坦福问答数据集包含 100,000 多个用于机器理解的问题。
在这里插入图片描述

图片

9.GLUE

https://gluebenchmark.com/

GLUE (General Language Understanding Evaluation) 是一个用于评估自然语言处理(NLP)模型在广泛语言理解任务上的性能的基准数据集。

GLUE 旨在提供一个综合性的评估框架,通过多个不同的NLP任务来测试模型的广泛性和鲁棒性。

10.COCO

https://cocodataset.org/#home

COCO 数据集是一个用于对象检测、分割和图像字幕生成的广泛使用的基准数据集。

它由微软研究院发布,旨在提供丰富的标注数据,用于训练和评估计算机视觉模型。
在这里插入图片描述

图片

11.Sentiment140

https://www.kaggle.com/datasets/kazanova/sentiment140

Sentiment140 数据集包含来自Twitter的160万条标注推文。这些推文被标注为正面或负面情感,主要用于训练和评估情感分类模型。

12.Yelp 开放数据集

https://www.yelp.com/dataset

Yelp数据集包含了用户对不同业务的评论、评分、用户信息、业务信息等。它常用于研究和开发推荐系统、情感分析、文本分类和其他NLP任务。

语音识别

13.LibriSpeech

https://www.openslr.org/12/

LibriSpeech 数据集包含约1000小时的英语语音数据,主要用于训练和评估语音识别系统。

该数据集中的音频文件经过高质量的预处理,并且都带有准确的文字转录。
在这里插入图片描述

图片

14.VoxCeleb

https://www.robots.ox.ac.uk/~vgg/data/voxceleb/

VoxCeleb 数据集包含大量名人的音频片段,这些片段从 YouTube 视频中提取,并经过仔细的过滤和标注,以确保数据的质量和多样性。
在这里插入图片描述

图片

卫生保健

15.Breast Cancer Wisconsin

https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

Breast Cancer Wisconsin 数据集是一个广泛用于机器学习和数据挖掘领域的医学数据集,主要用于训练和评估分类模型,以区分良性和恶性乳腺肿瘤。

该数据集包含569个样本,每个样本有30个特征,这些特征从细胞核的图像中提取。
在这里插入图片描述

图片

推荐系统

16.MovieLens

https://grouplens.org/datasets/movielens/

MovieLens 数据集是一个广泛用于推荐系统研究和开发的电影评分数据集。该数据集由明尼苏达大学的 GroupLens 研究小组创建,包含用户对电影的评分信息。

17.Amazon Product Reviews

https://cseweb.ucsd.edu/~jmcauley/datasets.html#amazon_reviews

Amazon Product Reviews 数据集是一个广泛用于情感分析、推荐系统和其他自然语言处理(NLP)任务的大规模数据集。该数据集包含了来自 Amazon 网站的用户对各种产品的评论和评分信息。


http://www.kler.cn/a/459885.html

相关文章:

  • VMware去虚拟化
  • 抖音短视频矩阵系统源码开发全流程解析
  • 自由学习记录(31)
  • dfs复习
  • 【C语言】可移植性陷阱与缺陷(三):整数的大小
  • Linux实验报告12-Apache服务器的配置
  • 艾体宝产品丨加速开发:Redis 首款 VS Code 扩展上线!
  • android13 系统文字大小和显示大小的修改
  • 【Linux】:多线程(读写锁 自旋锁)
  • RabbitMQ基础篇之Java客户端快速入门
  • 【每日学点鸿蒙知识】RichText展示问题、slider组件内置间距、WebView性能优化、AVSession错误
  • 12.30 linux 文件操作,磁盘分区挂载
  • 【2024年-7月-13日-开源社区openEuler实践记录】探索 CPM4OSSP-UI:提升用户交互体验的开源宝藏
  • 软件测试 Linux 服务器监控命令的基本知识
  • 大模型—Ollama 结构化输出
  • C12.【C++ Cont】string类字符串的创建、输入、访问和size函数
  • 利用AI进行系统性能优化:智能运维的新时代
  • Docker搭建Jenkins
  • 【Elasticsearch】数据分布与路由机制
  • 无人机驾驶证对入伍有帮助吗?
  • linux 点对点语音通话及直播推流实践三:嵌入式无GUI Linux VoIP语音对讲方案
  • 在 Ubuntu 下通过 Docker 部署 Caddy 服务器
  • 深入理解Jsoup与Selenium:Java爬虫的双剑合璧
  • kafka开机自启失败问题处理
  • STM32高级 物联网之Wi-Fi通讯
  • docker django uwsgi 报错记录