【机器学习】数据集合集!
本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。
1
chat
-
更新时间:2024-07-10
-
访问地址: GitHub
-
描述:
Chat 是一个基于自然语言理解与机器学习的语义理解库。
Chat 提供丰富的语义分析工具与语义知识图的构建工具,非常适合从0开始迅速搭建自己的聊天机器人,也能够减少工程师在实际开发当中的重复工作。
Chat 非常易于修改和扩展,可以方便地个性化定制。
Chat 支持多用户并发及自定义的多轮对话场景。
-
数据集网址:
https://github.com/Decalogue/chat
2
analog
-
更新时间:2024-08-25
-
访问地址: GitHub
-
描述:
是一款命令行下的Web日志审计工具,旨在帮助使用者能够在终端上快速得进行Web日志审计和排查,包含了日志审计、统计的终端图形化和机器学习识别恶意请求的功能。
-
数据集网址:
https://github.com/Testzero-wz/analog
3
Remote-Sensing-Image-Classification
-
更新时间:2024-10-13
-
访问地址: GitHub
-
描述:
随着遥感卫星成像技术的提升和机器学习的蓬勃发展,越来越多的研究人员利用机器学习的方法来进行遥感图像识别,取得了很好的效果。我将利用四种机器学习算法在WHU-RS19数据集上进行遥感图像识别的尝试,这其中既包括传统的kNN和SVM,也包括近年来得到青睐的CNN和LSTM算法。
-
数据集网址:
https://github.com/Dekai21/Remote-Sensing-Image-Classification
4
alldata
-
更新时间:2024-12-13
-
访问地址: GitHub
-
描述:
AllData可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为工厂,以大模型应用为上游产品,提供全链路数字化解决方案。
-
数据集网址:
https://github.com/alldatacenter/alldata
5
cube-studio
-
更新时间:2024-12-06
-
访问地址: GitHub
-
描述:
cube studio开源云原生一站式机器学习/深度学习/大模型AI平台,支持sso登录,多租户,大数据平台对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式训练,超参搜索,推理服务VGPU,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型微调,vllm大模型推理,llmops,私有知识库,AI模型应用商店,支持模型一键开发/推理/微调,支持国产cpu/gpu/npu芯片,支持RDMA,支持pytorch/tf/mxnet/deepspeed/paddle/colossalai/horovod/spark/ray/volcano分布式。
-
数据集网址:
https://github.com/tencentmusic/cube-studio
6
RFGuess
-
更新时间:2024-12-25
-
访问地址: GitHub
-
描述:
基于机器学习的社工字典生成工具。
将 PII(个人身份信息)数据转换为在传统机器学习模型中表现良好的结构。我已经实现了论文的主要概念,并编写了一个易于使用的工具,用于训练模型、生成模式、进行猜测和评估准确性。这个仓库贡献了:
专门针对基于 PII 的针对性密码猜测场景的 GUI 程序
预先训练的模型
-
数据集网址:
https://github.com/PadishahIII/RFGuess
7
SafeCrowdNav
-
更新时间:2024-01-25
-
访问地址: GitHub
-
描述:
在密集人群中安全高效地导航仍然是移动机器人面临的一个挑战。避免碰撞所涉及的交互机制要求机器人在了解人群动态的同时表现出主动和有远见的行为。
为了应对这些挑战,我们提出了 SafeCrowdNav,这是一种强调在复杂环境中避障的综合人群导航算法。我们的方法结合了安全评估函数来定量评估当前的安全分数和内在探索奖励,以根据场景约束平衡探索和开发。通过结合优先经验重放和后见经验重放技术,我们的模型有效地学习了拥挤环境中的最佳导航策略。实验结果表明,与最先进的算法相比,我们的方法增强了机器人对人群的理解,从而降低了碰撞概率并缩短了导航时间。
-
数据集网址:
https://github.com/Janet-xujing-1216/SafeCrowdNav
8
MachineLearning
-
更新时间:2024-06-24
-
访问地址: GitHub
-
描述:
机器学习教程,本教程包含基于numpy、sklearn与tensorflow机器学习,也会包含利用spark、flink加快模型训练等用法。本着能够较全的引导读者入门机器学习。
-
数据集网址:
https://github.com/OrvilleX/MachineLearning
9
awesome-python-machine-learning-resources
-
更新时间:2024-06-06
-
访问地址: GitHub
-
描述:
本资源清单包含820个python机器学习相关的开源工具资源,这些热门工具总共分成32个不同的子板块,这些项目目前在github上已经收到3.5M个点赞。所有的工具资源每周会自动从GitHub和工具维护平台采集信息,并更新排行展示。
-
数据集网址:
https://github.com/HanXinzi-AI/awesome-python-machine-learning-resources
10
airda
-
更新时间:2024-06-26
-
访问地址: GitHub
-
描述:
airda(Air Data Agent)是面向数据分析的多智能体,能够理解数据开发和数据分析需求、理解数据、生成面向数据查询、数据可视化、机器学习等任务的SQL和Python代码。
-
用途:
精准数据检索:airda具有强大的数据处理和搜索能力,可以从成百上千张表中精准找数,满足您在大数据环境下的数据查找需求。
业务知识理解:airda不仅能处理数据,还深入理解数据指标、计算公式等业务知识,为您提供更深层次、更具业务价值的数据分析。
多智能体协同工作:airda采用面向数据分析需求的多轮对话设计,多智能体可以协同工作,进行数据分析代码的self-debug,提升分析效率,降低错误率。
数据可视化:airda可以将复杂的数据通过可视化的方式呈现,让数据分析结果更易于理解,帮助您更好地做出决策。
-
数据集网址:
https://github.com/hitsz-ids/airda