当前位置: 首页 > article >正文

有哪些开源大数据处理项目使用了大模型


以下是一些使用了大模型的开源大数据处理项目:

1. **RedPajama**:这是一个开源项目,使用了LLM大语言模型数据处理组件,对GitHub代码数据进行清洗和处理。具体流程包括数据清洗、过滤低质量样本、识别和删除重复样本等步骤。

2. **SWIFT**:阿里开源的大模型微调轻量级框架,用于提高RAG应用的准确度。

3. **Text2SQL**:阿里发布的最新实践开源模型,其准确度超过了GPT4。

4. **AutoLabel**:阿里开发的自动标注工具,比人工快100倍且准确度相当。

5. **DataEase**:阿里提供的无需代码的数据可视化工具。

6. **Colossal-AI**:潞晨科技开发的大模型智算软件栈,基于PyTorch,通过高效多维并行、异构内存等技术,降低AI大模型训练/微调/推理的开发与应用成本。

7. **vLLM**:提供高效推理吞吐量、PagedAttention内存管理、连续批处理和优化的CUDA内核。

8. **OpenLLM**:在生产环境中运行大语言模型的开源平台,支持LLaMA、StableLM等模型。

9. **QLora**:提供高效的LLM预训练微调方法,减少内存占用。

10. **Dify**:一个开源的大模型推理平台,支持多种大模型。

11. **LLM Foundry**:一个开源的大模型推理、服务和微调工具。

12. **Chat2DB**:阿里开源的智能通用数据库SQL客户端和报表工具。

13. **Defog AI SQLCoder**:Defog团队推出的大语言模型,专门用于将自然语言问题转化为SQL查询。

14. **BIRD-SQL**:由多位作者联合创作的大语言模型,用于自然语言到SQL的转换。

15. **PandaGPT**:剑桥华人团队开源的大型基础模型,横扫六模态。

16. **Skywork-13B**:昆仑万维开发的开源大模型,拥有130亿参数和3.2万亿高质量多语言训练数据。

这些项目展示了大模型在开源大数据处理领域的广泛应用,涵盖了从数据清洗、标注、可视化到模型推理和微调等多个方面。通过这些开源项目,开发者可以更高效地利用大模型技术,推动大数据处理和分析的创新和发展。


 


http://www.kler.cn/a/560654.html

相关文章:

  • 前缀和刷题-- LeetCode
  • 【JavaWeb学习Day19】
  • 【论文精读】YOLO-World:实时开放词汇目标检测
  • 如何向zookeeper中注册内容
  • LeetCode 235. 二叉搜索树的最近公共祖先
  • SQL Server 链接服务器 MySQL 详细步骤
  • java23种设计模式-抽象工厂模式
  • Java Queue实现类面试题
  • 网络安全 机器学习 计算机网络安全课程
  • Spring Boot 中为什么 需要限流、降级和熔断?
  • 1. Nacos 全面解析与使用指南
  • 吐血整理:在 Docker 中运行 Milvus
  • CPU多级缓存与缓存一致性协议
  • WordPress R+L Carrier Edition sql注入漏洞复现(CVE-2024-13481)(附脚本)
  • LeetCodehot 力扣热题100 课程表
  • OV-WATCH手表
  • 当我问了DeepSeek关于网络安全行业影响的问题
  • 阶跃星辰 Step-Vedio-T2V Docker 推理
  • 【技术笔记】Cadence 创建元器件 Pin 引脚的创建与设置
  • 深入理解 Redis 设计与集群管理