当前位置: 首页 > article >正文

DeepSeek:AI 领域的新兴力量

亲爱的小伙伴们😘,在求知的漫漫旅途中,若你对深度学习的奥秘、Java 与 Python 的奇妙世界,亦或是读研论文的撰写攻略有所探寻🧐,那不妨给我一个小小的关注吧🥰。我会精心筹备,在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享🎁。每一个点赞👍,都如同春日里的一缕阳光,给予我满满的动力与温暖,让我们在学习成长的道路上相伴而行,共同进步✨。期待你的关注与点赞哟🤗!

成立背景

2015 年,由浙江大学的三名工程师在 2007-2008 年金融危机期间开始交易并成立了幻方量化。2019 年,幻方量化成立了幻方 AI,致力于 AI 算法及其基本应用的研究。到 2021 年,幻方的所有策略都在使用 AI。2023 年 4 月,幻方宣布将成立一个新的独立机构来研究通用人工智能,与幻方的金融业务分开。

公司成立

2023 年 5 月,DeepSeek 在杭州成立,由梁文锋创立并得到幻方量化的支持。

模型发布

  • 2023 年 11 月 2 日:发布了首个模型 DeepSeek Coder,该模型免费供商业使用且完全开源。
  • 2023 年 11 月 29 日:推出 DeepSeek LLM,其参数规模达到 67B,性能接近 GPT-4,但在计算效率和可扩展性方面面临挑战,同时还发布了该模型的聊天版本 DeepSeek Chat。
  • 2024 年 5 月:推出 DeepSeek V2,据《金融时报》报道,其价格为每百万输出 token 2 元人民币,滑铁卢大学 Tiger Lab 的排行榜将 DeepSeek V2 在大语言模型排名中列为第七。
  • 2024 年 11 月:发布 DeepSeek R1-lite-preview,该模型在逻辑推理、数学推理和实时问题解决等任务中表现出色,DeepSeek 声称其在诸如美国数学邀请赛(AIME)和数学等基准测试中超过了 OpenAI O1 的性能,但《华尔街日报》在使用 2024 年版 AIME 的 15 个问题进行测试时,发现 OpenAI O1 比 DeepSeek R1-lite-preview 更快地得出解决方案。
  • 2024 年 12 月:推出 DeepSeek V3,该模型具有 6710 亿参数,仅用约 55 天、花费 557.6 万美元进行训练,训练数据集约为 14.8 万亿 token。基准测试显示,它的性能优于 Llama 3.1 和 Qwen 2.5,与 GPT-4 o 和 Claude 3.5 Sonnet 相当。

DeepSeek 与其他大语言模型相比,具有以下优势:

性能与能力方面

  • 多领域表现出色:DeepSeek-V3 在多项测评中优于 Llama-3.1-405B 等开源大模型,在性能上媲美 GPT-4o 以及 Claude-3.5-Sonnet 等主流大模型。在长文本测评方面,如 drop、frames 和 longbenchv2 上,平均表现超越其他模型。在算法类代码场景,远远领先于市面上已有的全部非 o1 类模型,并在工程类代码场景逼近 Claude-3.5-Sonnet-10221911。
  • 中文能力突出:DeepSeek-V2 的中文综合能力超越一众开源模型,并和 GPT-4-turbo、文心 4.0 等闭源模型同处第一梯队。DeepSeek-V3 在中文能力上,与 Qwen2.5-72b 在教育类测评 c-eval 和代词消歧等评测集上表现相近,但在事实知识 c-simpleqa 上更为领先9。
  • 数学能力强:DeepSeek-V3 在 math500 测试里,正确率能达到 90.2%,超过了所有开源和闭源模型。在美国数学竞赛和全国高中数学联赛上,大幅超过了所有开源闭源模型49。

成本与效率方面

  • 训练成本低:DeepSeek-V3 仅用约两个月的时间,花费约 558 万美元完成训练,而通常用于预训练大语言模型动辄上亿美元的成本,如 Llama-3.1 的预训练成本估计就超过 5 亿美元1611。
  • 推理效率高:DeepSeek-V3 采用混合专家架构,配备 256 个专家,推理过程中动态选择前 8 个参与计算,提升了计算效率,其生成速度比 DeepSeek-V2.5 版本快了 3 倍,每秒能处理 60 个事务128。

技术与架构方面

  • 创新架构:DeepSeek-V2 采用了创新的 MLA 架构,大幅减少计算量和推理显存,其消耗的显存只有同级别 dense 模型的 1/5~1/100,每 token 成本大幅降低。DeepSeek-V3 采用了混合专家架构和 FP8 技术等,既提升了性能又降低了计算和存储需求1911。
  • 开源优势:DeepSeek 的模型完全开源,开发者和研究人员能清楚地了解它的内部结构和算法原理,还能进行二次开发和优化,这对于科研和创新应用的推动具有重要意义,吸引了大量开发者和研究人员45。

安全与灵活方面

  • 数据安全:DeepSeek-V3 的所有文件都采用了 safetensors 格式,以更快的加载速度和更高的安全性而著称,特别适合在多设备之间分发和加载大型模型。
  • 应用灵活:DeepSeek-V3 提供了一个定制化的配置文件,让用户可以根据自己的需求调整模型的参数和运行模式,满足更多应用场景的需求。


http://www.kler.cn/a/460474.html

相关文章:

  • Linux驱动开发学习准备(Linux内核源码添加到工程-Workspace)
  • 【SpringBoot】多数据源事务卡死@DSTransactional,当某一个数据库挂掉了,系统卡死问题解决
  • LabVIEW 使用 Resample Waveforms VI 实现降采样
  • Three.js教程010:几何体划分顶点组设置不同材质
  • JS-判断字段值是否为空
  • LeetCode算法题——有序数组的平方
  • phpIPAM容器化部署场景下从1.5.x更新到1.7.0提示禁用安装脚本配置的处理
  • Cesium 实战 27 - 三维视频融合(视频投影)
  • springMVC报错java版本
  • Python编程技术
  • python导出可执行文件
  • LangChain4j与Elasticsearch:构建高效的语义嵌入存储
  • 迁移SVN工程到GITLAB
  • 【Vim Masterclass 笔记03】S03L10 + S03L11:Vim 中的文本删除操作以及 Vim 思维习惯的培养(含 DIY 拓展知识点)
  • CSS系列(46)-- Color Functions详解
  • 珞珈一号夜光遥感数据地理配准,栅格数据地理配准
  • 每日一题 367. 有效的完全平方数
  • 记忆旅游系统|Java|SSM|VUE| 前后端分离
  • vscode改颜色
  • sqlite3 python如何查表结构
  • Android通知监听权限NotificationListener
  • Cesium中实现三维立体的行政区划贴图效果
  • 多个线程处理不同的数据,等线程都完成后再进行下一步操作
  • 百度热力图数据获取,原理,处理及论文应用
  • 【记录】vue 添加全局 dialog 弹框
  • .net core 的正则表达式