DeepSeek:AI 领域的新兴力量
亲爱的小伙伴们😘,在求知的漫漫旅途中,若你对深度学习的奥秘、Java 与 Python 的奇妙世界,亦或是读研论文的撰写攻略有所探寻🧐,那不妨给我一个小小的关注吧🥰。我会精心筹备,在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享🎁。每一个点赞👍,都如同春日里的一缕阳光,给予我满满的动力与温暖,让我们在学习成长的道路上相伴而行,共同进步✨。期待你的关注与点赞哟🤗!
成立背景
2015 年,由浙江大学的三名工程师在 2007-2008 年金融危机期间开始交易并成立了幻方量化。2019 年,幻方量化成立了幻方 AI,致力于 AI 算法及其基本应用的研究。到 2021 年,幻方的所有策略都在使用 AI。2023 年 4 月,幻方宣布将成立一个新的独立机构来研究通用人工智能,与幻方的金融业务分开。
公司成立
2023 年 5 月,DeepSeek 在杭州成立,由梁文锋创立并得到幻方量化的支持。
模型发布
- 2023 年 11 月 2 日:发布了首个模型 DeepSeek Coder,该模型免费供商业使用且完全开源。
- 2023 年 11 月 29 日:推出 DeepSeek LLM,其参数规模达到 67B,性能接近 GPT-4,但在计算效率和可扩展性方面面临挑战,同时还发布了该模型的聊天版本 DeepSeek Chat。
- 2024 年 5 月:推出 DeepSeek V2,据《金融时报》报道,其价格为每百万输出 token 2 元人民币,滑铁卢大学 Tiger Lab 的排行榜将 DeepSeek V2 在大语言模型排名中列为第七。
- 2024 年 11 月:发布 DeepSeek R1-lite-preview,该模型在逻辑推理、数学推理和实时问题解决等任务中表现出色,DeepSeek 声称其在诸如美国数学邀请赛(AIME)和数学等基准测试中超过了 OpenAI O1 的性能,但《华尔街日报》在使用 2024 年版 AIME 的 15 个问题进行测试时,发现 OpenAI O1 比 DeepSeek R1-lite-preview 更快地得出解决方案。
- 2024 年 12 月:推出 DeepSeek V3,该模型具有 6710 亿参数,仅用约 55 天、花费 557.6 万美元进行训练,训练数据集约为 14.8 万亿 token。基准测试显示,它的性能优于 Llama 3.1 和 Qwen 2.5,与 GPT-4 o 和 Claude 3.5 Sonnet 相当。
DeepSeek 与其他大语言模型相比,具有以下优势:
性能与能力方面
- 多领域表现出色:DeepSeek-V3 在多项测评中优于 Llama-3.1-405B 等开源大模型,在性能上媲美 GPT-4o 以及 Claude-3.5-Sonnet 等主流大模型。在长文本测评方面,如 drop、frames 和 longbenchv2 上,平均表现超越其他模型。在算法类代码场景,远远领先于市面上已有的全部非 o1 类模型,并在工程类代码场景逼近 Claude-3.5-Sonnet-10221911。
- 中文能力突出:DeepSeek-V2 的中文综合能力超越一众开源模型,并和 GPT-4-turbo、文心 4.0 等闭源模型同处第一梯队。DeepSeek-V3 在中文能力上,与 Qwen2.5-72b 在教育类测评 c-eval 和代词消歧等评测集上表现相近,但在事实知识 c-simpleqa 上更为领先9。
- 数学能力强:DeepSeek-V3 在 math500 测试里,正确率能达到 90.2%,超过了所有开源和闭源模型。在美国数学竞赛和全国高中数学联赛上,大幅超过了所有开源闭源模型49。
成本与效率方面
- 训练成本低:DeepSeek-V3 仅用约两个月的时间,花费约 558 万美元完成训练,而通常用于预训练大语言模型动辄上亿美元的成本,如 Llama-3.1 的预训练成本估计就超过 5 亿美元1611。
- 推理效率高:DeepSeek-V3 采用混合专家架构,配备 256 个专家,推理过程中动态选择前 8 个参与计算,提升了计算效率,其生成速度比 DeepSeek-V2.5 版本快了 3 倍,每秒能处理 60 个事务128。
技术与架构方面
- 创新架构:DeepSeek-V2 采用了创新的 MLA 架构,大幅减少计算量和推理显存,其消耗的显存只有同级别 dense 模型的 1/5~1/100,每 token 成本大幅降低。DeepSeek-V3 采用了混合专家架构和 FP8 技术等,既提升了性能又降低了计算和存储需求1911。
- 开源优势:DeepSeek 的模型完全开源,开发者和研究人员能清楚地了解它的内部结构和算法原理,还能进行二次开发和优化,这对于科研和创新应用的推动具有重要意义,吸引了大量开发者和研究人员45。
安全与灵活方面
- 数据安全:DeepSeek-V3 的所有文件都采用了 safetensors 格式,以更快的加载速度和更高的安全性而著称,特别适合在多设备之间分发和加载大型模型。
- 应用灵活:DeepSeek-V3 提供了一个定制化的配置文件,让用户可以根据自己的需求调整模型的参数和运行模式,满足更多应用场景的需求。