【大模型】DeepSeek 的人工智能发展之路
【大模型】DeepSeek 的人工智能发展之路
- 初出茅庐:成立与奠基(2023 年)
- 崭露头角:大模型的初步发布(2024 年)
- 首个大模型 DeepSeek LLM 发布(2024 年 1 月 5 日)
- 开源第二代 MoE 大模型 DeepSeek-V2(2024 年 5 月)
- DeepSeek-V3 首个版本上线并开源(2024 年 12 月 26 日)
- 大放异彩:2025 年的爆发式增长
- DeepSeek-R1 模型发布(2025 年 1 月 20 日)
- 在 Arena 排名上升(2025 年 1 月 24 日)
- 应用登顶下载排行榜(2025 年 1 月 27 日 - 2 月 2 日)
- 日活跃用户数突破 3000 万(2025 年 2 月 1 日)
- 持续奋进:未来展望
初出茅庐:成立与奠基(2023 年)
2023 年,在人工智能浪潮席卷全球之际,各大科技公司纷纷布局。幻方量化凭借在量化投资领域积累的技术与数据优势,敏锐捕捉到这一发展趋势。2023 年 4 月,幻方量化发布公告,宣布全力投身人工智能技术领域,并成立新的独立研究公司 —— 深度求索(DeepSeek),为 DeepSeek 的诞生埋下了种子。
2023 年 7 月 17 日,DeepSeek 在杭州市拱墅区市场监督管理局登记正式成立。公司由知名量化资管巨头幻方量化创立,法定代表人系裴湉,位于浙江省杭州市拱墅区环城北路 169 号汇金国际大厦西 1 幢 1201 室。尽管刚刚成立,DeepSeek 却有着明确的目标,专注于开发先进的大语言模型(LLM)和相关技术,致力于在人工智能领域崭露头角,开启属于自己的征程。
崭露头角:大模型的初步发布(2024 年)
首个大模型 DeepSeek LLM 发布(2024 年 1 月 5 日)
2024 年 1 月 5 日,DeepSeek 发布了首个包含 670 亿参数的大模型 DeepSeek LLM。该模型从零开始,在一个包含 2 万亿 token 的数据集上进行训练,数据集涵盖中英文。通过在如此大规模且多样化的数据集上训练,DeepSeek LLM 具备了强大的语言理解和生成能力,能够处理各种复杂的自然语言任务,为 DeepSeek 后续模型的优化与改进提供了经验和数据基础,也让 DeepSeek 在大模型领域迈出了坚实的第一步,吸引了业界的目光,为公司树立了初步的技术形象。
开源第二代 MoE 大模型 DeepSeek-V2(2024 年 5 月)
2024 年 5 月,DeepSeek 宣布开源第二代 MoE 大模型 DeepSeek-V2。在性能方面,它表现卓越,可与 GPT-4Turbo 比肩,然而其价格却只有 GPT-4 的仅百分之一,这一巨大的性价比优势,使得 DeepSeek 收获了 “AI 届拼多多” 的名号。该模型采用了创新的模型架构和训练方法,如全新的 MLA(Multi-head Latent Attention)注意力机制和 DeepSeekMoE 前馈网络,大幅降低了计算量和显存占用,确保了高效推理。同时,它支持 128K 的超长上下文,且在 GPU 上的推理吞吐量高达每秒 10 万 tokens 输入、5 万 tokens 输出。在各类基准测试中,DeepSeek-V2 均取得出色成绩,在中文综合能力评测 AlignBench 中超越了所有开源模型,与 GPT-4-Turbo 等行业巨头处于同等水平;在英文综合评测 MT-Bench 中,与最强的 LLaMA3-70B 同处第一梯队,超越了 Mixtral 8x22B 等其他 MoE 模型 。它的出现,不仅提升了 DeepSeek 在技术领域的声誉,还极大地扩大了其市场影响力,让更多开发者和企业能够以较低成本使用高性能的大模型,推动了相关应用的开发与普及。
DeepSeek-V3 首个版本上线并开源(2024 年 12 月 26 日)
2024 年 12 月 26 日,DeepSeek 宣布模型 DeepSeek-V3 首个版本上线并同步开源。DeepSeek-V3 参数量达到 671B,在文本理解、编码、数学和学科知识方面,优于 Meta 的 Llama 3.1-405B 和阿里巴巴的 Qwen 2.5-72B 等开源模型,并在性能上和世界顶尖的闭源模型 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet 不分伯仲,尤其在中文处理、编码和数学计算等方面优势显著,在教育和科研领域具有巨大潜力。其训练成本仅 558 万美元,仅使用了 2048 块 GPU,并在两个月内完成训练,训练耗时仅 280 万 GPU / 小时,与 Meta 的 Llama-3.1 训练所需的 3080 万 GPU / 小时相比,成本大幅降低。这一模型的上线,进一步丰富了 DeepSeek 的技术产品线,为用户提供了更多选择。而开源的举措更是对技术社区和行业发展起到了极大的推动作用,它促进了全球开发者之间的交流与合作,让更多人能够基于该模型进行二次开发和创新,加速了人工智能技术的发展与应用。
大放异彩:2025 年的爆发式增长
DeepSeek-R1 模型发布(2025 年 1 月 20 日)
2025 年 1 月 20 日,DeepSeek 正式发布的 DeepSeek-R1 模型,在人工智能领域掀起了一阵波澜。在数学任务方面,面对复杂的数学问题,如美国数学邀请赛(AIME 2024)中的题目,DeepSeek-R1 能够展现出强大的解题能力,其在 AIME 2024 上的表现与 OpenAI o1 正式版相当,在一些指标上甚至超越了对手。在代码编写任务中,它可以快速理解需求,生成高质量、可读性强的代码,无论是常见的编程问题,还是复杂的算法实现,都能应对自如,在 Codeforces 等编程竞赛任务上,取得了与 OpenAI-o1-1217 相媲美甚至超越的成绩。在自然语言推理任务里,DeepSeek-R1 能够准确理解文本的语义和逻辑关系,进行合理的推理和判断,在开放式问答任务 AlpacaEval 2.0 和 Arena-Hard 基准测试中,分别取得了 87.6% 的 LC-winrate 和 92.3% 的 GPT-4-1106 评分,展现出强大的能力。
而在训练成本上,DeepSeek-R1 仅为 560 万美元,与美国科技巨头开发类似性能模型动辄数亿美元乃至数十亿美元的投入相比,具有巨大的成本优势。这一成本优势使得 DeepSeek-R1 在市场竞争中占据了有利地位,它让更多企业和开发者能够以较低的成本使用高性能的模型,推动了人工智能技术的普及和应用。同时,也促使其他公司重新审视模型开发的成本和效率问题,对整个行业的发展产生了深远影响。
在 Arena 排名上升(2025 年 1 月 24 日)
1 月 24 日,在国外大模型排名 Arena 上,DeepSeek-R1 取得了令人瞩目的成绩,基准测试升至全类别大模型第三。在风格控制类模型(StyleCtrl)分类中,DeepSeek-R1 与 OpenAI o1 并列第一,其竞技场得分达到 1357 分,略超 OpenAI o1 的 1352 分。在全类别大模型排名中能够上升至第三,表明 DeepSeek-R1 在综合性能上得到了广泛认可,它在语言理解、生成、推理等多个方面都具备强大的实力,能够与众多优秀的大模型竞争。而在风格控制类模型中与 OpenAI o1 并列第一,更是突出了 DeepSeek-R1 在风格控制方面的卓越能力。它能够根据用户的需求,精准地控制生成文本的风格,无论是正式、幽默、学术还是其他风格,都能生成符合要求的内容,这对于内容创作、广告文案撰写、文学翻译等领域具有重要意义。
这一排名成绩对 DeepSeek 公司的技术实力认可有着重要意义。它提升了 DeepSeek 在全球人工智能领域的知名度和声誉,吸引了更多企业、开发者和研究机构的关注,为公司带来了更多的合作机会和资源。也激励着 DeepSeek 团队继续创新和优化技术,保持在行业中的领先地位,推动人工智能技术的不断发展。
应用登顶下载排行榜(2025 年 1 月 27 日 - 2 月 2 日)
1 月 27 日,DeepSeek 应用登顶 15 个国家和地区的苹果应用商店免费 APP 下载排行榜,在美区苹果 App Store 免费榜超越 ChatGPT 及 Meta 公司旗下的社交媒体平台 Threads,以及 Google Gemini、Microsoft Copilot 等美国科技公司的生成式 AI 产品。截至 2 月 2 日,DeepSeek 攀升至 140 个国家的苹果 App Store 下载排行榜首位,并在美国的 Android Play Store 中同样占据榜首位置。这一现象背后有着多方面的市场因素和技术优势。从市场因素来看,随着人工智能技术的普及,用户对高质量的 AI 应用需求日益增长,DeepSeek 正好满足了这一市场需求。其在技术上的优势,如强大的模型性能、丰富的功能和良好的用户体验,吸引了大量用户。DeepSeek 应用具有简洁易用的界面,即使是对技术不太熟悉的用户也能轻松上手。它还支持多种语言,满足了全球不同地区用户的需求。在功能方面,除了基本的语言交互功能外,还提供了代码生成、数学解题、文本创作等多种实用功能,能够帮助用户解决各种实际问题。
此外,DeepSeek 的市场推广策略也起到了一定作用。通过提供免费试用、灵活的定价方案等方式,降低了用户的使用门槛,吸引了更多用户尝试使用。在社交媒体和科技媒体上的广泛宣传,也提高了产品的知名度和曝光度,进一步推动了下载量的增长。
日活跃用户数突破 3000 万(2025 年 2 月 1 日)
2 月 1 日,DeepSeek 日活跃用户数突破 3000 万大关,成为史上最快达成这一里程碑的应用。这一成绩意义重大,高日活表明 DeepSeek 在用户中具有极高的吸引力和粘性。大量的活跃用户为 DeepSeek 提供了丰富的反馈数据,这些数据可以用于进一步优化模型和应用,提升产品质量,形成良性循环。从公司发展角度来看,高日活为 DeepSeek 带来了巨大的商业价值潜力。它可以吸引更多的广告商和合作伙伴,通过广告投放、合作推广等方式实现商业变现。也有助于公司在人工智能市场中占据更有利的竞争地位,提升公司的市场份额和品牌价值。
从行业格局角度,DeepSeek 的高日活对整个 AI 行业产生了深远影响。它打破了原有的市场格局,给其他 AI 企业带来了巨大的竞争压力,促使它们加快技术创新和产品优化的步伐。也为行业树立了新的标杆,激励着更多的企业和开发者投身于人工智能领域的研究和开发,推动整个行业的快速发展。
持续奋进:未来展望
展望未来,DeepSeek 在人工智能领域有望继续开拓创新,引领行业发展。在技术创新方面,DeepSeek 将持续投入研发,进一步优化模型架构和算法,提升模型的性能和效率。未来的模型可能在自然语言处理、图像识别、语音交互等多领域实现更深度的融合,实现真正的多模态智能交互。例如,开发出能够同时理解文本、图像和语音信息的智能助手,为用户提供更加全面和个性化的服务。也可能在强化学习、元学习等前沿领域取得突破,推动人工智能技术向更高层次发展。
在市场拓展方面,DeepSeek 将继续扩大其全球影响力。一方面,进一步深耕现有市场,加强与各国企业和机构的合作,推动人工智能技术在更多行业的落地应用。在金融领域,帮助银行和金融机构开发更精准的风险评估和投资决策系统;在医疗领域,协助医疗机构实现疾病的早期诊断和个性化治疗方案制定。另一方面,积极开拓新兴市场,关注发展中国家的人工智能需求,将先进的技术和应用推广到更广泛的地区,促进全球人工智能产业的均衡发展。
DeepSeek 还可能加强生态建设,构建更加繁荣的人工智能生态系统。通过提供丰富的开发工具、API 接口和技术支持,吸引更多的开发者和企业参与到其生态中来,共同推动人工智能技术的创新和应用。举办各类开发者大赛和技术研讨会,促进技术交流与合作,激发创新活力。
面对未来的挑战,如数据隐私保护、算法伦理等问题,DeepSeek 也将积极应对,建立健全相关的机制和规范,确保技术的健康发展和可持续应用。相信在未来,DeepSeek 将继续在人工智能领域发光发热,为推动全球科技进步和社会发展做出更大的贡献。