浙大:DeepSeek技术溯源及前沿探索
浙江大学DS系列专题《DeepSeek技术溯源及前沿探索》由朱强教授主讲,内容主要包括 语言模型、Transformer、ChatGPT、DeepSeek及新一代智能体 等核心主题。
下载方式:关注“渡江客涂鸦板”,回复ds1253免费获取下载地址
语言模型:语言模型的终极目标是计算任意词序列成为句子的概率。通过One-hot Encoding和Word Embedding技术,计算机能够理解人类语言。Word Embedding通过低维向量表示词语,使语义相近的词语在向量空间中距离相近。语言模型的技术演化从基于统计的N-gram模型发展到现代的深度学习模型。
Transformer:Transformer架构通过自注意力机制、多头注意力、前馈网络、位置编码和层归一化等技术,解决了传统模型的局限性,成为大模型的技术基座。Transformer的并行计算能力和全局上下文理解能力使其在自然语言处理任务中表现出色。
ChatGPT:ChatGPT基于GPT-3.5,通过人类反馈的强化学习(RLHF)进行训练,具备生成、创造和上下文学习的能力。GPT-3展示了语言生成、世界知识和上下文学习等能力,而GPT-3.5通过代码训练和指令微调又进一步增强了这些能力。
DeepSeek:DeepSeek通过大幅提升模型训练和推理效率,缩小了中美AI差距。DeepSeek-V3和DeepSeek-R1模型通过有监督微调和强化学习,提升了推理能力和效率,成为开源和闭源模型中的佼佼者。
新一代智能体:新一代智能体在多模态模型和推理模型方面取得了显著进展。GPT-4v和GPT-4o模型通过多模态输入输出和交互能力,提升了视觉和音频理解能力。OpenAI-o1/o3和DeepSeek-V3/R1模型通过专家模型和强化学习,进一步提升了推理能力和效率。
总结:从语言模型到Transformer,再到ChatGPT和DeepSeek,人工智能技术在不断演进。新一代智能体通过多模态和推理模型的创新,展现了强大的潜力和应用前景。DeepSeek通过开源和效率提升,推动了AI技术的发展和应用。
下载方式:关注“渡江客涂鸦板”,回复ds1253免费获取下载地址
内容节选
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/614131.html 如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!