2025-01-28 - 通用人工智能技术 - RAG - 本地安装 DeepSeek-R1对话系统 - 流雨声
摘要
2025年1月28号 周二(除夕) 杭州 惠风和畅
小记: 昨天在图书馆整理访谈案例,除了吃饭基本没有停下来直到晚上9点才勉强搞完。每份访谈在3-5万字,总结梳理后每个访谈的字数也在 5000 字左右,接下来如何组织又是一个让人头痛的事情。今早找点乐子干下。大早上的几乎所有的热搜都是 DeepSeek R1,真的有那么神吗?今天玩一下,去年把并行计算和事情暂时告一段落了,今年就要开始基于GPU算力干些事情了,比如玩。
心得: 部署流程走了一遍以后,确实速度很快,逻辑性校验的工作我没有展开,但是单凭速度就让我小激动了,不过我倒是不想人云亦云,幻方的确的优点高瞻远瞩,提前攒了那么多 GPU ,让人羡慕。不过个人觉得在大模型训练成本方面,OpenAI 和英伟达应该对公众撒了谎的,从一定角度来看,OpenAI 不计代价的进行大模型训练,并且故意吹嘘大模型训练成本的难度和成本,可以从一定程度让试图进入这个领域的从业者止步,英伟达也乐于看到训练大模型使用的大规模算力。所以一定程度上OpenAI和英伟达都会故意夸大大模型二次训练的难度和成本。就像美国登月和原子弹研制公布的数据等方面,美国人在忽悠整个世界方面一直在线的。可能美国怎么也想不到,中国人在降本增效方面极为擅长。另外一方面大模型的训练成本两个国家通胀和消费水平存在差异,因此DeepSeek在大模型训练通过深度学习算法的确降低了大模型训练成本,但是实际上算力的差距可能不会想报道的那样那么大。
人工智能发展的未来趋势肯定是不会强依赖GPU算力的,不然人工智能在诸多行业的落地和应用的确会变得困难,所以低成本的训练将是人工智能普遍应用生产的关键。
课程内容
1. DeepSeek 简介
DeepSeek 还开源了 6 个小模型,其中 32B 和 70B 模型性能对标 OpenAI o1-mini。
此次发布的 DeepSeek-r1模型,在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。可以在笔记本电脑上运行,而且运行速度飞快。
2. 安装部署
Ollama: https://ollama.com/
AnythingLLM: https://anythingllm.com/
说明: Ollama 可以帮助我们快速的下载 Ollama 的训练文件,类似容器镜像的方式进行统一的管理;AnythingLLM 为大模型提供了一个统一的访问前端,通过配置的方式实现 WEB 页面的对话系统。
- 2.1 模型下载
# 根据模型大小运行适合的模型
ollama run deepseek-r1:7b
3. 对话配置
AnythingLLM: https://anythingllm.com/
说明: AnythingLLM 为大模型提供了一个统一的访问前端,通过配置的方式实现 WEB 页面的对话系统。
备注: LLM 提供者的意思是通过那种大模型管理工具启动的大模型,本地大模型启动后会自动加载的。
4. 对话评估
- AnyLLM 对话评估
AnyLLM 对 DeepSeek 或者 Ollam 兼容性存在一些问题
- ollama-webui 对话评估
总结
AnyLLM 目前在 Windows 对 Ollama 的兼容性不是太好,但是足够用了。所以在 Windows 系统测试大模型的时候前端使用 ollama-webui 效果可能会更好一些。
目前,AGI的技术探索主要集中在以下几个方面:
基于深度学习的模型优化
强化学习在复杂任务中的应用
神经符号系统的结合
多模态数据处理技术
自监督学习与计算增强
尽管这些技术正在推动AGI的发展,但目前仍有许多未解决的问题和挑战。未来的研究需要在算法、硬件、理论等多个方面取得突破才能实现真正的通用人工智能。