当前位置：首页 > article >正文

2025-01-28 - 通用人工智能技术 - RAG - 本地安装 DeepSeek-R1对话系统 - 流雨声

article 2025/1/31 1:23:49

摘要

2025年1月28号周二（除夕）杭州惠风和畅

小记: 昨天在图书馆整理访谈案例，除了吃饭基本没有停下来直到晚上9点才勉强搞完。每份访谈在3-5万字，总结梳理后每个访谈的字数也在 5000 字左右，接下来如何组织又是一个让人头痛的事情。今早找点乐子干下。大早上的几乎所有的热搜都是 DeepSeek R1，真的有那么神吗？今天玩一下，去年把并行计算和事情暂时告一段落了，今年就要开始基于GPU算力干些事情了，比如玩。

心得: 部署流程走了一遍以后，确实速度很快，逻辑性校验的工作我没有展开，但是单凭速度就让我小激动了，不过我倒是不想人云亦云，幻方的确的优点高瞻远瞩，提前攒了那么多 GPU ，让人羡慕。不过个人觉得在大模型训练成本方面，OpenAI 和英伟达应该对公众撒了谎的，从一定角度来看，OpenAI 不计代价的进行大模型训练，并且故意吹嘘大模型训练成本的难度和成本，可以从一定程度让试图进入这个领域的从业者止步，英伟达也乐于看到训练大模型使用的大规模算力。所以一定程度上OpenAI和英伟达都会故意夸大大模型二次训练的难度和成本。就像美国登月和原子弹研制公布的数据等方面，美国人在忽悠整个世界方面一直在线的。可能美国怎么也想不到，中国人在降本增效方面极为擅长。另外一方面大模型的训练成本两个国家通胀和消费水平存在差异，因此DeepSeek在大模型训练通过深度学习算法的确降低了大模型训练成本，但是实际上算力的差距可能不会想报道的那样那么大。

人工智能发展的未来趋势肯定是不会强依赖GPU算力的，不然人工智能在诸多行业的落地和应用的确会变得困难，所以低成本的训练将是人工智能普遍应用生产的关键。

课程内容

1. DeepSeek 简介

DeepSeek 还开源了 6 个小模型，其中 32B 和 70B 模型性能对标 OpenAI o1-mini。
此次发布的 DeepSeek-r1模型，在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。可以在笔记本电脑上运行，而且运行速度飞快。

2. 安装部署

Ollama: https://ollama.com/
AnythingLLM: https://anythingllm.com/

说明: Ollama 可以帮助我们快速的下载 Ollama 的训练文件，类似容器镜像的方式进行统一的管理；AnythingLLM 为大模型提供了一个统一的访问前端，通过配置的方式实现 WEB 页面的对话系统。

2.1 模型下载

# 根据模型大小运行适合的模型
ollama run deepseek-r1:7b

3. 对话配置

AnythingLLM: https://anythingllm.com/

说明: AnythingLLM 为大模型提供了一个统一的访问前端，通过配置的方式实现 WEB 页面的对话系统。

备注: LLM 提供者的意思是通过那种大模型管理工具启动的大模型，本地大模型启动后会自动加载的。

4. 对话评估

AnyLLM 对话评估
AnyLLM 对 DeepSeek 或者 Ollam 兼容性存在一些问题

ollama-webui 对话评估

总结

AnyLLM 目前在 Windows 对 Ollama 的兼容性不是太好，但是足够用了。所以在 Windows 系统测试大模型的时候前端使用 ollama-webui 效果可能会更好一些。

目前，AGI的技术探索主要集中在以下几个方面：


    基于深度学习的模型优化

    强化学习在复杂任务中的应用

    神经符号系统的结合

    多模态数据处理技术

    自监督学习与计算增强


尽管这些技术正在推动AGI的发展，但目前仍有许多未解决的问题和挑战。未来的研究需要在算法、硬件、理论等多个方面取得突破才能实现真正的通用人工智能。

查看全文

http://www.kler.cn/a/524059.html