DAMODEL丹摩|丹摩智算平台:开启Llama3.1探索之旅
目录
一、引言
二、Llama3.1 简介
三、丹摩智算平台介绍
四、在丹摩智算平台部署 Llama3.1 的步骤
1. 创建实例
2. 登录实例
3. 部署 Llama3.1
五、使用 Llama3.1 的体验心得
一、引言
在人工智能飞速发展的当下,各类强大的工具和平台不断涌现,为开发者和研究者提供了丰富的资源和便利的条件。丹摩智算平台便是其中的佼佼者,它以强大的功能和便捷的操作,为 AI 开发提供了有力的支持。
本文将围绕在丹摩智算平台部署和使用 Llama3.1 展开,分享实践过程和体验心得。丹摩智算平台为 AI 开发提供了强大的支持,其优势在于高效的算力、便捷的开发环境和丰富的功能。无论是初学者还是专业开发者,都能在这个平台上找到适合自己的工具和资源。
在部署 Llama3.1 之前,我们先来了解一下丹摩智算平台的特点。
丹摩智算平台是由宁夏西云算力科技有限公司推出的 AI 云计算平台,专为人工智能开发、模型训练与推理部署设计。它整合了高性能 GPU 算力、灵活的部署工具以及强大的模型调优和数据管理能力,旨在为 AI 开发者提供一站式服务。
平台入口:丹摩DAMODEL|让AI开发更简单!算力租赁上丹摩!
平台通过自建的数据中心和大规模算力集群,支持从基础的 AI 模型训练到高端的深度学习任务。用户可以根据项目需求选择不同级别的 GPU 实例,快速启动模型训练或推理工作。其主要优势包括高性能计算资源、一键部署功能、友好的界面与工具链等。此外,平台还构建了丰富的 AI 模型库、开源数据集以及用户交流社区,帮助开发者快速上手并共享资源。
二、Llama3.1 简介
Llama3.1 是 Meta 推出的强大开源模型,在人工智能领域引起了广泛关注。
2024 年 7 月 23 日,Meta 正式发布 Llama 3.1 开源大模型系列,包括 Llama 3.1 8B、70B 和 405B 三个版本。其中,405B 版本支持上下文长度为 128K Tokens,在基于 15 万亿个 Tokens、超 1.6 万个 H100 GPU 上进行训练,是 Meta 有史以来第一个以这种规模进行训练的 Llama 模型。
本次选择部署 Llama3.1 的 8B 版本,该版本至少需要 16G GPU 显存。8B 版本在性能上虽不及 405B 版本强大,但对于一般的开发和研究需求来说,已经具备了相当的实力。它可以满足多种自然语言处理任务,如文本生成、问答系统、代码生成辅助等。
Llama3.1 的优势不仅在于其强大的性能,还在于其开源的特性。开源使得全球的开发者和研究人员都能够自由地获取和使用这个模型,进行定制和改进。这为人工智能技术的发展和创新提供了广阔的空间。
与其他模型相比,Llama3.1 在多语言处理、长文本摘要及数学推理等多种能力上表现突出。其上下文长度扩展至 128K,大大提升了模型在处理复杂对话时的性能。此外,Llama3.1 还支持多种高级应用场景,如长格式文本处理、多语种对话交互等。
总的来说,Llama3.1 是一款具有强大功能和广泛应用前景的开源模型,为人工智能领域的发展带来了新的机遇和挑战。
Llama 3.1 与其他模型对比:
三、丹摩智算平台介绍
丹摩智算平台介绍
丹摩智算平台是专为 AI 打造的智算云,致力于提供丰富的算力资源与基础设施,支持 AI 训练、推理、高性能计算、图像 / 视频渲染和定制化部署等服务。
1.提供丰富的算力资源与基础设施,支持 AI 训练、推理、高性能计算、图像 / 视频渲染和定制化部署等服务。
-
- 丹摩智算平台通过自建的数据中心和大规模算力集群,为用户提供强大的计算资源。无论是进行 AI 模型的训练、推理,还是处理高性能计算任务,亦或是进行图像和视频渲染,都能在平台上找到合适的解决方案。
-
- 在 AI 训练方面,平台提供丰富的用于 AI 训练的计算资源及训练软件,使得用户可以快速构建、训练和部署自己的人工智能模型。支持 TensorFlow、PyTorch、Caffe 等主流工具和框架,帮助用户构建和训练各种类型的人工智能模型。
-
- 在 AI 推理方面,基于高性能算力集群为用户 AI 推理服务提供强大的算力支持,为 AI 推理服务的部署和发布提供便利的工具支持。具有针对 AIGC、图像识别、语音识别、自然语言处理等多种应用场景的解决方案。
-
- 对于高性能计算,平台基于高性能的 CPU/GPU 服务器计算集群,提供强大的计算能力、高速的网络连接和大规模的存储资源,帮助用户完成大规模的计算和数据处理任务。适用于科学研究、工程仿真、药物研发及数字媒体等领域。
-
- 在图像 / 视频渲染方面,通过 CPU/GPU 集群提供针对特效制作、影视动画、建筑效果图等场景的离线算力服务;通过高性能 GPU 服务器提供的实时渲染服务可用于直播渲染、游戏娱乐、产品展示等场景。
-
- 定制化部署方面,根据用户需求提供从方案设计、部署实施,到日常运维、系统优化等全流程的服务。
2.支持多种 GPU,如 RTX - 4090、L40S、H800 等。
-
- 丹摩智算平台提供多种型号的 GPU,满足不同用户的需求。例如 NVIDIA GeForce RTX 4090,具有 24GB 显存、60GB 内存和 11 个 CPU 核心,性能出色,适合入门用户选择,尤其适合模型推理场景。同时,还有更高配置的 RTX 4090,内存可达 124GB,适合入门与专业用户选择。
-
- H800 SXM 和 H800 PCIe 则是顶级配置,显存分别为 80GB,内存分别为 252GB 和 124GB,CPU 核心数分别为 27 和 21,适合专业用户进行模型训练与推理。
-
- L40S 也是专业级配置,显存 48GB,内存 124GB,CPU 核心数 21,同样适合模型训练与推理。
-
- 此外,还有 P40 等性价比配置,显存 24GB,内存 12GB,CPU 核心数 6,适合入门用户选择,也适用于模型推理场景。
四、在丹摩智算平台部署 Llama3.1 的步骤
1. 创建实例
在丹摩智算平台部署 Llama3.1,首先需要创建实例。短期需求可选择按量付费或包日,长期需求则可选包月套餐。在 GPU 数量和型号的选择上,对于首次创建实例的用户,推荐选择按量付费、GPU 数量为 1 且型号为 NVIDIA GeForce RTX 4090。该配置拥有 60GB 内存和 24GB 显存,足以满足 Llama3.1 8B 版本至少需要 16G GPU 显存的要求。同时,配置数据硬盘大小也很重要,每个实例默认附带 50GB 的数据硬盘,首次创建可以选择默认大小,若通过官方预制方式下载模型,建议扩容至 60GB。此外,还需要选择预装 PyTorch 2.4.0 的镜像,以确保后续部署过程中无需手动安装繁杂的依赖环境。为保证安全登录,需创建密钥对,输入自定义的名称,然后选择自动创建并将创建好的私钥保存到自己电脑中并将后缀改为.pem,以便后续本地连接使用。
2. 登录实例
实例创建成功后,可以通过多种方式登录。一是通过平台内置的 JupyterLab 入口直接登录实例,进入后一般会在 /root/workspace 目录下,此目录为数据盘,支持扩容,保存镜像时此处数据不会重置。二是通过 SSH 登录,SSH 登录工具可以是系统自带终端、Xshell、MobaXterm 等。SSH 登录一般需要用户名(root)、远程主机域名或 IP(在实例页面获取)、端口号(实例页面获取)以及登录密码或密钥(这里使用创建实例时保存到本地的密钥)。
3. 部署 Llama3.1
首先使用 conda 创建新环境,执行命令conda create -n llama3 python=3.12。
环境创建好后,使用conda activate llama3切换到新创建的环境。
接着安装部署 Llama3.1 需要的依赖,包括langchain==0.1.15、streamlit==1.36.0、transformers==4.44.0和accelerate==0.32.1。
安装好后,下载 Llama-3.1-8B 模型,平台已预制 Llama-3.1-8B-Instruct 模型,执行wget http://file.s3/damodel-openfile/Llama3/Llama-3.1-8B-Instruct.tar即可内网高速下载。
下载完成后解压缩 / Llama-3.1-8B-Instruct.tar。
然后编写 llamaBot.py 脚本,准备加载模型及启动 Web 服务等工作。
在终端中运行streamlit run llamaBot.py --server.address 0.0.0.0 --server.port 1024启动 streamlit 服务,需注意服务地址务必指定位 0.0.0.0,否则无法通过浏览器访问。
最后,通过丹摩平台提供的端口映射能力,把内网端口映射到公网,进入 GPU 云实例页面,点击操作 - 更多 - 访问控制,添加 streamlit 服务对应端口,添加成功后,通过访问链接即即可打开 LLaMA3.1 Chatbot 交互界面,并与其对话。
五、使用 Llama3.1 的体验心得
1.平台易用性高,集成化操作省去手动配置麻烦,内网高速下载和预装环境镜像提高工作效率。
在丹摩智算平台上使用 Llama3.1 的过程中,深刻体会到了平台的易用性。从创建实例开始,平台提供了丰富的选项,无论是短期需求的按量付费或包日,还是长期需求的包月套餐,都能满足不同用户的需求。在选择 GPU 型号时,首次创建实例推荐的 NVIDIA GeForce RTX 4090 配置,不仅内存和显存充足,能够满足 Llama3.1 8B 版本的要求,而且预装了 PyTorch 2.4.0 的镜像,大大省去了手动安装繁杂依赖环境的麻烦。
平台的内网高速下载功能也让人印象深刻。在下载 Llama-3.1-8B-Instruct 模型时,速度非常快,节省了大量的时间。同时,预装环境镜像使得整个部署过程更加高效,无需从零开始配置环境,为开发者提供了极大的便利。
2.Llama3.1 在生成式对话方面性能强大,响应速度和文本生成质量令人满意。
在实际使用 Llama3.1 进行生成式对话时,其性能表现十分强大。无论是自然语言理解还是文本生成,都展现出了出色的能力。即使是 8B 版本,响应速度也非常快,几乎可以实时地与用户进行交互。文本生成质量也很高,语言流畅、逻辑清晰,能够准确地回答用户的问题并进行深入的讨论。
例如,在与 LLaMA3.1 Chatbot 交互界面进行对话时,无论是简单的问题还是复杂的请求,模型都能迅速给出高质量的回复。这使得用户在使用过程中能够获得良好的体验,为各种应用场景提供了有力的支持。
3.开源大模型与云端计算资源结合,降低 AI 技术门槛,便于实现项目和想法。
Llama3.1 的开源特性与丹摩智算平台的云端计算资源相结合,为开发者带来了巨大的优势。开源使得全球的开发者和研究人员都能够自由地获取和使用这个模型,进行定制和改进,为人工智能技术的发展和创新提供了广阔的空间。
而云端计算资源则为开发者提供了强大的算力支持,无需担心硬件设备的限制。通过丹摩智算平台,开发者可以以更低的门槛接触到前沿的 AI 技术,快速实现自己的项目和想法。无论是进行自然语言处理任务,还是其他 AI 相关的项目,都能在这个平台上找到合适的解决方案。