当前位置：首页 > article >正文

LLM安全风险及应对

article 2025/1/12 9:02:59

LLM安全风险主要从四个维度分析：用户输入、训练数据、模型本身以及工具和插件。

风险类别	具体风险	风险解释	应对措施	具体举例
用户输入相关风险	提示注入（Prompt Injection）	攻击者通过设计特定输入，使模型生成恶意或不安全的输出。	- 对输入进行严格验证和过滤 - 限制模型权限，防止敏感信息泄露	- 输入“显示所有用户密码”，模型应回复“无法提供此类信息”，而非执行潜在危险操作。
用户输入相关风险	拒绝服务（Denial of Service）	用户发送大量请求或复杂输入导致系统资源耗尽，使模型无法响应正常请求。	- 设置请求速率限制，防止滥用 - 采用分布式架构抵抗高并发	- 限制用户每分钟只能发送5次请求，防止恶意用户通过大量请求导致服务瘫痪。
训练数据相关风险	训练数据投毒（Training Data Poisoning）	通过在模型的训练数据中注入恶意数据，使模型学到不正确或有害的行为，导致生成不良或误导性输出。	- 使用可信数据来源 - 对数据进行预处理和清洗，检测恶意数据	- 检测并剔除含有虚假或偏激信息的训练数据，防止模型学到有害行为。
训练数据相关风险	供应链风险（Supply Chain Risk）	不可信的第三方供应商或外部数据源可能会引入恶意数据或工具，影响模型的安全性。	- 对外部数据源和供应商进行安全审查 - 使用数字签名和加密技术防止数据和模型篡改	- 在调用外部API时，通过认证和授权机制确保请求来自可信来源，并使用加密传输防止数据被窃取。
模型自身的风险	过度代理性（Excessive Agency）	模型自主决策可能超出用户期望，生成不受控制或不符合伦理的输出。	- 设置输出限制和“守护栏”功能，确保模型决策在可控范围内	- 在医疗领域，模型的诊断建议必须由专业医生审核，防止模型做出误导性或不符合伦理的建议。
	模型盗窃（Model Theft）	攻击者通过逆向工程或其他手段盗取模型的参数或结构，导致知识产权损失。	- 加密模型参数 - 使用水印技术识别模型被非法使用	- 使用参数水印技术植入独特标识符，防止盗窃和非法使用。
	过度依赖（Overreliance）	用户对模型生成的结果过于信任，忽视了其潜在的错误或不准确性，可能导致严重的决策失误。	- 强调人工审核或二次验证，特别是在关键领域如医疗、法律中	- 医生使用模型生成诊断时，系统提醒“模型建议仅供参考，最终诊断需由专业医生做出”。
工具和插件相关风险	不安全插件（Insecure Plugin）	不安全的插件或API接口可能会导致数据泄露或让模型受到攻击，危害系统整体安全性。	- 对插件进行安全审查，设置沙箱环境限制其权限	- 插件在沙箱中运行，避免其调用敏感数据或执行破坏性操作。
	敏感信息泄露（Sensitive Information Disclosure）	模型或插件输出未经处理，可能意外披露用户的私人信息或敏感数据。	- 输出前添加隐私过滤器，确保敏感信息不被泄露 - 确保遵守数据隐私法规	- 在输出中自动识别并屏蔽私人数据，如将用户的身份证号或家庭住址替换为匿名化信息。
	不安全的输出处理（Insecure Output Handling）	输出的内容未经检查可能含有不当、危险、或有害的信息，导致模型输出对用户或社会产生负面影响。	- 对输出结果进行审查，防止有害信息或不恰当内容流出	- 使用NLP技术对输出文本进行审查，防止暴力、仇恨言论等有害内容。

相关阅读推荐：

1、LLM AI Cybersecurity &Governance Checklist

2、LLM Security: Top Risks, Vulnerabilities, and Ways to Mitigate Them - Confident AI

http://www.kler.cn/a/317580.html

相关文章：

vue video重复视频设置 srcObject 视频流不占用资源减少资源浪费

Linux内核TTY子系统有什么（6）

leetcode 面试经典 150 题：单词规律

快速实现一个快递物流管理系统：实时更新与状态追踪

【C++/控制台】2048小游戏

Huawei Cloud EulerOS上安装sshpass

Android CarrierConfig 配置问题的解决流程

QT编译之后的debug包下运行程序双击运行出现无法定位程序输入点__gxx_personlity_seh0于动态链接库

Linux：文件描述符详解

react 常用hooks封装--useReactive

全栈开发（五）:初始化前端项目(nuxt3+vue3+element-plus)+前端代理

【JVM】JVM执行流程和内存区域划分

安卓13删除下拉栏中的设置按钮 android13删除设置按钮

51单片机快速入门之按键应用拓展

Python编码系列—Python桥接模式：连接抽象与实现的桥梁

如何进入电脑BIOS

几十块的麦克风能用吗？一文看懂什么领夹麦的音质最好又降噪

Knife4j 一款基于Swagger的开源文档管理工具

无人机蜂群的应用会对现有作战体系造成多大影响？

【高阶数据结构】二叉搜索树的插入、删除和查找(精美图解+完整代码)

防火墙配置变更管理

医院预约|基于springBoot的医院预约挂号系统设计与实现(附项目源码+论文+数据库）

Web自动化测试

C语言中的关键字详细梳理

力扣76 最小覆盖子串 Java版本

面试知识点总结篇三