大模型安全风险分析
文章目录
- 前言
- 一、大模型安全风险分类
- 二、大模型自身的安全风险
- 三、大模型恶意应用的安全风险
- 四、大模型安全需求分析
- 总结
前言
与大模型技术发展的突飞猛进形成鲜明对照的是,大模型仍面临诸多潜在的安全风险,尤其是在政治、军事、金融、医疗等关键的涉密应用领域,任何形式的恶意攻击都可能给国家社会的稳定以及人民的生命财产安全带来严重的后果。学术界、工业界从大模型自身安全、恶意应用的安全威胁两方面开展研究,结果表明这些安全性威胁极大程度上破坏了大模型技术良性发展的生态 。
一、大模型安全风险分类
在相关研究方面,将大模型自身安全风险总结为 6 大类,包括隐私数据泄露风险、算法模型可解释性难度大、模型可靠性问题、滥用误用扰乱安全秩序、模型和数据安全保护难度提升以及网络意识形态安全造成冲击,提出大模型的恶意应用将构成网络威胁、物理威胁、政治威胁、军事威胁等,且上述威胁之间互有联系。例如,人工智能黑客可以针对网络和物理系统,造成设施甚至人身伤害,并且可以出于政治目的进行物理或数字攻击。
二、大模型自身的安全风险
大模型技术应用中数据训练不当、数据存在偏见或歧视性内容,将导致决策的歧视性和不公平性,进而导致特定场景的种族歧视、就业歧视、性别歧视等社会问题。公开标注数据集测试表明,ChatGPT 在价值观层面偏向西方, 生成内容中存在大量对中国的偏见言论,加之 ChatGPT 在中文知识和常识问答上很容易出现错误,而且会使用流畅的句子对编造的虚假事实进行阐述,对信息来源受限的群体来说具有一定迷惑性,极易成为部分国家针对我国制造“认知陷阱”的工具。
此外&#x