当前位置: 首页 > article >正文

深度学习 Deep Learning 第3章 概率论与信息论

第三章 概率与信息论


概述

本章介绍了概率论和信息论的基本概念及其在人工智能和机器学习中的应用。概率论为处理不确定性提供了数学框架,使我们能够量化不确定性和推导新的不确定陈述。信息论则进一步帮助我们量化概率分布中的不确定性。在人工智能中,概率论被广泛应用于设计推理算法和分析AI系统的行为。信息论则在数据压缩、通信和特征选择等领域发挥重要作用。本章还探讨了概率论的两种解释——频率主义概率和贝叶斯概率,并讨论了它们在机器学习中的应用。此外,本章还介绍了概率图模型,包括有向图模型(贝叶斯网络)和无向图模型(马尔可夫随机场),这些模型用于表示变量之间的概率关系。
在这里插入图片描述


3.1 为何需要概率论?

不确定性的本质
  • 计算机科学的确定性传统
    传统软件工程基于确定性假设(如CPU指令执行),而机器学习必须处理不确定性。
  • 不确定性的三大来源
    1. 内在随机性(如量子力学现象);
    2. 不完全可观测性(如蒙提霍尔问题,信息缺失导致的不确定性);
    3. 不完全建模(简化模型时忽略的细节导致预测偏差)。
工程实践的哲学启示
  • 简单规则 vs 复杂规则
    • 案例对比
      • 简单规则:“大多数鸟会飞” —— 低成本、广泛适用但含不确定性(如Google垃圾邮件分类模型)。
      • 复杂规则:穷举所有飞行例外 —— 高维护成本且易失效(如硬编码业务规则引擎)。

3.2 概率论的两大流派

频率派概率(Frequentist Probability)
  • 定义:基于重复事件的频率(如抛硬币正面向上的长期比例)。
  • 适用场景:可重复实验(A/B测试结果分析、硬件故障率预测)。
贝叶斯概率(Bayesian Probability)
  • 定义:表示主观置信度(如患者患病的概率为40%)。

  • 核心公式
    在这里插入图片描述

  • 适用场景:不可重复事件(医学诊断、金融风险评估)。

统一性与工程实践
  • 数学一致性:两种概率均遵循相同公理(加法、乘法规则)。
  • Google应用
    • 频率派:大规模日志分析的异常检测(如服务器错误率统计);
    • 贝叶斯:搜索排序的动态调优(基于用户行为更新结果置信度)。

3.3 信息论的核心工具

信息熵(Entropy)
  • 定义:量化分布的不确定性,公式:

  • 应用场景

    • 数据压缩:熵越低,压缩效率越高(如Google的Zlib优化);
    • 特征选择:优先选择高熵特征(携带更多信息)。
交叉熵与KL散度
  • 交叉熵(Cross-Entropy)
    • 公式:

    • 用途:分类模型损失函数(如TensorFlow的CategoricalCrossentropy)。

  • KL散度(Kullback-Leibler Divergence)
    • 公式:
      在这里插入图片描述

    • 用途:模型分布对齐(如多语言翻译模型的一致性优化)。


3.4 工程实践中的应用

测试策略的优化
  • 左移测试(Shift-Left Testing)
    • 单元测试覆盖高风险路径(基于概率模型选择关键代码区域);
    • 避免脆弱测试:通过公共API而非内部状态验证(减少因实现细节变更导致的测试失败)。
分布式系统的可靠性
  • 容错设计
    • 概率化故障模型:预测部分节点宕机对系统的影响(如Google Borg调度器的冗余策略);
    • 信息论指导日志采样:高熵日志片段优先存储(如Cloud Logging的动态采样算法)。
机器学习系统的可解释性
  • 不确定性量化
    • 输出置信区间:搜索结果的排序分数附带概率解释(如“90%置信度匹配用户意图”);
    • 模型校准:使用交叉熵评估预测概率的准确性(防止过度自信/保守)。

3.5 经典案例解析

医学诊断系统 vs 扑克AI
  • 医学诊断
    • 贝叶斯更新:根据症状动态计算患病概率(如流感诊断结合季节因素);
    • 对比规则引擎:硬编码逻辑难以适应新病原体,概率模型可通过数据自动更新。
  • 扑克AI
    • 频率派分析:模拟大量牌局计算胜率(如AlphaGo的蒙特卡洛树搜索);
    • 信息论优化:通过熵最小化决策(减少对手信息增益)。
Google搜索的排序模型
  • 熵驱动排序
    • 高不确定性查询(如歧义词“Java”)优先展示多样化结果;
    • 交叉熵损失函数:训练模型最小化预测分布与点击数据的差异。

总结

本章深入探讨了概率论和信息论在人工智能和机器学习中的核心作用。通过介绍概率论的基本概念、公理和应用,我们了解到如何量化和处理不确定性,这是机器学习算法设计和分析的基础。信息论的引入进一步帮助我们理解和量化数据中的不确定性,对于优化模型和算法具有重要意义。此外,本章还详细讨论了概率图模型,展示了如何通过图结构表示变量之间的概率关系,为复杂系统建模提供了强大的工具。这些内容共同构成了深度学习和机器学习中处理不确定性和复杂数据的理论基础。

精彩语句

1.机器学习必须始终处理不确定性和随机性。
英文原文:Machine learning must always deal with uncertain quantities and sometimes stochastic (nondeterministic) quantities.
解释:机器学习的核心任务之一是处理不确定性和随机性,这是其与传统计算机科学的主要区别。
2.概率论最初是为了分析事件的频率而发展起来的,但它也可以用于表示信念的程度。
英文原文:Probability theory was originally developed to analyze the frequencies of events. It is easy to see how probability theory can be used to study events like drawing a certain hand of cards in a poker game. These kinds of events are often repeatable.
解释:概率论不仅适用于可重复事件的频率分析,还可以用于表示对不可重复事件的信念程度。
3.在许多情况下,使用简单但不确定的规则比使用复杂但确定的规则更为实用。
英文原文:In many cases, it is more practical to use a simple but uncertain rule rather than a complex but certain one.
解释:在实际应用中,简单但不确定的规则往往更具成本效益,尤其是在面对复杂的现实问题时。
4.贝叶斯概率与频率主义概率在数学上是等价的,但它们的解释和应用场景不同。
英文原文:If we list several properties that we expect common sense reasoning about uncertainty to have, then the only way to satisfy those properties is to treat Bayesian probabilities as behaving exactly the same as frequentist probabilities.
解释:贝叶斯概率和频率主义概率在数学上遵循相同的规则,但它们的哲学解释不同,适用于不同的问题。
5.概率论是许多科学和工程学科的基本工具。
英文原文:Probability theory is a fundamental tool of many disciplines of science and engineering.
解释:概率论不仅是机器学习的基础,也是许多其他领域(如统计学、物理学和工程学)的核心工具。



http://www.kler.cn/a/588385.html

相关文章:

  • 【C++初阶】模板初阶
  • C++内存管理(复习)
  • 游戏成瘾与学习动力激发策略研究——了解“情感解离”“创伤理论”
  • OpenHarmony项目的应用在DevEco Studio配置项目中固定的一键签名
  • android ConstraintLayout布局 实战:打造复杂界面的最佳实践
  • 网络规划设计师软考个人学习资料分享
  • stl之string的详解
  • thefuck是如何帮助你提高命令行效率
  • C#开发笔记:INI文件操作
  • 分别用树型和UML结构展示java集合框架常见接口和类
  • 从Instagram到画廊:社交平台如何改变艺术家的展示方式
  • 掌握Windows命令提示符中的万能符:*号的全方位使用指南
  • Java基础编程练习第32题-定义接口(Biology、Animal)、类(Person)、子类(Pupil)(PTA选题)
  • 使用c#进行串口通信
  • 商品详情页
  • 第7章 站在对象模型的尖端3: RTTI
  • 考研系列-408真题计算机网络篇(10-17)
  • Centos 7 升级 GCC
  • 找第一个只出现一次的字符(信息学奥塞一本通-1130)
  • 基于大模型的智能客服搭建