人工智能 - 1
深度强化学习(Deep Reinforcement Learning)
图神经网络(Graph Neural Networks, GNNs)
Transformer 一种深度学习模型
大语言模型(Large Language Models, LLMs)
人工智能
• Marvin Minsky 将其定义为让机器完成通常需要人类智能才能完成的任务的科学
机器学习(Machine Learning, ML)
• AI 的一个子集,利用数据训练模型,使系统无需显式编程即可完成任务。
常见方法:
• 监督学习:数据有明确的输入和输出。
• 无监督学习:数据没有明确标签,模型寻找数据的隐藏模式。
• 强化学习:通过奖励和惩罚学习动作。
深度学习(Deep Learning, DL)
• 机器学习的一个子集,利用多层神经网络处理复杂任务。
• 特点:需要大量数据和算力,能够自动提取特征。
机器学习的分类
1. 监督学习(Supervised Learning):
• 输入和输出数据均已知,模型根据输入数据预测输出标签。
• 例子:图像分类、回归分析。
2. 无监督学习(Unsupervised Learning):
• 输入数据已知,但没有明确的输出标签,模型需要从数据中发现模式。
• 例子:聚类、降维。
3. 强化学习(Reinforcement Learning):
• 系统与环境交互,通过获得奖励最大化长期收益。
• 例子:游戏 AI、机器人路径规划。
半监督学习 (Semi-Supervised Learning)
• 数据集中包含标注数据和未标注数据的混合。
• 标注数据用于指导学习,未标注数据提供额外信息(如数据分布)。
• 特点:
• 减少标注需求,结合监督和无监督学习的优点。
自监督学习 (Self-Supervised Learning)
自监督是一种无监督学习的形式,数据为自身提供监督信号。
• 从数据本身生成伪标签进行学习,无需人工标注。
• 示例:让模型预测图片的旋转角度。
特点:
• 用数据内在的关系生成学习目标。
• 用于大规模无标签数据学习特征。
自监督学习案例 - 图像旋转
任务描述:
• 输入:一组随机旋转的图片(如 0°、90°、180°、270°)。
• 模型任务:预测图片的旋转角度。
强化学习
定义:
• 强化学习 (Reinforcement Learning, RL) 是通过与环境交互学习的机器学习方法。
• 学习目标:选择能最大化长期奖励的动作。
关键点:
1. 学习方式:基于试错法的交互学习。
2. 目标导向:所有学习围绕奖励信号进行。
3. 映射问题:学会将环境状态映射到合适的动作。
监督学习的流程
定义:
• 监督学习通过已标注数据训练模型,将输入映射到输出。
流程:
1. 输入:特征数据(如图片)。
2. 输出:目标值(如“猫”或“狗”)。
3. 误差:模型预测与目标值的差异。
4. 优化:通过迭代训练最小化误差。
示例任务:
• 图像分类(猫/狗)。
• 房价预测。
强化学习的流程
流程:
1. 输入:环境状态。
2. 输出:动作(由智能体选择)。
3. 奖励信号:根据动作结果提供反馈(奖励/惩罚)。
4. 目标:通过试错最大化累积奖励。
特点:
• 训练信息不直接是目标值,而是奖励。
• 适用于动态、交互式任务。
目标:
• 最大化奖励,学习最优策略。
强化学习 (Reinforcement Learning, RL) 的关键特性
关键特性:
1. 未明确告知动作:
• 强化学习中的智能体(agent)需要自己探索,并未直接告知正确的行动。
• 通过环境反馈学习如何选择合适的动作。
2. 试错搜索 (Trial-and-Error Search):
• 智能体尝试不同的动作并观察结果,通过试错法改进策略。
3. 延迟奖励 (Delayed Reward):
• 智能体可能需要牺牲短期利益以获得更大的长期收益。
• 例如,棋局中的一步可能暂时失利,但对最终获胜至关重要。
4. 探索与利用的平衡 (Explore and Exploit):
• 探索:尝试新策略以发现潜在更优的解决方案。
• 利用:利用现有知识采取已知最佳动作。
5. 目标导向与不确定环境:
• 强化学习处理智能体与动态、不确定环境的交互,设计目标明确。
监督学习:
• 目标:学习条件概率 p_{\theta}(y|x) ,预测 y 给定输入 x 。
• 应用:分类(如识别图像是否包含猫)、回归(如预测房价)。无监督学习:
• 目标:学习数据分布 p_{\theta}(x) 。
• 应用:聚类、生成模型(如生成新图像)。强化学习:
• 目标:学习策略 \pi_{\theta}(a|s) ,即给定状态 s 时选择的动作 a 。
• 应用:控制系统(如机器人运动控制)。
智能体 (Agent)
• 在强化学习中,智能体是执行动作并从环境中学习的主体。
• 智能体通过感知环境状态、采取动作来影响环境。
特性:
1. 时间相关性:决策依赖于时间序列中的状态。
2. 持续学习与规划:智能体根据经验调整策略。
3. 目标:通过行动影响环境,达到预定目标。
4. 环境不确定性:环境可能具有随机性,智能体需要应对。
循环过程:
1. 智能体感知环境状态。
2. 根据策略选择动作。
3. 环境反馈新状态和奖励。
强化学习概述
任务(Task):强化学习的目标是通过与环境交互,学习如何成功地达到某个目标。
特点:
• 通过经验学习(Learn via experiences)。
• 不像监督学习那样有明确的标签,而是通过试错探索策略。
示例:
• 游戏:玩家知道自己赢了还是输了,但不知道下一步该怎么走。
• 控制:例如交通系统能测量车流延迟,但不知道如何减少拥堵。
强化学习的应用案例
1. 空间探索(Optimal Control):控制卫星运行轨迹。
2. 机器人(Robotics):机器人学习翻转煎饼等操作。
3. 迷宫与路径规划(Maze & Sokoban Puzzle):
通过强化学习训练智能体在复杂环境中找到最优路径。
4. Sokoban(仓库推箱子):经典的强化学习任务,智能体需要规划动作把箱子推到正确位置。
5. 群体智能(Multi-Agent Systems):
躲猫猫(Hide and Seek):智能体学习不同的策略,如追逐、筑墙、利用坡道等,模拟多智能体博弈。
以下是对您上传的三张图片中涉及知识点的总结和解释:
RL Problems Are Strategic
1. 内容概述:
强化学习(Reinforcement Learning, RL)能够实现战略层面的自动化。
图片展示了现代商业的三个核心功能(业务函数):
策略(Strategy)
决策(Decision)
流程(Process)
• 不同功能的重要性(价值)和技术对应:
流程自动化可以通过软件工程完成。
决策自动化可以通过机器学习完成。
战略自动化可以通过强化学习完成。
• 价值金字塔表明:策略比决策和流程更高层次,同时对业务价值贡献更大。
2. 关键点:
业务功能的分层:策略 > 决策 > 流程。
自动化技术的应用:流程用软件工程,决策用机器学习,策略用强化学习。
商业意义:频繁但耗时的操作适合软件化,而高价值的策略需要强化学习的介入。
Markov Decision Processes (MDPs)
1. 内容概述:
强化学习问题通常可以表示为马尔科夫决策过程(Markov Decision Process, MDP)。
MDP 的核心特性是“马尔科夫性”:
• 当前状态St 的未来状态St+1 仅取决于当前状态,不依赖于历史状态。
智能体基于当前状态采取行动,从环境中获得奖励并更新状态。
马尔科夫性:未来状态与过去状态条件独立,仅依赖当前状态。
交互循环:状态 - 动作 - 奖励之间的循环构成 MDP 的动态决策过程。
Defining MDPs
1. 内容概述:
MDP 的正式定义包括以下组件:
状态集(States, S):环境可能的状态集合。
初始状态(Start state, )
动作集(Actions, A):智能体可采取的动作集合。
状态转移函数(Transitions, 或 ):描述从一个状态到另一个状态的概率。
奖励函数(Rewards, ):每个状态转移的奖励值。
折扣因子(Discount factor, ):用于计算未来奖励的现值。
2. 关键概念:
策略(Policy):在每个状态下的动作选择规则。
回报(Utility/Return):累计的折扣奖励值。