当前位置: 首页 > article >正文

人工智能 - 1

深度强化学习(Deep Reinforcement Learning)
图神经网络(Graph Neural Networks, GNNs)
Transformer    一种深度学习模型
大语言模型(Large Language Models, LLMs)


人工智能


    •    Marvin Minsky 将其定义为让机器完成通常需要人类智能才能完成的任务的科学

机器学习(Machine Learning, ML)


    •    AI 的一个子集,利用数据训练模型,使系统无需显式编程即可完成任务。

 常见方法:
    •    监督学习:数据有明确的输入和输出。
    •    无监督学习:数据没有明确标签,模型寻找数据的隐藏模式。
    •    强化学习:通过奖励和惩罚学习动作。

深度学习(Deep Learning, DL)


    •    机器学习的一个子集,利用多层神经网络处理复杂任务。
    •    特点:需要大量数据和算力,能够自动提取特征。


机器学习的分类


    1.    监督学习(Supervised Learning):
    •    输入和输出数据均已知,模型根据输入数据预测输出标签。
    •    例子:图像分类、回归分析。

    2.    无监督学习(Unsupervised Learning):
    •    输入数据已知,但没有明确的输出标签,模型需要从数据中发现模式。
    •    例子:聚类、降维。

    3.    强化学习(Reinforcement Learning):
    •    系统与环境交互,通过获得奖励最大化长期收益。
    •    例子:游戏 AI、机器人路径规划。

半监督学习 (Semi-Supervised Learning)


    •    数据集中包含标注数据和未标注数据的混合。
    •    标注数据用于指导学习,未标注数据提供额外信息(如数据分布)。
    •    特点:
    •    减少标注需求,结合监督和无监督学习的优点。

自监督学习 (Self-Supervised Learning)

  自监督是一种无监督学习的形式,数据为自身提供监督信号。
    •    从数据本身生成伪标签进行学习,无需人工标注。
    •    示例:让模型预测图片的旋转角度。

特点:
    •    用数据内在的关系生成学习目标。
    •    用于大规模无标签数据学习特征。

自监督学习案例 - 图像旋转

任务描述:
    •    输入:一组随机旋转的图片(如 0°、90°、180°、270°)。
    •    模型任务:预测图片的旋转角度。


强化学习

定义:
    •    强化学习 (Reinforcement Learning, RL) 是通过与环境交互学习的机器学习方法。
    •    学习目标:选择能最大化长期奖励的动作。

关键点:
    1.    学习方式:基于试错法的交互学习。
    2.    目标导向:所有学习围绕奖励信号进行。
    3.    映射问题:学会将环境状态映射到合适的动作。


监督学习的流程

定义:
    •    监督学习通过已标注数据训练模型,将输入映射到输出。

流程:
    1.    输入:特征数据(如图片)。
    2.    输出:目标值(如“猫”或“狗”)。
    3.    误差:模型预测与目标值的差异。
    4.    优化:通过迭代训练最小化误差。

示例任务:
    •    图像分类(猫/狗)。
    •    房价预测。


强化学习的流程

流程:
    1.    输入:环境状态。
    2.    输出:动作(由智能体选择)。
    3.    奖励信号:根据动作结果提供反馈(奖励/惩罚)。
    4.    目标:通过试错最大化累积奖励。

特点:
    •    训练信息不直接是目标值,而是奖励。
    •    适用于动态、交互式任务。

目标:
    •    最大化奖励,学习最优策略。

强化学习 (Reinforcement Learning, RL) 的关键特性

关键特性:
    1.    未明确告知动作:
    •    强化学习中的智能体(agent)需要自己探索,并未直接告知正确的行动。
    •    通过环境反馈学习如何选择合适的动作。


    2.    试错搜索 (Trial-and-Error Search):
    •    智能体尝试不同的动作并观察结果,通过试错法改进策略。


    3.    延迟奖励 (Delayed Reward):
    •    智能体可能需要牺牲短期利益以获得更大的长期收益。
    •    例如,棋局中的一步可能暂时失利,但对最终获胜至关重要。


    4.    探索与利用的平衡 (Explore and Exploit):
    •    探索:尝试新策略以发现潜在更优的解决方案。
    •    利用:利用现有知识采取已知最佳动作。


    5.    目标导向与不确定环境:
    •    强化学习处理智能体与动态、不确定环境的交互,设计目标明确。

监督学习:
    •    目标:学习条件概率  p_{\theta}(y|x) ,预测  y  给定输入  x 。
    •    应用:分类(如识别图像是否包含猫)、回归(如预测房价)。

无监督学习:
    •    目标:学习数据分布  p_{\theta}(x) 。
    •    应用:聚类、生成模型(如生成新图像)。

强化学习:
    •    目标:学习策略  \pi_{\theta}(a|s) ,即给定状态  s  时选择的动作  a 。
    •    应用:控制系统(如机器人运动控制)。


智能体 (Agent)


    •    在强化学习中,智能体是执行动作并从环境中学习的主体。
    •    智能体通过感知环境状态、采取动作来影响环境。

特性:
    1.    时间相关性:决策依赖于时间序列中的状态。
    2.    持续学习与规划:智能体根据经验调整策略。
    3.    目标:通过行动影响环境,达到预定目标。
    4.    环境不确定性:环境可能具有随机性,智能体需要应对。

循环过程:
    1.    智能体感知环境状态。
    2.    根据策略选择动作。
    3.    环境反馈新状态和奖励。


强化学习概述

 任务(Task):强化学习的目标是通过与环境交互,学习如何成功地达到某个目标

 特点

• 通过经验学习(Learn via experiences)。

• 不像监督学习那样有明确的标签,而是通过试错探索策略。

示例

游戏:玩家知道自己赢了还是输了,但不知道下一步该怎么走。

控制:例如交通系统能测量车流延迟,但不知道如何减少拥堵。

强化学习的应用案例

1. 空间探索(Optimal Control):控制卫星运行轨迹。

2. 机器人(Robotics):机器人学习翻转煎饼等操作。

3. 迷宫与路径规划(Maze & Sokoban Puzzle)

 通过强化学习训练智能体在复杂环境中找到最优路径。

4. Sokoban(仓库推箱子):经典的强化学习任务,智能体需要规划动作把箱子推到正确位置。

5. 群体智能(Multi-Agent Systems)

躲猫猫(Hide and Seek):智能体学习不同的策略,如追逐、筑墙、利用坡道等,模拟多智能体博弈。

以下是对您上传的三张图片中涉及知识点的总结和解释:

RL Problems Are Strategic

1. 内容概述:

强化学习(Reinforcement Learning, RL)能够实现战略层面的自动化。

 图片展示了现代商业的三个核心功能(业务函数):

策略(Strategy)

决策(Decision)

流程(Process)

• 不同功能的重要性(价值)和技术对应:

 流程自动化可以通过软件工程完成。

 决策自动化可以通过机器学习完成。

战略自动化可以通过强化学习完成。

• 价值金字塔表明:策略比决策和流程更高层次,同时对业务价值贡献更大。

2. 关键点:

业务功能的分层:策略 > 决策 > 流程。

自动化技术的应用:流程用软件工程,决策用机器学习,策略用强化学习。

 商业意义:频繁但耗时的操作适合软件化,而高价值的策略需要强化学习的介入。

Markov Decision Processes (MDPs)

1. 内容概述:

强化学习问题通常可以表示为马尔科夫决策过程(Markov Decision Process, MDP)。

MDP 的核心特性是“马尔科夫性”:

• 当前状态St 的未来状态St+1 仅取决于当前状态,不依赖于历史状态。

智能体基于当前状态采取行动,从环境中获得奖励并更新状态。

马尔科夫性:未来状态与过去状态条件独立,仅依赖当前状态。

交互循环:状态 - 动作 - 奖励之间的循环构成 MDP 的动态决策过程。

Defining MDPs

1. 内容概述:

 MDP 的正式定义包括以下组件:

 状态集(States, S):环境可能的状态集合。

 初始状态(Start state, 

 动作集(Actions, A):智能体可采取的动作集合。

 状态转移函数(Transitions, 或 :描述从一个状态到另一个状态的概率。

 奖励函数(Rewards, :每个状态转移的奖励值。

 折扣因子(Discount factor, :用于计算未来奖励的现值。

2. 关键概念:

 策略(Policy):在每个状态下的动作选择规则。

 回报(Utility/Return):累计的折扣奖励值。

 


http://www.kler.cn/a/525431.html

相关文章:

  • vue和reacts数据响应式的差异
  • 【Java基础-41.5】深入解析Java异常链:构建清晰的错误追踪体系
  • 实现B-树
  • Couchbase UI: Views
  • python3+TensorFlow 2.x 基础学习(一)
  • 互联网概述
  • 【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】1.21 索引宗师:布尔索引的七重境界
  • sem_init的概念和使用案例
  • ollama的setup.exe和ollama-windows-amd64.zip区别
  • 网易有道开源 “子曰 - o1” 推理模型
  • Python动量策略实战:大幅跑赢市场的底层逻辑
  • 跑腿小程序/智能派单/系统派单/同城配送/校园跑腿/预约取件/用户端+骑手端【全开源】
  • 多线程进阶(一命通关)
  • 抠图神器,全离线使用,支持win和mac
  • github制作静态网页
  • 高精度算法:高精度减法
  • 【C++动态规划 状态压缩】2597. 美丽子集的数目|2033
  • 单细胞-第五节 多样本数据分析,打分R包AUCell
  • 简单聊聊“DeepSeek”
  • 【设计测试用例自动化测试性能测试 实战篇】
  • 2.3.1 基本数据类型
  • 获取snmp oid的小方法1(随手记)
  • 谈谈道教生物学
  • 蛇年新春 利士策与您 共贺吉祥
  • 【go语言】结构体
  • 有一对兔子,从出生后第三个月起每个月都生一对兔子,小兔子长到第三个月后每个月又生一对兔子,假如兔子都不死,问每个月的兔子总数为多少?