当前位置：首页 > article >正文

对gru的理解

article 2025/2/13 20:37:38

GRU（Gated Recurrent Unit，门控循环单元）是一种循环神经网络（RNN）的变体，最早由Kyunghyun Cho等人在2014年提出。它是**LSTM（Long Short-Term Memory）**的简化版，旨在缓解标准RNN的梯度消失问题，同时减少计算开销。

1. GRU 结构

GRU的核心由两个门控制信息流动：

更新门（Update Gate，z）：决定当前时间步的隐藏状态有多少信息需要保留、多少信息来自新输入。
重置门（Reset Gate，r）：控制遗忘过去的信息，决定当前输入对隐藏状态的影响程度。

GRU的数学公式如下：

更新门：

$z_t = \sigma(W_z x_t + U_z h_{t-1} + b_z)$
重置门：
$r_t = \sigma(W_r x_t + U_r h_{t-1} + b_r$
候选隐藏状态：

$\tilde{h}_t = \tanh(W_h x_t + U_h (r_t \odot h_{t-1}) + b_h)$
最终隐藏状态更新：
$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$

其中：

$\sigma$ 是sigmoid函数，确保门的输出在 (0,1) 之间。
$\odot$ 代表逐元素乘法（Hadamard 乘积）。
$W$ 和 $U$ 是可训练权重， $b$ 是偏置项。

从公式我们可以看出，在计算 $\tilde{h}_t$ 的时候， $r t$ (重置门) 越接近1则结果受到过去状态的影响越大， $r t$ (重置门) 越接近0的时候，结果受到过去状态的影响越小。这就是重置门的作用。用于控制遗忘过去的信息。

计算新的 $h_t$ 的时候，更新们 $z_t$ 越接近1，结果受到 $\tilde{h}_t$ （当前输入）影响大，当 $z_t$ 越接近0时，结果受到 $h_t$ (过去状态)影响大。所以这体现了更新门的作用：决定当前时间步的隐藏状态有多少信息需要保留、多少信息来自新输入。

http://www.kler.cn/a/543945.html

相关文章：

【AI学习】DeepSeek-R1-Distill的意义和影响

【CXX-Qt】1 CXX-Qt入门

物联网（IoT）如何与人工智能（AI）的结合

没有服务器和显卡电脑如何本地化使用deepseek|如何通过API使用满血版deepseek

ios通过xib创建控件

innovus如何分步长func和dft时钟

【C++八股】C++内存管理

从360度全景照片到高质量3D场景：介绍SC-Omnigs 3D重建系统

redis持久化原理相关面试题剖析

期权帮 | 股指期货交易：规则速览与解读！

SpringBoot速成（九）获取用户信息 P9-P10

git - 克隆带子模块的git工程的方法

windows蓝牙驱动开发-支持蓝牙事件通知

为什么 ARCGIS PRO ArcGISIndexingServer.exe 使用大量计算机内存？

UGUI下UI元素的position和localPosition

计算机网络和操作系统常见面试题目（带脑图，做了延伸以防面试官深入提问）

docker nginx 配置文件详解

MySQL数据库入门到大蛇尚硅谷宋红康老师笔记基础篇 part 10

MFC程序设计（十一）单文档架构

从时间同步到智能调度：TSN时间敏感网络如何提升工厂安全性

【Elasticsearch】Kibana Dev Tools中基础使用

AI前端开发：革新工作环境与团队协作

Java小白入门基础知识（一）

基于Spring Boot的分布式网上售卖系统设计

【Raqote】 0 Rust 2D图形库Raqote概览

AGI时代的认知重塑：人类文明的范式转移与思维革命