基于PyTorch的深度学习3——非标量反向传播
以下内容由大语言模型生成:
张量,边代表从输入到输出的操作。当我们对一个标量调用backward()
函数时,PyTorch能够直接计算该标量关于参与运算的所有张量的梯度。这是因为导数的概念最开始是针对标量值定义的。
为什么需要传入gradient参数?
当你有一个非标量(即形状不为1的张量)并希望对其求导时,实际上你是在尝试计算这个张量关于某些变量的雅可比矩阵(Jacobian Matrix)。然而,PyTorch并不直接支持这种操作,因为它复杂化了自动微分的流程。为了简化这个问题,PyTorch要求在这种情况下提供一个额外的gradient
参数,这个参数同样是一个张量,并且其形状必须与调用backward()
的那个张量相同。这个gradient
实际上扮演了一个“权重”的角色,用于将多维导数的问题转化为标量导数的问题。
如何理解这个过程?
考虑你的例子:假设你有一个损失向量loss=(y_1, y_2, ..., y_m)
,你想要根据它来更新一些模型参数。由于loss
不是一个标量,你不能直接对它调用backward()
。这时,你可以引入一个向量v=(v_1, v_2, ..., v_m)
,然后将loss
与v
进行点乘得到一个新的标量loss*v^T
(这里v^T
表示v
的转置,虽然在实际代码中我们不会这样写,这只是为了表达数学概念)。这个新生成的标量可以被用来调用backward()
方法,从而触发梯度的计算。
具体来说,这样做实际上是计算了loss
的雅可比矩阵与v
的乘积。换句话说,原本你需要计算的是雅可比矩阵,但现在通过点乘转换后,你只需计算一个标量关于所需变量的梯度。这使得PyTorch的自动微分机制能够处理这种情况,而不需要直接支持张量对张量的求导。
1)定义叶子节点及计算节点。
import torch
#定义叶节点张量x,形状为1x2
x=torch.tensor([[2.3]],dtype=torch.float,requires_grad=True)
#初始化Jacobian矩阵
J=torch.zeros(2,2)
#初始化目标张量,形状为1x2
y=torch.zeros(1,2)
#定义y与x之间的映射关系:
#y1=x1**2+3*x2,y2=x2**2+2*x1
y[0,0]=x[0,0]**2+3*x[0,1]
y[0,1]=x[0,1]**2+2*x[0,0]
2)手工计算y对x的梯度
y对x的梯度是一个雅可比矩阵,可以通过手动计算值
#生成y1对x的梯度
y.backward(torch.Tensor([[1, 0]]),retain_graph=True)
##gradient的作用:传入的gradient张量扮演了一个权重的角色,它决定了每个元素在最终梯度计算中的重要
##本质上,这是将雅可比矩阵乘以这个gradient向量,从而将多维导数的问题简化为一维标量导数的问题。
J[0]=x.grad
#梯度是累加的,故需要对x的梯度清零
x.grad = torch.zeros_like(x.grad)
#生成y2对x的梯度
y.backward(torch.Tensor([[0, 1]]))
J[1]=x.grad
#显示jacobian矩阵的值
print(J)