从深度学习角度看线性代数
线性代数
标量由于没有方向,因此只考虑大小,运算直接加减乘除即可。
矩阵其实是将空间进行了扭曲。了解即可
矩阵相乘公式如下:
实现
首先介绍标量:
(标量由只有一个元素的张量表示)。
下面的代码将实例化两个标量,并执行一些熟悉的算术运算,即加法、乘法、除法和指数。
import torch
x = torch.tensor(3.0)
y = torch.tensor(2.0)
x + y, x * y, x / y, x**y
# answer : (tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))
向量
[向量可以被视为标量值组成的列表]。
这些标量值被称为向量的元素(element)或分量(component)。当向量表示数据集中的样本时,它们的值具有一定的现实意义。例如,如果我们正在训练一个模型来预测贷款违约风险,可能会将每个申请人与一个向量相关联,其分量与其收入、工作年限、过往违约次数和其他因素相对应。如果我们正在研究医院患者可能面临的心脏病发作风险,可能会用一个向量来表示每个患者,其分量为最近的生命体征、胆固醇水平、每天运动时间等。在数学表示法中,向量通常记为粗体、小写的符号(例如,
x
\mathbf{x}
x、
y
\mathbf{y}
y和
z
)
\mathbf{z})
z)。人们通过一维张量表示向量。一般来说,张量可以具有任意长度,取决于机器的内存限制。
x = torch.arange(4)
y = torch.arange(10)
x,y
# (tensor([0, 1, 2, 3]), tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]))
我们可以使用下标来引用向量的任一元素,例如可以通过 x i x_i xi来引用第 i i i个元素。注意,元素 x i x_i xi是一个标量,所以我们在引用它时不会加粗。此处认为列向量是向量的默认方向。在数学中,向量 x \mathbf{x} x可以写为:
x
=
[
x
1
x
2
⋮
x
n
]
,
\mathbf{x} =\begin{bmatrix}x_{1} \\x_{2} \\ \vdots \\x_{n}\end{bmatrix},
x=
x1x2⋮xn
,
:eqlabel:eq_vec_def
其中 x 1 , … , x n x_1,\ldots,x_n x1,…,xn是向量的元素。在代码中,我们(通过张量的索引来访问任一元素)。
那么如何访问张量的长度呢,我们使用下面的代码进行访问:
len(x),len(y),y.numel()
# y.numel()也是返回y中的元素总数
# (4, 10, 10)
当用张量表示一个向量(只有一个轴)时,我们也可以通过.shape
属性访问向量的长度。形状(shape)是一个元素组,列出了张量沿每个轴的长度(维数)。对于(只有一个轴的张量,形状只有一个元素。)
x.shape, y.shape
# (torch.Size([4]), torch.Size([10]))
了解到上述相关概念之后,我们可以来创建一个矩阵了:
A = torch.arange(20).reshape(5, 4) # 这个张量有20个元素,其被分成了五行四列
C = torch.arange(25).reshape(5,5)
A,C
# output :
(tensor([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11],
[12, 13, 14, 15],
[16, 17, 18, 19]]),
tensor([[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19],
[20, 21, 22, 23, 24]]))
上述创建了一个有20个元素的列表,然后将其reshape成一个五行四列的矩阵。
下面将上述创建的矩阵进行转置,同时比较原来矩阵和翻转后的矩阵的元素对应位置是否相同:
A.T,C==C.T
# output :
(tensor([[ 0, 4, 8, 12, 16],
[ 1, 5, 9, 13, 17],
[ 2, 6, 10, 14, 18],
[ 3, 7, 11, 15, 19]]),
tensor([[ True, False, False, False, False],
[False, True, False, False, False],
[False, False, True, False, False],
[False, False, False, True, False],
[False, False, False, False, True]]))
实际上,作为方阵的一种特殊类型,[对称矩阵(symmetric matrix) A \mathbf{A} A等于其转置: A = A ⊤ \mathbf{A} = \mathbf{A}^\top A=A⊤]。下面定义一个对称矩阵 B \mathbf{B} B,并将B与其转置进行比较。
B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
B, B == B.T
# output :
tensor([[1, 2, 3],
[2, 0, 4],
[3, 4, 5]])
tensor([[True, True, True],
[True, True, True],
[True, True, True]])
可以认为,向量是标量的推广,则矩阵也是向量的推广一样,也是可以在后面构建具有更多轴的数据结构:
X = torch.arange(24).reshape(2, 3, 4)
X
output : tensor([[[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]],
[[12, 13, 14, 15],
[16, 17, 18, 19],
[20, 21, 22, 23]]])
实际上,给定具有相同形状的任意两个张量,任何按元素二元运算的结果都将是相同形状的张量:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone() # 通过分配新内存,将A的一个副本分配给B
A, A + B
output :
(tensor([[ 0., 1., 2., 3.],
[ 4., 5., 6., 7.],
[ 8., 9., 10., 11.],
[12., 13., 14., 15.],
[16., 17., 18., 19.]]),
tensor([[ 0., 2., 4., 6.],
[ 8., 10., 12., 14.],
[16., 18., 20., 22.],
[24., 26., 28., 30.],
[32., 34., 36., 38.]]))
具体而言,[两个矩阵的按元素乘法称为Hadamard积(Hadamard product)(数学符号
⊙
\odot
⊙)]。对于矩阵
B
∈
R
m
×
n
\mathbf{B} \in \mathbb{R}^{m \times n}
B∈Rm×n,其中第
i
i
i行和第
j
j
j列的元素是
b
i
j
b_{ij}
bij。矩阵
A
\mathbf{A}
A(在 :eqref:eq_matrix_def
中定义)和
B
\mathbf{B}
B的Hadamard积为:
A
⊙
B
=
[
a
11
b
11
a
12
b
12
…
a
1
n
b
1
n
a
21
b
21
a
22
b
22
…
a
2
n
b
2
n
⋮
⋮
⋱
⋮
a
m
1
b
m
1
a
m
2
b
m
2
…
a
m
n
b
m
n
]
.
\mathbf{A} \odot \mathbf{B} = \begin{bmatrix} a_{11} b_{11} & a_{12} b_{12} & \dots & a_{1n} b_{1n} \\ a_{21} b_{21} & a_{22} b_{22} & \dots & a_{2n} b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} b_{m1} & a_{m2} b_{m2} & \dots & a_{mn} b_{mn} \end{bmatrix}.
A⊙B=
a11b11a21b21⋮am1bm1a12b12a22b22⋮am2bm2……⋱…a1nb1na2nb2n⋮amnbmn
.
A * B
output :
tensor([[ 0., 1., 4., 9.],
[ 16., 25., 36., 49.],
[ 64., 81., 100., 121.],
[144., 169., 196., 225.],
[256., 289., 324., 361.]])
将张量乘以或加上一个标量不会改变张量的形状,其中张量的每个元素都将与标量相加或相乘。
a = 2
X = torch.arange(24).reshape(2, 3, 4)
a + X, (a * X).shape,len(X)
output :
(tensor([[[ 2, 3, 4, 5],
[ 6, 7, 8, 9],
[10, 11, 12, 13]],
[[14, 15, 16, 17],
[18, 19, 20, 21],
[22, 23, 24, 25]]]),
torch.Size([2, 3, 4]),
2)
可以对任意张量进行的一个有用的操作是计算其元素的和。
数学表示法使用
∑
\sum
∑符号表示求和。为了表示长度为
d
d
d的向量中元素的总和,可以记为
∑
i
=
1
d
x
i
\sum_{i=1}^dx_i
∑i=1dxi。在代码中可以调用计算求和的函数:
x = torch.arange(4, dtype=torch.float32)
x, x.sum()
output :
(tensor([0., 1., 2., 3.]), tensor(6.))
对于上述矩阵 A \mathbf{A} A中元素的和可以记为 ∑ i = 1 m ∑ j = 1 n a i j \sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij} ∑i=1m∑j=1naij。
A.shape, A.sum()
output :
(torch.Size([5, 4]), tensor(190.))
默认情况下,调用求和函数会沿所有的轴降低张量的维度,使它变为一个标量。
那么我们如何指定张量沿哪一个轴来通过求和降低维度。以矩阵为例,为了通过求和所有行的元素来降维(轴0),可以在调用函数时指定axis=0
。由于输入矩阵沿0轴降维以生成输出向量,因此输入轴0的维数在输出形状中消失。
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape
output :
(tensor([40., 45., 50., 55.]), torch.Size([4]))
指定axis=1
将通过汇总所有列的元素降维(轴1)。因此,输入轴1的维数在输出形状中消失。
A_sum_axis1 = A.sum(axis=1)
A_sum_axis1, A_sum_axis1.shape
output :
(tensor([ 6., 22., 38., 54., 70.]), torch.Size([5]))
对矩阵来说,沿着行和列对矩阵求和,等价于对矩阵的所有元素求和。
A.sum(axis=[0, 1]) # 结果和A.sum()相同
output :
tensor(190.)
如何求矩阵的平均值呢,可以调用函数,也可以直接进行求解:
A.mean(), A.sum() / A.numel()
output :
(tensor(9.5000), tensor(9.5000))
与求和类似,求平均值也是可以按照指定的维度进行求和的:
A.mean(axis=0), A.sum(axis=0) / A.shape[0]
# 对A的每一列求和,然后计算矩阵的函数,然后进行相除,也是可以得到每一列的平均值的
output :
(tensor([ 8., 9., 10., 11.]), tensor([ 8., 9., 10., 11.]))
上述不论是求和还是求平均值实际上都将矩阵进行降维了,但是有时候在项目中,需要保证矩阵的维度不变,这时候我们就需要使用keepdims了:
sum_A = A.sum(axis=1, keepdims=True)
# 这里axis=1表示按行求和,后面的参数设置成True的话,表示不改变数组的维度。默认情况下是False
sum_A
output :
tensor([[ 6],
[22],
[38],
[54],
[70]])
由于广播机制的存在,我们下面的代码也是可以的:
A / sum_A # 这里就是使用到了广播机制,将维度小的部分进行复制补全
outpu :
tensor([[0.0000, 0.1667, 0.3333, 0.5000],
[0.1818, 0.2273, 0.2727, 0.3182],
[0.2105, 0.2368, 0.2632, 0.2895],
[0.2222, 0.2407, 0.2593, 0.2778],
[0.2286, 0.2429, 0.2571, 0.2714]])
若想沿某个轴计算A
元素的累积总和,比如axis=0
(按行计算),可以调用cumsum
函数。此函数不会沿任何轴降低输入张量的维度。
A.cumsum(axis=0)
# axis=0表示按行进行计算,也就是每一行加上上面一行对应位置的数值
output :
tensor([[ 0., 1., 2., 3.],
[ 4., 6., 8., 10.],
[12., 15., 18., 21.],
[24., 28., 32., 36.],
[40., 45., 50., 55.]])
之前讲了按元素操作、求和及平均值。另一个最基本的操作之一是点积。
给定两个向量
x
,
y
∈
R
d
\mathbf{x},\mathbf{y}\in\mathbb{R}^d
x,y∈Rd,
它们的点积(dot product)
x
⊤
y
\mathbf{x}^\top\mathbf{y}
x⊤y
(或
⟨
x
,
y
⟩
\langle\mathbf{x},\mathbf{y}\rangle
⟨x,y⟩)
是相同位置的按元素乘积的和:
x
⊤
y
=
∑
i
=
1
d
x
i
y
i
\mathbf{x}^\top \mathbf{y} = \sum_{i=1}^{d} x_i y_i
x⊤y=∑i=1dxiyi。
y = torch.ones(4, dtype = torch.float32)
x, y, torch.dot(x, y)
output :
(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))
对于两个一维张量,可以先求其点积,然后进行元素求和:
torch.sum(x * y)
output :
tensor(6.)
点积在很多场合都很有用。例如,给定一组由向量 x ∈ R d \mathbf{x} \in \mathbb{R}^d x∈Rd表示的值,和一组由 w ∈ R d \mathbf{w} \in \mathbb{R}^d w∈Rd表示的权重。 x \mathbf{x} x中的值根据权重 w \mathbf{w} w的加权和,可以表示为点积 x ⊤ w \mathbf{x}^\top \mathbf{w} x⊤w。当权重为非负数且和为1(即 ( ∑ i = 1 d w i = 1 ) \left(\sum_{i=1}^{d}{w_i}=1\right) (∑i=1dwi=1))时,点积表示加权平均(weighted average)。
将两个向量规范化得到单位长度后,点积表示它们夹角的余弦。
知道如何计算点积,可以开始理解矩阵-向量积(matrix-vector product)。
我们将矩阵
A
\mathbf{A}
A用它的行向量表示:
A
=
[
a
1
⊤
a
2
⊤
⋮
a
m
⊤
]
,
\mathbf{A}= \begin{bmatrix} \mathbf{a}^\top_{1} \\ \mathbf{a}^\top_{2} \\ \vdots \\ \mathbf{a}^\top_m \\ \end{bmatrix},
A=
a1⊤a2⊤⋮am⊤
,其中每个
a
i
⊤
∈
R
n
\mathbf{a}^\top_{i} \in \mathbb{R}^n
ai⊤∈Rn都是行向量,表示矩阵的第
i
i
i行。
[矩阵向量积
A
x
\mathbf{A}\mathbf{x}
Ax是一个长度为
m
m
m的列向量,其第
i
i
i个元素是点积
a
i
⊤
x
\mathbf{a}^\top_i \mathbf{x}
ai⊤x]:
A x = [ a 1 ⊤ a 2 ⊤ ⋮ a m ⊤ ] x = [ a 1 ⊤ x a 2 ⊤ x ⋮ a m ⊤ x ] . \mathbf{A}\mathbf{x} = \begin{bmatrix} \mathbf{a}^\top_{1} \\ \mathbf{a}^\top_{2} \\ \vdots \\ \mathbf{a}^\top_m \\ \end{bmatrix}\mathbf{x} = \begin{bmatrix} \mathbf{a}^\top_{1} \mathbf{x} \\ \mathbf{a}^\top_{2} \mathbf{x} \\ \vdots\\ \mathbf{a}^\top_{m} \mathbf{x}\\ \end{bmatrix}. Ax= a1⊤a2⊤⋮am⊤ x= a1⊤xa2⊤x⋮am⊤x .
我们可以把一个矩阵
A
∈
R
m
×
n
\mathbf{A} \in \mathbb{R}^{m \times n}
A∈Rm×n乘法看作一个从
R
n
\mathbb{R}^{n}
Rn到
R
m
\mathbb{R}^{m}
Rm向量的转换。
这些转换是非常有用的,例如可以用方阵的乘法来表示旋转。
A.shape, x.shape, torch.mv(A, x),A,x
# 可以这样进行理解,A是5×4的矩阵,x是4×1的向量(其实也可以看成一个矩阵), 然后两者对应相乘,得到结果即可
output :
(torch.Size([5, 4]),
torch.Size([4]),
tensor([ 14, 38, 62, 86, 110]),
tensor([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11],
[12, 13, 14, 15],
[16, 17, 18, 19]]),
tensor([0, 1, 2, 3]))
下面讲解一下矩阵与矩阵的乘法规则:
假设有两个矩阵
A
∈
R
n
×
k
\mathbf{A} \in \mathbb{R}^{n \times k}
A∈Rn×k和
B
∈
R
k
×
m
\mathbf{B} \in \mathbb{R}^{k \times m}
B∈Rk×m:
A = [ a 11 a 12 ⋯ a 1 k a 21 a 22 ⋯ a 2 k ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n k ] , B = [ b 11 b 12 ⋯ b 1 m b 21 b 22 ⋯ b 2 m ⋮ ⋮ ⋱ ⋮ b k 1 b k 2 ⋯ b k m ] . \mathbf{A}=\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1k} \\ a_{21} & a_{22} & \cdots & a_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nk} \\ \end{bmatrix},\quad \mathbf{B}=\begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1m} \\ b_{21} & b_{22} & \cdots & b_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ b_{k1} & b_{k2} & \cdots & b_{km} \\ \end{bmatrix}. A= a11a21⋮an1a12a22⋮an2⋯⋯⋱⋯a1ka2k⋮ank ,B= b11b21⋮bk1b12b22⋮bk2⋯⋯⋱⋯b1mb2m⋮bkm .
用行向量 a i ⊤ ∈ R k \mathbf{a}^\top_{i} \in \mathbb{R}^k ai⊤∈Rk表示矩阵 A \mathbf{A} A的第 i i i行,并让列向量 b j ∈ R k \mathbf{b}_{j} \in \mathbb{R}^k bj∈Rk作为矩阵 B \mathbf{B} B的第 j j j列。要生成矩阵积 C = A B \mathbf{C} = \mathbf{A}\mathbf{B} C=AB,最简单的方法是考虑 A \mathbf{A} A的行向量和 B \mathbf{B} B的列向量:
A
=
[
a
1
⊤
a
2
⊤
⋮
a
n
⊤
]
,
B
=
[
b
1
b
2
⋯
b
m
]
.
\mathbf{A}= \begin{bmatrix} \mathbf{a}^\top_{1} \\ \mathbf{a}^\top_{2} \\ \vdots \\ \mathbf{a}^\top_n \\ \end{bmatrix}, \quad \mathbf{B}=\begin{bmatrix} \mathbf{b}_{1} & \mathbf{b}_{2} & \cdots & \mathbf{b}_{m} \\ \end{bmatrix}.
A=
a1⊤a2⊤⋮an⊤
,B=[b1b2⋯bm].
当我们简单地将每个元素
c
i
j
c_{ij}
cij计算为点积
a
i
⊤
b
j
\mathbf{a}^\top_i \mathbf{b}_j
ai⊤bj:
C = A B = [ a 1 ⊤ a 2 ⊤ ⋮ a n ⊤ ] [ b 1 b 2 ⋯ b m ] = [ a 1 ⊤ b 1 a 1 ⊤ b 2 ⋯ a 1 ⊤ b m a 2 ⊤ b 1 a 2 ⊤ b 2 ⋯ a 2 ⊤ b m ⋮ ⋮ ⋱ ⋮ a n ⊤ b 1 a n ⊤ b 2 ⋯ a n ⊤ b m ] . \mathbf{C} = \mathbf{AB} = \begin{bmatrix} \mathbf{a}^\top_{1} \\ \mathbf{a}^\top_{2} \\ \vdots \\ \mathbf{a}^\top_n \\ \end{bmatrix} \begin{bmatrix} \mathbf{b}_{1} & \mathbf{b}_{2} & \cdots & \mathbf{b}_{m} \\ \end{bmatrix} = \begin{bmatrix} \mathbf{a}^\top_{1} \mathbf{b}_1 & \mathbf{a}^\top_{1}\mathbf{b}_2& \cdots & \mathbf{a}^\top_{1} \mathbf{b}_m \\ \mathbf{a}^\top_{2}\mathbf{b}_1 & \mathbf{a}^\top_{2} \mathbf{b}_2 & \cdots & \mathbf{a}^\top_{2} \mathbf{b}_m \\ \vdots & \vdots & \ddots &\vdots\\ \mathbf{a}^\top_{n} \mathbf{b}_1 & \mathbf{a}^\top_{n}\mathbf{b}_2& \cdots& \mathbf{a}^\top_{n} \mathbf{b}_m \end{bmatrix}. C=AB= a1⊤a2⊤⋮an⊤ [b1b2⋯bm]= a1⊤b1a2⊤b1⋮an⊤b1a1⊤b2a2⊤b2⋮an⊤b2⋯⋯⋱⋯a1⊤bma2⊤bm⋮an⊤bm .
[我们可以将矩阵-矩阵乘法
A
B
\mathbf{AB}
AB看作简单地执行
m
m
m次矩阵-向量积,并将结果拼接在一起,形成一个
n
×
m
n \times m
n×m矩阵]。
在下面的代码中,我们A和B上执行矩阵乘法。这里的A是一个5行4列的矩阵,B是一个4行3列的矩阵。两者相乘后,得到一个5行3列的矩阵。
B = torch.ones(4, 3,dtype=torch.int64)
# 这里要是不加后面的dtype=torch.int64,好像会默认创建一个浮点型的数据类型,这样就和前面的A的数据类型不符合了,导致报错
torch.mm(A, B),A,B
(tensor([[ 6, 6, 6],
[22, 22, 22],
[38, 38, 38],
[54, 54, 54],
[70, 70, 70]]),
tensor([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11],
[12, 13, 14, 15],
[16, 17, 18, 19]]),
tensor([[1, 1, 1],
[1, 1, 1],
[1, 1, 1],
[1, 1, 1]]))
线性代数中最有用的一些运算符是范数(norm)。非正式地说,向量的范数是表示一个向量有多大。这里考虑的大小(size)概念不涉及维度,而是分量的大小。
在线性代数中,向量范数是将向量映射到标量的函数 f f f。给定任意向量 x \mathbf{x} x,向量范数要满足一些属性。第一个性质是:如果我们按常数因子 α \alpha α缩放向量的所有元素,其范数也会按相同常数因子的绝对值缩放: f ( α x ) = ∣ α ∣ f ( x ) . f(\alpha \mathbf{x}) = |\alpha| f(\mathbf{x}). f(αx)=∣α∣f(x).第二个性质是熟悉的三角不等式: f ( x + y ) ≤ f ( x ) + f ( y ) . f(\mathbf{x} + \mathbf{y}) \leq f(\mathbf{x}) + f(\mathbf{y}). f(x+y)≤f(x)+f(y).第三个性质简单地说范数必须是非负的: f ( x ) ≥ 0. f(\mathbf{x}) \geq 0. f(x)≥0.这是有道理的。因为在大多数情况下,任何东西的最小的大小是0。
最后一个性质要求范数最小为0,当且仅当向量全由0组成。
∀
i
,
[
x
]
i
=
0
⇔
f
(
x
)
=
0.
\forall i, [\mathbf{x}]_i = 0 \Leftrightarrow f(\mathbf{x})=0.
∀i,[x]i=0⇔f(x)=0.范数听起来很像距离的度量。
欧几里得距离和毕达哥拉斯定理中的非负性概念和三角不等式可能会给出一些启发。
事实上,欧几里得距离是一个
L
2
L_2
L2范数:
假设
n
n
n维向量
x
\mathbf{x}
x中的元素是
x
1
,
…
,
x
n
x_1,\ldots,x_n
x1,…,xn,其[
L
2
L_2
L2范数是向量元素平方和的平方根:]
(
∥
x
∥
2
=
∑
i
=
1
n
x
i
2
,
\|\mathbf{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2},
∥x∥2=i=1∑nxi2,)
其中,在
L
2
L_2
L2范数中常常省略下标
2
2
2,也就是说
∥
x
∥
\|\mathbf{x}\|
∥x∥等同于
∥
x
∥
2
\|\mathbf{x}\|_2
∥x∥2。在代码中,可以按如下方式计算向量的
L
2
L_2
L2范数。
u = torch.tensor([3.0, -4.0])
torch.norm(u)
output :
tensor(5.)
深度学习中更经常地使用 L 2 L_2 L2范数的平方,也会经常遇到[ L 1 L_1 L1范数,它表示为向量元素的绝对值之和:] ∥ x ∥ 1 = ∑ i = 1 n ∣ x i ∣ . \|\mathbf{x}\|_1 = \sum_{i=1}^n \left|x_i \right|. ∥x∥1=i=1∑n∣xi∣.与 L 2 L_2 L2范数相比, L 1 L_1 L1范数受异常值的影响较小。
为了计算 L 1 L_1 L1范数,我们将绝对值函数和按元素求和组合起来。
torch.abs(u).sum()
# 先将u中的每个元素求绝对值,然后进行求和即可
output :
tensor(7.)
L
2
L_2
L2范数和
L
1
L_1
L1范数都是更一般的
L
p
L_p
Lp范数的特例:
∥
x
∥
p
=
(
∑
i
=
1
n
∣
x
i
∣
p
)
1
/
p
.
\|\mathbf{x}\|_p = \left(\sum_{i=1}^n \left|x_i \right|^p \right)^{1/p}.
∥x∥p=(i=1∑n∣xi∣p)1/p.类似于向量的
L
2
L_2
L2范数,[矩阵]
X
∈
R
m
×
n
\mathbf{X} \in \mathbb{R}^{m \times n}
X∈Rm×n(的Frobenius范数(Frobenius norm)是矩阵元素平方和的平方根:)
∥
X
∥
F
=
∑
i
=
1
m
∑
j
=
1
n
x
i
j
2
.
\|\mathbf{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2}.
∥X∥F=i=1∑mj=1∑nxij2.
Frobenius范数满足向量范数的所有性质,它就像是矩阵形向量的
L
2
L_2
L2范数。
调用以下函数将计算矩阵的Frobenius范数。
torch.norm(torch.ones((4, 9)))
output :
tensor(6.)
按特定轴求和
关于按特定轴求和,笔者之前也不是很清楚,但是观看了李沐老师的视频后,还是深松启发的,具体来说,就一张图可以总结:
上图表示axis等于几,就将张量的第几维去掉即可。
要是使用了keepdims = True,这保留该维度,但是该维度变成1。
QA 思考
copy 与 clone 的区别:
copy 有深拷贝和浅拷贝的区别 ,clone是复制新内存。
求和简单来理解,就是对哪一维求和就是消除那一维度。