当前位置：首页 > article >正文

机器学习—特性缩放

article 2025/3/4 13:15:41

特性缩放的技术能使梯度下降运行得更快，让我们先来看看功能大小之间的关系，这就是该特性的数字和相关参数的大小，作为一个具体的例子，让我们用两个特征来预测房子的价格，X1代表一个房子的大小，X2代表两个卧室的数量，假设X1通常在300-2000平方英尺之间，X2从0-5个卧室不等，所以在这个例子中，X1具有相对较大的值范围，X2的值范围相对较小。让我们以2000平方英尺的房子为例，有5间卧室，这个训练样本的价格是50万或50万美元，你认为参数大小的合理值是多少，让我们看一组可能的参数。W1=50，W2=0.1，b=50，所以在这种情况下，以千美元为单位的估计价格是10万K+0.5K+50K，所以这显然与50万美元的实际价格相去甚远，这不是一个很好的参数选择集。对于W1和W2，现在让我们看看另一种可能性，一号和二号正好相反，1是0.1，2是50，在W1和W2的选择中b也是50，W1相对较小，W2相对较大，50比0.1大得多，所以这里的预测价格是0.1*2000K+50*5+50，所以这个版本的模型预测价格为50万美元是一个更合理的估计，而且正好和房子的真实价格是一样的，所以希望你能注意到，当一个特性的可能值范围很大时就像平方英尺的大小，一直到2000，一个好的模型更有可能学会选择一个相对较小的参数，像0.1这样的值，同样的，当特征的可能值很小时，比如卧室的数量，那么它的参数的合理值就会比较大，像50。

这与梯度下降有什么关系？，让我们来看看特征的散点图，其中平方英尺的大小是横轴X1，卧室的数量X2在垂直轴上，如果绘制训练数据，你会注意到横轴的比例尺要大得多，或者值的范围要大得多，与垂直轴相比，让我们看看成本函数在等高线图中的样子，你可能会看到一个等高线图，其中水平轴的范围要窄的多，在0和1 之间，而垂直轴的值要大得多，10-100之间，所以等高线形成椭圆形或椭圆形一边短一边长，这是因为对W的一个非常小的变化，会对预估价格产生非常大的影响，对成本J有很大影响，因为w倾向于乘以一个非常大的数，即平方英尺大小。相比之下，为了大大改变预测，W需要更大的变化，因此对W2的小变化，不要改变成本函数。

如果你要进行梯。度下降，如果你用你的训练数据，因为轮廓又高又瘦，梯度下降最终可能会在很长一段时间内来回反弹，在它最终到达全球极小值之前，在这种情况下，要做的一件有用的事情是缩放特性，这意味着队训练数据执行一些转换，所以X1保存现在可能从0-1，X2也可以从0-1，所以数据点现在看起来更像这样，你可能会注意到，底部的地块模型现在与顶部的大不相同，最关键的一点是，X1和X2 现在都取了彼此可比的值范围，如果你在上面定义的成本函数上运行梯度下降，使用这个转换数据重新缩放X1和X2，然后轮廓就会更象这样，更像圆圈，少了高瘦，梯度下降可以找到一条更直接的路径到达全局最小值。

所以回顾一下，当你有不同的功能，具有非常不同的值范围，它会导致梯度下降运行缓慢，但是重新缩放不同的功能，所以它们都具有可比的值范围可以显著加快梯度下降。

如何实现特性缩放？

获取具有非常不同值范围的特性，并对它们进行缩放，使其具有彼此可比的价值范围。如果X1在3000-2000之间，获得X1缩放版本的一种方法是将每一个原始X取一个值除以范围的最大值2000，所以比例X1将从0.15开始到1，同样，因为X2从0-5，可以通过取每个原始的X2来计算X2的缩放版本除以5，这也是最大的，因此，比例X2现在将从0-1，所以如果你在图上绘制缩放的X1和X2 ，可能如下图所示

除了除以最大值，你也可以做所谓的均值正常化，所以这看起来是你从原始功能开始，然后再缩放它们，使它们的中心都在零附近，所以以前它们只有大于零的值，现在它们有负值也有正值，但可能通常在负一和正一之间，所以计算X1的平均归一化，先求平均值，也称为训练集上X1的平均值，让我们把这个叫做刻薄的μ1，例如，每亩地的平均面积是600平方英尺，所以让我们把每个X1-μ1/2000-300，2000是最大的，300是最小的，如果你这么做，你得到了规范化的X1介于-0.18到0.82，类似于平均归一化X2，你可以计算出特征二的平均值，例如μ2=2或3，然后你可以把每一个X2=X2-μ2/5-0，平均归一化X2介于-0.46到0.54，所以如果你用平均归一化X1和X2来绘制训练数据，可能是这样。

最后一种常见的重新标度方法叫做Z分数归一化，实现Z分数归一化，你需要计算每个特征的标准差，如果你不知道标准差是多少，不用担心，这门课不需要你知道，或者你听说过正态分布或者钟形曲线，有时也叫高斯分布，这就是正态分布的标准差，但如果你没听说过这个，你也不用担心，但如果你知道标准差是多少，然后实现Z分数归一化，你先计算平均值和标准差，通常用每个特征的小写希腊字母sigma表示，例如，可能特征一的标准差是450，μ1=600，归一化X1=X1-μ1/sigma1，你会发现Z分数归一化了X1介于-0.67到3.1，同样，如果你计算第二个特征的标准差是1.4，μ2=2000，归一化X2=X2-μ2/sigma2，在这种情况下，由X2归一化的Z分数现在介于-1.6到1.9，所以说，如果将训练数据绘制在归一化的X1和X2上，可能是如下图所示这样的。

作为经验法则，执行功能缩放时，你可能希望将功能范围从周围的任何地方，-1到周围的某个地方加上每个特征X的一个，但是这些值-1和-1可能有点松，所以如果特征范围在-3到3之间或者-0.3-0.3所有这些都是完全可以的，或者如果你有一个不同的功能X2，它的值在-2和5之间，但也许没问题，如果你也不管它，但是如果另一个像X3这样的特征在-100到100之间，然后就有了一个非常不同的值范围，从-1到1，因此，最好将此功能扩展到3，所以它的范围从接近-1到1，同样的，在-0.001到0.001之间，那么这些值就太小了，这意味着你可能也想重订它，最后，如果你的功能X5，例如医院的尺寸，病人的体温从98°到105°不等，在这种情况下，这些值大约是100，与其他比例特征相比，这实际上是相当大的，这实际上会导致梯度下降运行的更慢，因此，在这种情况下，功能缩放可能会有所帮助，进行功能重新缩放几乎没有任何害处，所以当有疑问时，就去执行它，这就是用这个小技术进行功能缩放的内容。你通常可以让梯度下降跑的更快。