当前位置：首页 > article >正文

机器学习任务功略

article 2025/3/4 1:45:57

loss如果大，训练资料没有学好，此时有两个可能：

1.model bias太过简单（找不到loss低的function）。

解决办法：增加输入的feacture，设一个更大的model，也可以用deep learning增加弹性。

2.optimization做得不好（合适的function确实存在但是无法正确选择出来）。

如何判断是上面的哪种情况？

比较图像信息。（例如如果20层的network已经可以做得很好有很低的loss了，56层的明显错误便并不是model bias弹性不够导致的，是optimization做得不好）
可以先看比较浅的network（model），因为它们不太会有optimization的问题。
如果深层的model并没有包含更小的数据差，那就是optimization的问题。（例如↓）

看testing data

1.依旧很小，那很完美。

2.如果training data的loss小（并且确定model bias没有问题，optimization够大了）但是testing data的loss大有可能是overfitting。

上面是个特例极端情况。
正常来说：没有给足够的资料做为训练，因为model自由度很大就会导致overfitting。

解决方法：

1.增加训练资料。

2.data augmentation（用自己对问题的理解自己创造一些资料）。

注意：不能随便做，要是有道理的数据。根据对资料的特性，基于自己的理解，增加data augmentation。

3.缩减弹性，写极限。

比如：减少神经元数目或者让model公用参数或者用比较少的features 或者 early stopping 或者 regularization 或者 drop out。

但是注意不要给模型太多的限制。限制太大了在测试上就没有好结果，也就导致了model bias。

http://www.kler.cn/a/420391.html

相关文章：

切换python版本；vscode切换版本与cmd版本不一致

SpringBoot 助力下的在线家具商城设计与实现之旅

SpringBoot 架构下的在线家具商城：规划与实践之路

【webApp之h5端实战】项目基础结构搭建及欢迎页面的实现

科技为翼助残向新高德地图无障碍导航规划突破1.5亿次

数据结构基础之《（9）—归并排序》

WPF DataGrid 列隐藏

普通单向有头链表，用于内存资源受限，不带mmu的单片机

redis升级

人工智能机器学习算法分类全解析

带Burst AOT Settings移植问题

CSS：Web美学的革新之旅

【Java基础入门篇】三、面向对象和JVM底层分析（3）

【设计模式系列】工厂方法模式（二十一）

CSS函数

为什么混合精度训练中优化器参数仍然以 FP32 存储？LLaMA 2 7B 模型在混合精度下的显存需求

react 父子组件通信

【Qt】QDateTimeEdit控件实现清空（不保留默认时间/最小时间）

Pytorch使用手册- TorchVision目标检测微调Tutorial的使用指南（专题十二）

bash命令缓存导致命令执行失败的问题