当前位置: 首页 > article >正文

大模型中常见 loss 函数

loss 函数

首先,Loss 是允许不降到 0 的,模型计算的 loss 最终结果可以接近 0。

可以成为 loss 函数的条件在这里插入图片描述## 常用 loss

以下函数调用基于 Pytorch,头文件导入:
import torch.nn as nn

  • 均方差(MSE)
    nn.functional.mse_loss
    定义
    预测值与真实值之差的平方的平均值
    应用场景
    主要用于回归问题
  • 交叉熵(Cross Entropy)
    nn.functional.cross_entropy 要求二维的输入,一维的输出
    nn.CrossEntropyLoss 中已经实现了softmax功能
    对于 y_pred 的要求是:n * class_num,对于 y 的要求是 n
    交叉熵计算逻辑的例子在这里插入图片描述
    定义
    衡量概率分布之间的差异
    应用场景
    • 主要用于分类问题,尤其是二分类和多分类问题
    • 适用于输出层使用 sigmoid 或 softmax 激活函数的情况,因为这些函数的输出可以解释为概率分布
    • 计算逻辑
      -log(预测值与正确标签对位相乘,再相加)
    • 使用前提
      1. 交叉熵的输入是一个概率值
      2. 预测场景概率空间和结果为1(log函数在x小于0时无定义)
        特点
      3. 目前,在分类问题上,基本都采用交叉熵。
      4. 使模型输出易于比较(通过交叉熵损失)
      5. 通过归一化(指将模型输出转换为概率分布)来评估模型性能

记录应用不多的其他 loss(以下 loss 有使用心得之后再做记录)

  • 0/1损失(BCELoss)
    通常与 sigmoid 函数一起使用
  • 指数损失
  • 对数损失
  • Hinge损失

http://www.kler.cn/news/312995.html

相关文章:

  • 关于“华为杯”第二十一届中国研究生数学建模竞赛赛题下载及提交作品的重要提醒
  • pytorch实现RNN网络
  • Vue使用qrcodejs2-fix生成网页二维码
  • 解决 GitLab CI/CD 中的 `413 Request Entity Too Large` 错误
  • 生信初学者教程(五):R语言基础
  • 【计算机网络篇】电路交换,报文交换,分组交换
  • BGP实验
  • Percona发布开源DBaaS平台;阿里云RDS发布全球多活数据库(GAD);Redshift支持自然语言生成SQL
  • Pyspark dataframe基本内置方法(4)
  • 【有啥问啥】弱监督学习新突破:格灵深瞳多标签聚类辨别(Multi-Label Clustering and Discrimination, MLCD)方法
  • QT 将文字矢量化,按照设置的宽和高绘制
  • 3657A/B/AM/BM矢量网络分析仪
  • CSS - 通用左边图片,右边内容,并且控制长度溢出处理模板(vue | uniapp | 微信小程序)
  • python画图|曲线分段设置颜色基础教程
  • 什么是3D展厅?有何优势?怎么制作3D展厅?
  • 蓝星多面体foc旋钮键盘复刻问题详解
  • JVM java主流的追踪式垃圾收集器
  • docker 镜像,导入导出,
  • 【数据结构入门】排序算法之三路划分与非比较排序
  • 基于OpenCV的YOLOv5图片检测
  • 寄存器二分频电路
  • Serverless架构
  • 【C/C++语言系列】实现单例模式
  • golang学习笔记23——golang微服务中服务间通信问题探讨
  • 【ShuQiHere】 探索 IEEE 754 浮点数标准:以 57.625 和 -57.625 为例
  • 【bugfix】-洽谈回填的图片消息无法显示
  • 0基础学习HTML(八)头部
  • PyCharm部分快捷键冲突问题
  • Pybullet 安装过程
  • 利士策分享,周末时光:一场自我充实的精致规划