当前位置：首页 > article >正文

成为AI产品经理——模型评估概述

article 2025/4/2 10:36:35

一、模型宣讲和评估的原因

二、模型宣讲

三、模型评估

1. 重要特征

① 特征来源

②特征意义

2.选择测试样本

3.模型性能和稳定性

一、模型宣讲和评估的原因

刘海丰老师提到他们在做一个金融AI产品未注重模型指标，过于注重业务指标，导致产生了大量的业务损失。

主要问题为：

1.模型上线未评估

2.模型上线未监控

3.特征无评估、无监控

因此他们增加了模型宣讲和模型评估的节点，对这两个节点的工作内容和交付物做了相应的规定。

二、模型宣讲

首先算法同学在宣讲之前给产品经理交付模型报告。

模型报告包括：模型设计、算法选型、特征来源、测试结果。

产品经理在看过模型报告之后请算法同学进行模型宣讲，宣讲内容为：

1.为什么选择这个算法？

2.选择了哪些特征？

3.训练样本是哪些？

4.测试的方案和结果是什么？

宣讲目的是搞清楚算法的逻辑且对于算法同学容易忽略的三个问题进行评估：

1.特征的来源：来源是否合理，避免出现后续特征无法获取的情况

2.训练样本的合理性：避免选择的样本数据和业务数据不符合，比如：样本太久

3.测试结果是否符合预期：测试结果太好或者太差，无法满足业务预期

这里是我们给模型上线的第一道保障。在这个环节中，我们需要知道算法的基本逻辑，特征来源的稳定性，训练样本的合理性以及测试结果是否符合预期，我们对于模型进行粗略的评估。

三、模型评估

很多同学对于模型宣讲和模型评估之间的差异有疑惑，这里说明一下：

模型宣讲我们只是进行粗略评估，但是此时的模型评估环节我们要站在业务的角度上对模型进行详细的评估。

模型评估产物：输出模型验收报告。

这里是刘老师给出的一个例子，不同业务标准的评估指标不相同，可以进行相应的调整。

1.重要特征

2.选择测试样本

3.模型性能和稳定性测试结果

1. 重要特征

我们需要列出重要特征，对于每一个重要特征的来源和意义进行评估。

① 特征来源

如果这个特征来自于外部数据，那么我们就要关注这个特征的可持续性和稳定性。

②特征意义

这个特征是否符合业务或者是否符合常理。eg:我们要用到夜间购物特征，如果这个特征设置在23点-2点不合理。一般设置在0点-5点。

2.选择测试样本

我们需要根据业务的场景和特性选择指标，比如我们观察一个线上商城的购买量，我选择的测试样本应该是2019.1-2019.12月的样本，因为购买能力会根据季节和周期进行浮动，我们应该尽量全面的选择样本。选择好测试样本之后我们交给算法同学进行测试，看是否达到业务预期效果。

注意样本的选择直接决定了测试结果，所以一定要谨慎选择，符合业务场景。

3.模型性能和稳定性

模型性能和稳定性是最最重要的，直接决定了模型是否能够上线。

模型性能分为四步进行评估：

评估重要特征的测试结果是否符合预期：包括特征IV，KS等等
评估重要特征的稳定性：一般是PSI值(PSI<0.2)
评估模型性能测试结果是否符合预期：包括模型KS、AUC、MSE等等
评估模型的稳定性，一般也是PSI值（PSI<0.2）

如果一个算法是回归模型，就不需要AUC和KS这些指标啦，随机应变。

至此，模型验收结束，就可以进行后期的模型部署，工程开发，集成测试，集成验收，产品上线的环节了。

产品上线流程图如下所示：

参考文献：刘海丰——《成为AI产品经理》

查看全文

http://www.kler.cn/a/148387.html

GeoTrust证书

96.STL-遍历算法 transform

文章解读与仿真程序复现思路——电力自动化设备EI\CSCD\北大核心《考虑碳排放分摊的综合能源服务商交易策略》

HttpRunner原来还能这么用，大开眼界！！！

WPF创建进度条

「计算机网络」Cisco Packet Tracker计算机网络仿真器的使用

YOLOv5算法进阶改进（5）— 主干网络中引入SCConv | 即插即用的空间和通道维度重构卷积

android项目之调用webview

TypeScript学习记录

LeetCode51. N-Queens

java后端实现登录退出功能，并用过滤器验证

android trace文件的抓取与查看方法

【Lidar】基于Python的点云数据下采样+体素显示

tauri中使用rust调用动态链接库例子（使用libloading库和libc库）

ubuntu22.04 arrch64版在线安装java环境

C语言-指针讲解(3)

用通俗的方式讲解Transformer：从Word2Vec、Seq2Seq逐步理解到GPT、BERT

人机交互3——多主题多轮对话

TOD和PPS精确时间同步技术

C#面向对象

一、模型宣讲和评估的原因

二、模型宣讲

三、模型评估

1. 重要特征

① 特征来源

②特征意义

2.选择测试样本

3.模型性能和稳定性

相关文章：