如何评估AI产品的好坏？——关于评估模型和指标（AI产品经理研习·AI产品系列）

文章来源：企鹅号 - 南溟思客

欢迎来到AI产品经理从0到1研习之旅。

在上一篇文章中，我们了解了AI产品从概念到市场的4个阶段，以及AI产品经理在其中所要承担的工作。接下来我们来研习AI产品的模型评估。

模型评估是AI产品开发过程中的一个关键环节。对于AI产品经理而言，理解和掌握模型评估的知识和技能对于确保产品成功、高效迭代和优化至关重要。

AI产品的模型评估是指使用一系列指标和技术来衡量和分析人工智能模型的性能和有效性的过程。这个过程通常包括评估模型的准确性、可靠性、鲁棒性、公平性以及对不同类型数据的响应等多个方面。

我们在定义AI产品需求的时候，除了需要明确产品的业务功能，也要说明通过模型来解决何种问题、达到何种标准。算法工程师会根据这个标准进行模型开发。开发完成之后，我们还需要对模型的结果进行验收，来决定模型是否可以上线。

接下来就让我们结合分类、预测、生成等不同目标应用场景下的AI产品来初探究竟。

评估分类问题的指标

“混淆矩阵”（Confusion Matrix）是评估分类问题中AI模型性能的一种重要工具，特别是在监督学习中。混淆矩阵通过将模型的预测结果（正例或反例）与实际情况（真正例、假正例、真反例、假反例）进行对比，来展示模型的性能。

以垃圾邮件识别模型为例子，对应举例为：

在AI产品实现过程中，混淆矩阵的实际应用意义包括：

性能评估: 它帮助评估和理解模型在不同类别上的预测性能，特别是在数据集不平衡的情况下。

决策优化: 通过分析混淆矩阵，可以发现模型的弱点（如高假正例或高假反例率），并据此优化模型。

业务策略调整: 不同的业务场景可能对准确率、召回率或精确率有不同的要求。混淆矩阵可以帮助产品经理根据业务需求调整模型的阈值或策略。

风险管理: 在某些应用中（如医疗诊断），错误预测的代价可能非常高。混淆矩阵可以帮助识别和量化这些风险。

在实际使用场景中，这些术语帮助我们定量分析和评估分类模型的性能。例如，在医疗诊断的AI应用中，真正例可能代表正确诊断出的病例，而假反例可能代表漏诊的病例。在这种情况下，提高召回率（减少假反例）可能比提高精确率更重要，因为漏诊的代价非常高。相反，在不涉及严重后果的场景中，我们可能更关注提高精确率（减少假正例）。通过这些指标，AI产品经理可以更好地理解和优化模型的性能，以满足具体应用的需求。

在混淆矩阵的基础上，我们可以进一步得到AI模型在分类场景下的评估指标（这些指标在我们前面的其他研习文章中有出现，但当时没有作进一步的探究和解释）：

（1）准确率 (Accuracy)

定义: 准确率是正确预测的数量与总预测数量的比例。它是最直观的性能评价指标。

计算公式: 准确率 = (真正例 + 真反例) / (真正例 + 假正例 + 真反例 + 假反例)

应用场景: 当各类别平衡时使用最为恰当。

（2）召回率 (Recall)

定义: 召回率是正确识别的正例数量与实际所有正例数量的比例。它反映了模型捕捉正例的能力。

计算公式: 召回率 = 真正例 / (真正例 + 假反例)

应用场景: 在重视避免漏检正例的场景中（例如医疗诊断），召回率尤为重要。

（3）精确率 (Precision)

定义: 精确率是正确识别的正例数量与所有被识别为正例数量的比例。它反映了模型的预测准确性。

计算公式: 精确率 = 真正例 / (真正例 + 假正例)

应用场景: 在重视准确识别正例的场景中（例如垃圾邮件检测）非常重要。

（4）F1分数 (F1 Score)

定义: F1分数是精确率和召回率的调和平均值，用于衡量模型的准确性和完整性的平衡。

计算公式: F1 = 2 * (精确率 * 召回率) / (精确率 + 召回率)

应用场景: 当需要考虑精确率和召回率的平衡时，F1分数是一个很好的指标。

（5）ROC曲线和AUC

ROC曲线: 接收者操作特征曲线（ROC）是一种图表，展示了分类模型在所有分类阈值下的性能。这条曲线绘制了两个参数（1）真正例率，即召回率（2）假正例率，如下图所示：

AUC: AUC（曲线下面积）衡量ROC曲线下的整体区域，用于比较不同模型的性能。曲线下面积的一种解读是，模型对随机正类别样本的排名高于随机负类别样本的概率。

在应用这些指标时，重要的是要理解各个指标在不同场景下的适用性和限制。例如，在不平衡的数据集中，准确率可能不是一个好的性能指标，因为它可能会倾向于多数类。AI产品经理应该根据具体的应用场景和业务需求选择最合适的评估指标。

举例说明

假设我们有一个用于识别欺诈交易的AI模型，其数据集中只有1%的交易是欺诈性的（欺诈类），而99%的交易是正常的（正常类）。在这种极度不平衡的数据集中，即使模型简单地将所有交易预测为“正常”，也能达到99%的准确率。这看起来似乎是一个很好的结果，但实际上这个模型完全无法检测出欺诈交易。

对于不平衡的数据集，AI产品经理需要考虑使用更适合的性能指标，例如召回率、精确率或F1分数，这些指标能更准确地反映模型在少数类上的表现。通过这样的做法，可以确保模型不仅在整体上表现良好，而且在对少数类的识别上也具有较高的准确性。

召回率在这个场景中尤为重要，因为它衡量了模型识别出的欺诈交易占实际欺诈交易总数的比例。高召回率意味着模型能够捕捉到大部分的欺诈交易，从而减少漏检。

精确率衡量的是被模型预测为欺诈交易中真正为欺诈的比例。高精确率意味着模型在标记交易为欺诈时更加准确，减少了误报。

在实际应用中，根据业务需求的不同，可能需要在召回率和精确率之间做出权衡。例如，在某些场景下，漏检一个欺诈交易的代价可能远大于误报一个正常交易，因此可能会更倾向于提高召回率。反之，在其他场景下，为了避免给正常用户带来不便，可能更关注提高精确率。通过不断调整和测试，AI产品经理可以找到最适合其特定应用的平衡点。

更进一步地，让我们以日常生活中大家可能接触到的概率更大的共享出行产品为例子，假设我们为Uber或滴滴这样的共享出行平台设计了一个新的策略模型来优化乘客与司机的匹配效率。这个模型的目标是快速、准确地匹配乘客和司机，同时考虑路程、等待时间、司机评分等因素。为了评估和优化这个模型，我们可以使用准确率、召回率、精确率、F1分数等指标。以下是一个具体的模拟场景：

举例说明

示例：新的司乘匹配策略模型评估

数据模拟>>>

数据集: 假设我们有1000次乘车请求，其中有200次请求因为匹配不佳（例如，匹配到距离较远的司机）而被乘客取消。

模型预测: 在这1000次请求中，我们的新策略模型预测出有250次请求可能会因匹配不佳而被取消。

实际结果: 在这250次预测将被取消的请求中，实际上有150次请求被取消（真正例），剩下100次乘客实际上接受了行程（假正例）。而在未被模型预测为将被取消的750次请求中，有50次请求被取消（假反例），其余700次乘客接受了行程（真反例）。

性能评估>>>

准确率 (Accuracy)

准确率 = (真正例 + 真反例) / 总预测次数

准确率 = (150 + 700) / 1000 = 85%

解释: 模型正确预测（无论是接受还是取消）的比例是85%。

召回率 (Recall)

召回率 = 真正例 / (真正例 + 假反例)

召回率 = 150 / (150 + 50) = 75%

解释: 在所有实际被取消的行程中，模型成功预测了75%。

精确率 (Precision)

精确率 = 真正例 / (真正例 + 假正例)

精确率 = 150 / (150 + 100) = 60%

解释: 在模型预测将被取消的行程中，实际被取消的比例是60%。

F1分数 (F1 Score)

F1 = 2 * (精确率 * 召回率) / (精确率 + 召回率)

F1 = 2 * (0.60 * 0.75) / (0.60 + 0.75) ≈ 0.67

解释: F1分数综合考虑了精确率和召回率，是一个平衡二者的指标。

ROC曲线和AUC

在这个例子中，ROC曲线和AUC可能不是最适用的指标。因为我们的模型是预测“是否会取消”，而不是估计取消的概率。ROC曲线和AUC通常用于评估输出概率的模型，它们可以展示在不同阈值下模型的性能变化。

—

预测类AI的模型评估

在“预测”类的场景中，尤其是涉及到时间序列预测、连续值预测（如销售额、股价等）的情况，评估模型或指标与分类问题有所不同。以下是一些常用的评估模型和指标：

均方误差 (Mean Squared Error, MSE)

定义: MSE衡量的是预测值与实际值之间差异的平方的平均值。

计算公式: MSE = (1/n) * Σ(actual - prediction)?

适用性: 适用于连续值预测，对于较大的误差给予更大的惩罚。

例如：在股价预测模型中，MSE能够衡量模型预测股价与实际股价之间的平均误差。股价预测对准确性要求很高，误差的大小直接关联到投资决策的效果。因此，MSE是一个重要指标，因为它强调了较大误差的影响。

均方根误差 (Root Mean Squared Error, RMSE)

定义: RMSE是MSE的平方根，更接近原始数据的标准差。

计算公式: RMSE = √MSE

适用性: 常用于预测模型，特别是当误差需要与数据本身的规模相比较时。

例如：在房价预测中，由于房价的变动范围广，RMSE作为误差的标准度量，能更直观地反映模型预测的平均误差大小。RMSE对于较大的误差给予更重的惩罚，这在房价预测中尤为重要，因为高估或低估都可能导致重大经济损失。

平均绝对误差 (Mean Absolute Error, MAE)

定义: MAE衡量的是预测值与实际值之间差异的绝对值的平均值。

计算公式: MAE = (1/n) * Σ|actual - prediction|

适用性: 对所有误差同等看待，适用于需要等同对待所有误差的场景。

例如：在零售领域，预测销售量时使用MAE可以直观地了解模型预测值与实际销售值之间的平均误差。MAE不像MSE那样对大误差过于敏感，因此在零售业务决策中更加实用，尤其是在制定库存策略时。

R?（R-Squared）或决定系数

定义: R?衡量的是模型对变量变化的解释程度。

计算公式: R? = 1 - (Σ(actual - prediction)? / Σ(actual - mean(actual))?)

适用性: 用于衡量模型对数据变化的解释能力，值越接近1表示模型解释力越强。

比如在能源领域，预测一个地区的电力需求，R?能够显示模型对于历史数据变化的解释程度。高R?值表示模型能够较好地捕捉到数据中的模式和趋势，对于制定能源分配和规划策略非常重要。

平均百分比误差 (Mean Percentage Error, MPE) 和平均绝对百分比误差 (Mean Absolute Percentage Error, MAPE)

定义: 这两个指标衡量预测值偏离实际值的百分比。

计算公式: MPE = (1/n) * Σ((actual - prediction) / actual)；

MAPE = (1/n) * Σ|((actual - prediction) / actual)|

适用性: 当需要将误差放在相对规模下考虑时使用，特别是在经济和金融预测中。

例如在供应链管理中，准确预测产品需求对于优化库存和减少浪费至关重要。MAPE通过百分比形式展示预测误差，适用于需求量大幅波动的产品。它帮助管理者以相对误差的形式理解预测准确性，对于制定采购和库存策略尤为有用。

在选择合适的评估指标时，重要的是考虑预测任务的具体性质和业务目标。例如，如果预测的准确性对业务影响很大，可能会更倾向于使用MSE或RMSE；如果关注相对误差，可能会选择MAPE。了解和选择合适的评估指标可以帮助AI产品经理更准确地评估预测模型的性能，从而进行有效的优化和改进。

让我们通过一个综合性的例子来解读预测类场景下的AI产品指标。假设我们有一个天气预测AI模型，旨在预测一个地区未来一周内每天的最高温度。这个模型对于农业规划、能源管理、户外活动安排等多个领域都非常重要。

举例说明

示例：天气预测AI模型的评估

数据模拟>>>

假设我们有一组历史天气数据和模型预测数据：

历史数据: 真实的最高温度记录为 [25°C, 30°C, 28°C, 32°C, 29°C, 31°C, 27°C]（一周七天）。

模型预测: 模型预测的最高温度为 [24°C, 29°C, 27°C, 33°C, 30°C, 30°C, 26°C]。

性能评估>>>

均方误差 (MSE)

?MSE = (1/7) * [(25-24)? + (30-29)? + ... + (27-26)?]=1.0

?这意味着模型预测值与实际值之间差异的平方的平均值为1.0。较低的MSE值表明预测误差较小。

均方根误差 (RMSE)

?RMSE = √MSE?= 1.0

这表示平均误差的实际大小为1.0摄氏度。RMSE作为误差的标准度量，提供了直观的误差大小表示。

平均绝对误差 (MAE)

? MAE = (1/7) * |25-24| + |30-29| + ... + |27-26|=1.0

?这表示预测值与实际值之间的平均绝对差为1.0摄氏度。这个指标说明模型预测的平均误差程度。

R? (R-Squared)

?R? = 1 -?[(25-24)?+(30-29)?+ ... + (27-26)?]?/ [(25-28.857)?+ ... +?(27-28.857)?] =?79.9%

? 这意味着模型预测的变化能解释实际温度变化的约79.9%。R?值越接近1，表示模型预测的准确性越高。在我们的例子中，0.799的R?表示模型在预测天气方面表现相对良好，但仍有改进空间。

平均绝对百分比误差 (MAPE)

?MAPE = (1/7) * |(25-24)/25| + |(30-29)/30| + ... + |(27-26)/27|≈ 3.49%

?这意味着平均来说，模型的预测值与实际值之间的相对误差约为3.49%。这个比例显示了误差占实际值比重的大小，较低的MAPE值表明模型的预测相对准确。

通过这些指标，产品经理可以全面评估天气预测模型的准确性和可靠性。例如，如果MAE或RMSE较高，可能需要调整模型以提高预测的准确性。如果R?值较低，可能意味着模型未能有效地捕捉温度变化的模式。MAPE的值则提供了误差的相对大小，有助于了解模型在实际应用中的表现。

综合考虑这些指标，我们可以看出模型的整体预测性能相对较好，误差相对较小。这样的模型在实际应用中可能是可接受的，尤其是在天气预测等领域，其中一定程度的误差是常见的。然而，对于特定应用场景，这些误差是否可接受还需要结合业务目标和实际需求来判断。

—

生成式AI的模型模型评估

对于生成类的AI产品应用场景（如文本生成、图像生成、音乐创作等），评估指标与分类或预测模型不同，因为它们关注的是生成内容的质量、多样性和创造性。以下是一些适用于生成类AI产品的评估指标：

感知质量评估:

例子: 人类评价者评分（Human Evaluation Scores）

应用: 评价者对生成内容（如文本、图像）的质量进行主观评分，考虑其可读性、相关性、创造性等因素。

适用性: 特别适用于那些难以通过量化方法评估的创造性任务。

多样性评估:

例子: n-gram多样性

应用: 测量生成文本中n-gram（如单词、短语）的多样性，以评估内容的丰富性和变化性。

适用性: 用于评估模型是否能生成多样化且不重复的内容。

自动化评估指标:

例子: BLEU (Bilingual Evaluation Understudy)、ROUGE (Recall-Oriented Understudy for Gisting Evaluation)、FID (Fréchet Inception Distance)

应用: BLEU和ROUGE常用于机器翻译和文本摘要，FID用于评估生成图像的质量和多样性。

适用性: 这些指标提供了快速的量化评估，但可能无法完全捕捉到生成内容的全部质量维度。

创造性评估:

例子: 基于规则的评分或专家评审

应用: 评估生成内容（如音乐、艺术作品）的创造性和原创性。

适用性: 适用于创造性强且主观成分多的应用场景。

一致性和连贯性评估:

例子: 语义连贯性评分

应用: 评估生成文本在逻辑和语义上的连贯性和一致性。

适用性: 对于要求逻辑严谨和语义连贯的生成任务，如故事生成、对话系统等。

实用性评估:

例子: 用户完成特定任务的成功率

应用: 评估生成内容在实际应用场景中的实用性，如聊天机器人的回答是否解决了用户问题。

适用性: 适用于实际应用导向的生成任务。

在使用这些评估指标时，重要的是要结合具体的应用场景和产品目标来选择最合适的指标。由于生成类AI产品往往涉及主观评价因素，因此将量化指标与人类评价相结合通常能够提供更全面的性能评估。

举例说明

示例：ChatGPT

对于像ChatGPT这样的复杂AI对话系统，对其综合表现进行评估时，应选择能全面反映其性能的方法和指标。由于ChatGPT的核心功能是生成自然、准确、相关且连贯的文本，因此综合评估应涵盖以下方面：

自然语言理解和生成质量:

人类评价者评分，考虑对话的流畅性、自然性和语义的一致性。（这个是目前我们可以直接观察到官方有采用）

任务完成能力:

对于特定的任务（如回答查询、提供建议等），评估ChatGPT能否提供正确且有效的解决方案。

通过用户满意度调查或特定任务完成测试来评估。

用户体验:

评估用户与ChatGPT交互的整体体验，包括易用性、回应速度和用户满意度。

使用问卷调查、用户访谈和行为分析来收集反馈。

可靠性和鲁棒性:

测试ChatGPT在不同类型的输入和意外情况下的表现，评估其对异常情况的处理能力。

使用压力测试和边缘案例分析。

公平性和偏见评估:

评估ChatGPT的输出是否无偏见，是否公平地代表了不同群体和观点。

使用专门的工具和框架来分析和识别潜在的偏见。

数据效率和计算性能:

评估模型的数据效率，包括训练和运行时所需的资源和时间。

测量响应时间和处理能力，确保满足实时交互的需求。

可扩展性和适应性:

评估ChatGPT在不同领域和场景中的适应性和扩展性。

测试模型在接收新数据和学习新任务时的灵活性。

通过综合这些方法和指标，可以全面评估ChatGPT的性能和效能。重要的是，这些评估应持续进行，以便对产品进行不断的优化和改进，确保它能在不断变化的环境和需求中保持高效和相关性。

当然，实际上如今的大模型产品发布时，通常还会采用类似于这样的竞品比较、第三方权威测试得分的模式：

—

其他AI产品的评估

除了分类、预测和生成3中AI模型的应用场景，当然还有其他的AI产品。

例如：

推荐系统，可以采用精确率、召回率、F1分数、平均排名位置（Mean Reciprocal Rank, MRR）、平均点击率（Click-Through Rate, CTR），评估方法可以是用户满意度调查、A/B测试（这个方法大家可能听得更多，即便没有实践过）、在线性能监控。

语音识别和处理，可以采用字词错误率（Word Error Rate, WER）、准确率、召回率、语音识别延迟等评估指标，评估方法可以是使用有噪音和不同口音的数据集进行测试，实际应用场景的用户反馈。

图像和视频分析，可以采用精确率、召回率、F1分数、平均交并比（Intersection over Union, IoU）、精确框（Precision Bounding Box），评估方法可以是人工标注的测试集评估、图像/视频识别挑战赛（如COCO、ImageNet）。

……

小结

如果你不能衡量它，你就无法管理它。所以，作为AI产品经理，我们理应掌握如何衡量“AI产品”（或者说是它背后的模型/策略）的好坏的方法和指标。

在选用模型评估的指标时，我们还是应该回归“初心”：

（1）在功能导向上，考虑AI模型的核心功能是什么，例如是对数据进行分类、生成新的数据，还是预测未来的趋势。

（2）在应用目标上:考虑模型的应用目的，即模型被设计来解决什么样的实际问题或完成什么样的任务。

（3）在数据处理方式上，考虑模型如何处理输入数据，以及它如何生成输出。这包括模型是否需要理解数据的内在模式，以及它是否需要创造新的数据或信息。

（4）技术和算法特性：考虑构成模型的技术和算法的特性，例如是否使用了深度学习、统计分析等。了解这些技术的优势和局限性有助于明确模型在特定任务上的适用性和潜在风险。

（5）性能和效率：评估模型的性能，包括其速度、准确度和效率。对于需要实时响应的应用，如在线推荐系统或自动驾驶，处理速度和延迟成为关键指标。

（6）可扩展性和适应性：考虑模型在不同规模的数据和各种环境下的表现。模型是否能够适应新的数据，以及是否容易扩展到其他相关领域或任务。

（7）用户体验和满意度：除了技术指标，用户体验也极其重要。评估用户对AI产品的接受度、满意度和整体体验。这可能涉及到用户调查、反馈收集和用户行为分析。

（8）公平性、透明性和伦理：在AI产品中，公平性和无偏见至关重要，尤其是在涉及人类决策的应用中。透明性和可解释性也对于建立用户信任至关重要。

（9）安全性和隐私保护：评估AI产品在安全性和隐私保护方面的表现。确保遵守相关的法律法规，特别是在处理敏感数据时。

总结来说，作为AI产品经理，衡量AI产品的好坏不仅需要考虑模型的技术性能，还要综合考虑其在实际应用中的有效性、用户体验、伦理和法规遵从等多方面因素。通过这样全面的评估，可以确保AI产品不仅技术上先进，而且在实际应用中真正有效、安全和受欢迎。

另外，模型的评估也不是一劳永逸的，需要持续监控，以确保它始终正常工作、且生成有效的输出，并在此基础上进行调优、迭代。

以上，就是AI产品的模型评估。

本期研习到此结束。

我们下一章再见

发表于: 2024-01-162024-01-16 18:10:00
原文链接：https://page.om.qq.com/page/OKoeR9IYgq4Xi-PVnyeRfFmg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

如何评估AI产品的好坏？——关于评估模型和指标（AI产品经理研习·AI产品系列）

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐