多类别分类中的宏平均和加权平均

06-01 1337阅读

前言

在处理多类别分类问题时，宏平均（Macro-average）和加权平均（Weighted-average）是评估模型性能时常用的两种聚合指标。它们都能将每个类别的独立指标（如精确率、召回率、F1分数等）整合成一个单一的全局指标，但处理方式有所不同，从而反映出模型性能的不同侧重。

宏平均（Macro-average）

宏平均是对所有类别的指标进行简单的算术平均。计算步骤如下：

独立计算每个类别的指标：首先，为每个类别独立计算其精确率、召回率或F1分数等。
求取平均值：然后，将所有类别的这些独立指标值相加，并除以类别的总数。

宏平均（Macro-average）是一种用于评估多类别分类模型性能的指标计算方法，它通过对所有类别的指标（如精确率、召回率、F1值等）进行简单平均得到。宏平均的计算公式如下：

假设模型有 C 个类别，对于每个类别 i i i （ i i i = 1, 2, … \ldots …, C ），计算其对应的指标值 M i M_i Mi（例如，精确率 P i P_i Pi 、召回率 R i R_i Ri、F1值 F 1 i F1_i F1i 等）。宏平均 M m a c r o M_{macro} Mmacro 的计算公式为：

M macro = 1 C ∑ i = 1 C M i M_{\text{macro}} = \frac{1}{C} \sum_{i=1}^{C} M_i Mmacro=C1i=1∑CMi

具体到不同的指标，宏平均的计算可以细分为：

宏平均精确率（Macro-Precision）：
P macro = 1 C ∑ i = 1 C P i P_{\text{macro}} = \frac{1}{C} \sum_{i=1}^{C} P_i Pmacro=C1i=1∑CPi
其中 P i P_i Pi 是类别 i i i 的精确率。
宏平均召回率（Macro-Recall）：
R macro = 1 C ∑ i = 1 C R i R_{\text{macro}} = \frac{1}{C} \sum_{i=1}^{C} R_i Rmacro=C1i=1∑CRi
其中 R i R_i Ri 是类别 i i i 的召回率。
宏平均F1值（Macro-F1）：
F 1 macro = 1 C ∑ i = 1 C F 1 i F1_{\text{macro}} = \frac{1}{C} \sum_{i=1}^{C} F1_i F1macro=C1i=1∑CF1i
其中 F 1 i F1_i F1i 是类别 i i i 的F1值，计算公式为：
F 1 i = 2 ⋅ P i ⋅ R i P i + R i F1_i = 2 \cdot \frac{P_i \cdot R_i}{P_i + R_i} F1i=2⋅Pi+RiPi⋅Ri
特点：

平等对待每个类别：宏平均不考虑每个类别中样本数量的多少，对所有类别一视同仁。这意味着，即使某个类别的样本数量很少，其在该类别上的表现也会对最终的宏平均值产生相同的影响。
适用于类别不平衡但不希望少数类别被“淹没”的情况：当数据集中存在类别不平衡，但你仍然希望模型在少数类别上也能表现良好时，宏平均是一个很好的选择。如果模型在少数类别上的性能很差，宏平均值会明显下降，从而提醒你需要关注这些类别。
对少数类别敏感：如果少数类别预测错误，宏平均会受到较大影响，因为少数类别和多数类别在计算平均值时权重相同。
示例：

假设有A、B、C三个类别，它们的F1分数分别为0.8、0.9、0.5。

宏F1分数 = (0.8+0.9+0.5)/3=0.733

加权平均（Weighted-average）

加权平均是对所有类别的指标进行加权算术平均，权重通常是每个类别在数据集中所占的样本数量比例。计算步骤如下：
1. 独立计算每个类别的指标：同样，首先为每个类别独立计算其指标。
2. 确定每个类别的权重：计算每个类别在整个数据集中所占的样本比例。
3. 加权求和：将每个类别的指标值乘以其对应的权重，然后将所有加权后的值相加。
加权平均的计算公式为：
加权平均 = ∑ i = 1 n w i ⋅ x i ∑ i = 1 n w i \text{加权平均} = \frac{\sum_{i=1}^{n} w_i \cdot x_i}{\sum_{i=1}^{n} w_i} 加权平均=∑i=1nwi∑i=1nwi⋅xi
其中：
- x i x_i xi 是第 i i i 个数值，
- w i w_i wi 是第 i i i 个数值对应的权重，
- n n n 是数值的总个数。
  公式表示将每个数值与其对应的权重相乘后求和，再除以所有权重的总和。
  特点：
  - 考虑类别样本数量：加权平均会根据每个类别的样本数量来分配权重。样本数量多的类别对最终的加权平均值贡献更大，而样本数量少的类别贡献较小。
  - 反映模型在整体数据集上的表现：如果你更关心模型在整个数据集上的整体表现，尤其是在类别不平衡的数据集中，加权平均是一个更合适的指标。它能够更好地反映模型在多数类别上的性能，因为这些类别在数据集中占据主导地位。
  - 倾向于多数类别：如果模型在多数类别上表现良好，即使在少数类别上表现较差，加权平均值也可能看起来不错。
    示例：
    
    假设有A、B、C三个类别，F1分数分别为0.8、0.9、0.5，样本数量分别为100、200、50。
    
    总样本数 = 100+200+50=350
    
    A类权重 = 100/350≈0.286
    
    B类权重 = 200/350≈0.571
    
    C类权重 = 50/350≈0.143
    
    加权F1分数 = (0.8×0.286)+(0.9×0.571)+(0.5×0.143)=0.2288+0.5139+0.0715≈0.8142
    
    总结
    
    宏平均和加权平均各有侧重，选择哪种平均方法取决于你对模型性能评估的优先级：
    - 宏平均（Macro-average）：更注重所有类别是否都能得到良好预测，即使是样本量小的少数类别。适用于你希望模型在所有类别上都表现均衡，或者特别关注少数类别性能的场景。
    - 加权平均（Weighted-average）：更注重模型在整体数据分布上的预测准确性。适用于你希望模型在多数类别上表现良好，或者希望评估模型在整个数据集上的综合性能的场景。

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

多类别分类中的宏平均和加权平均

前言

宏平均（Macro-average）

加权平均（Weighted-average）

总结

相关阅读

美国服务器缓存方案，提升性能与用户体验的关键策略？美国服务器缓存策略如何提升用户体验？美国服务器缓存如何提升用户体验？

国内物联网服务器，支撑万物互联的数字底座？物联网服务器如何支撑万物互联？物联网服务器如何连接万物？

深圳服务器托管，数字时代的企业基石与未来引擎？服务器托管，企业数字化的必选项？服务器托管，企业数字化的必选项？

香港服务器新用户福利，开启高效稳定的云端之旅？香港服务器新用户有哪些专属福利？香港服务器新用户有哪些专属福利？

目录[+]