【机器学习】K折交叉验证（K-Fold Cross-Validation）

06-01 1378阅读

文章目录

K折交叉验证步骤详解
一. 核心目标
二. 具体步骤与操作
三. 关键变体与场景适配

3.1 分层K折交叉验证
3.2 时间序列K折交叉验证
3.3 留一法（LOO）
3.4 重复K折交叉验证
四. 实践注意事项
五. Python代码示例

六. 总结

K折交叉验证步骤详解

一. 核心目标

K折交叉验证旨在通过多次划分数据集评估模型的泛化性能，避免单次随机划分导致的偏差，尤其适用于小样本数据或需要稳定评估的场景。其核心步骤可拆解为以下流程：

二. 具体步骤与操作

1.数据准备

将原始数据集均匀随机划分为 K个互不相交的子集

例如：总样本数 N = 1000 , K = 5 N=1000, K=5 N=1000,K=5 时，每折包含 200 个样本

关键要求：子集间样本分布尽量保持一致（分类任务中需要保持类别比例，即分层抽样）

2.迭代训练与验证

对每一折进行以下操作：

第 i i i 次迭代时 ( i = 1 , 2 , . . . , K ) (i=1,2,...,K) (i=1,2,...,K)，指定第 i i i 折为测试集，剩余 K − 1 K-1 K−1 折作为训练集
在训练集上训练模型，调整相关超参数，并在测试集上进行评估。

记录每次迭代的模型表现，例如准确率、精度、召回率等

3.结果汇总

统计 K K K 次测试结果的均值和标准差等，作为模型泛化性能的最终评估

例如：5次的准确率为 [ 0.82 , 0.85 , 0.80 , 0.83 , 0.84 ] [0.82, 0.85, 0.80, 0.83, 0.84] [0.82,0.85,0.80,0.83,0.84]，则均值为 0.828，标准差为 0.017

三. 关键变体与场景适配

变体	适用场景	核心改进
分层K折	分类任务中类别不平衡数据（如欺诈检测）	保持每折的类别分布与原始数据一致，避免因随机划分导致训练/测试集类别比例失衡
时间序列K折	时序数据（如股票价格预测）	按时间顺序划分数据集，确保测试集时间戳严格晚于训练集，防止未来信息泄露至训练阶段
留一法（LOO）	极小型数据集（样本量 N

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31