目录
7.1 数据集划分
(相关资料图)
7.1.1 训练集、验证集和测试集划分
7.1.2 交叉验证
7.1.3 不平衡数据处理
7.2 评价指标
7.2.1 回归的评价指标
7.2.2 分类的评价指标
7.2.3 评价指标案例
7.3 正则化、偏差和方差
7.3.1 欠拟合和过拟合
7.3.2 正则化
7.3.3 偏差和方差
参考文献
机器学习的数据,可以划分为训练集、验证集和测试集。
训练集(Training Set):帮助我们训练模型,简单地说就是通过训练集的数据让我们确定拟合曲线的参数。
验证集(Validation Set):也叫做开发集(Dev Set),用来做模型选择(Model Selection),即做模型的最终优化及确定的,用来辅助我们的模型的构建,即训练超参数,可选。
测试集(Test Set):为了测试已经训练好的模型的精确度。
我们将数据分成训练集和测试集,通常用70%的数据作为训练集,用剩下30%的数据作为测试集。很重要的一点是训练集和测试集均要含有各种类型的数据,通常我们要对数据进行“洗牌”,然后再分成训练集和测试集。通常我们应该选择一个泛化的模型。我们需要使用交叉验证集来帮助选择模型。即:使用60%的数据作为训练集,使用 20%的数据作为验证集,使用20%的数据作为测试集,也可以按照70%、10%、20%,这个是比较普遍的划分方式(图7-1)。
图7-1 数据集划分
但在现代机器学习中,我们更习惯操作规模大得多的数据集,比如说你有1百万个训练样本,这样分可能更合理,98%作为训练集,1%开发集,1%测试集,因为如果你有1百万个样本,那么1%就是10,000个样本,这对于开发集和测试集来说可能已经够了。所以在现代深度学习时代,有时我们拥有大得多的数据集,所以使用小于20%的比例或者小于30%比例的数据作为开发集和测试集也是合理的。而且因为深度学习算法需要非常多的数据,我们可以看到那些有海量数据集的问题,有更高比例的数据划分到训练集里,那么测试集呢?深度学习的数据这样划分:98%、1%、1% (假设百万条数据)。
在机器学习建模过程中,常见的数据划分方法通常是将数据分为训练集和测试集,测试集是与训练独立的数据,完全不参与训练,用于最终模型的评估。这种做法往往会出现问题:在训练过程中,经常会出现过拟合的问题,模型的泛化能力差,也就是说模型可以很好的匹配训练数据,却在预测训练集外的数据(测试集)上表现不佳。如果此时就使用测试数据来调整模型参数,就相当于在训练时已知部分测试数据的信息,造成标签信息的泄露,会影响最终评估结果的准确性。通常的做法是在训练数据再中分出一部分作为验证(Validation)数据,用来评估模型的训练效果。
验证数据取自训练数据,但不参与训练,这样可以相对客观的评估模型对于训练集之外数据的匹配程度。模型在验证数据中的评估常用的是交叉验证,主要的交叉验证方式有K折交叉验证和留一法交叉验证。
1.K折交叉验证(K-fold Cross Validation)
K折交叉验证的方式如图7-2所示,主要流程如下:
(1) 将原始数据分成
组(K-Fold),将每个子集数据分别做一次验证集,其余的组子集数据作为训练集,这样会得到个模型。(2) 这
个模型分别在验证集中评估结果。(3)
个模型的误差加和平均就得到交叉验证误差。图7-2 K折交叉验证方法
交叉验证有效利用了有限的数据,并且评估结果能够尽可能接近模型在测试集上的表现,可以作为模型优化的指标使用。
2.留一法交叉验证(leave-one-out Cross Validation,LOO)
留一法就是每次只留下一个样本做测试集,其它样本做训练集,如果有
个样本,则需要训练次,测试次。当数据集的数量较少时使用留一交叉验证,其原因主要如下:数据集少,如果像正常一样划分训练集和验证集进行训练,那么可以用于训练的数据本来就少,还被划分出去一部分,这样可以用来训练的数据就更少了。留一法可以充分的利用数据。
因为留一法需要划分
次,产生批数据,所以在一轮训练中,要训练出个模型,这样训练时间就大大增加。所以留一法比较适合训练集较少的场景。留一法计算最繁琐,但样本利用率最高。适合于小样本的情况。
数据不平衡是指数据集中各类样本数量不均衡的情况,比如正负样本比例为1比10,就属于数据不平衡。
常用不平衡处理方法有采样和代价敏感学习。
1.采样
采样主要分为欠采样(Down-Sampling)、过采样(Over-Sampling)方法。
欠采样
欠采样抛弃大部分比例较高的样本。图7-3中,因为正样本比例较高,因此抛弃了大部分正样本数据,从而弱化了中间部分正样本的影响,可能会造成偏差很大的模型。当然,如果数据不平衡但两个类别基数都很大,或许影响不大。
图7-3 欠采样的方法图例(○代表正样本,×代表负样本) 2) 过采样
过采样针对少数类样本提供精确副本, 由于精确副本的重复采样, 可能会导致严重的过拟合。图7-4中,针对少数类样本,进行了重复采样,达到正负样本平衡的目的。
图7-4 过采样的方法图例(○代表正样本,×代表负样本)
为解决过采样的重复采样问题,可以使用SMOTE算法。
SMOTE(Synthetic Minority Over-sampling Technique)算法是过采样中比较常用的一种。算法的思想是合成新的少数类样本,而不是简单地复制样本。算法过程如图7-5:
(a) 原始样本 | (b) 选定少类样本 | |
(c) 找到靠近的个少类样本 | (d) 增加样本 |
图 7-5 SMOTE算法工作流程
假设为某样本的集合,其中,(图 7-5(a))。首先设置过采样比率,通过该采样比率为每一个寻找个同一类别的最近邻(图 7-5(b)),然后从选出个样本(图 7-5(c)),和样本使用下面的公式的计算方法合成个新样本(图 7-5(d))。最后将该算法生成的新样本添加到集合。新样本生成方法如下面的公式。
其中,
,为过采样之后的样本,代表的是的个同类的最近邻,之间的随机数。2.代价敏感学习
代价敏感学习是指为不同类别的样本提供不同的权重,从而让机器学习模型进行学习的一种方法。
比如风控或者入侵检测,这两类任务都具有严重的数据不平衡问题,可以在算法学习的时候,为少类样本设置更高的学习权重,从而让算法更加专注于少类样本的分类情况,提高对少类样本分类的查全率,但是也会将很多多类样本分类为少类样本,降低少类样本分类的查准率。
回归的评价指标主要有:均方误差(Mean Square Error,MSE)、平均绝对误差(Mean Absolute Error,MAE)、均方根误差RMSE(Root Mean Square Error,RMSE)、R方 [R_Squared(R2 score)]。
以上评价指标已经在4.5(回归的评价指标)这节进行讲解,本节不再重复。
在分类算法中,针对一个二分类问题,即将实例分成正类(Positive)或负类(Negative),在实际分类中会出现以下四种情况:
正确肯定(True Positive,TP):预测为真,实际为真
正确否定(True Negative,TN):预测为假,实际为假
错误肯定(False Positive,FP):预测为真,实际为假
错误否定(False Negative,FN):预测为假,实际为真
如图7-6所示,这是一个混淆矩阵,混淆矩阵的每一行是样本的预测值,每一列是样本的真实值:
注意:有些教材把行列反一下,即每一列是样本的预测值,每一行是样本的真实值。
预测值 | |||
---|---|---|---|
Positive | Negtive | ||
实际值 | Positive | TP | FN |
Negtive | FP | TN |
分类的主要评价指标:
1.准确率(Accuracy)
准确率是分类问题中最简单也是最直观的评价指标,准确率是指分类正确的样本占总样本个数的比例,是针对所有样本的统计量。
2.精准率(Precision)
又称为查准率,代表对正样本结果的预测准确程度,具体公式如下:
精准率的含义就是在预测为正样本的结果中,有多少是准确的。这个指标比较谨慎,分类阈值较高。
3.召回率(Recall)
又称为查全率,是针对原始样本而言的一个评价指标。在实际为正样本中,被预测为正样本所占的百分比。具体公式如下:
召回率也是对部分样本的统计量,侧重对真实的正类样本的统计。4.F1 score
F1 score是精准率和召回率的调和平均值,它定义为:
F1分数可以看作是模型准确率和召回率的一种加权平均,它的最大值是1,最小值是0。
5.ROC曲线
ROC(Receiver Operating Characteristic)曲线,又称接受者操作特征曲线。ROC曲线的横轴为False Positive Rate,也叫伪阳率(FPR),即预测错误且实际分类为负的数量与所有负样本数量的比例,纵轴为True Positive Rate,也叫真阳率(TPR),即预测正确且实际分类为正的数量与所有正样本的数量的比例。
图7-7 ROC曲线样例
如何从ROC曲线看分类效果的好坏?ROC曲线越靠近左上角,效果越好。从图7-7中可以看出,越好的分类效果,曲线下的面积越大,曲线越靠近左上角。
6.AUC
AUC的全称是(Area Under ROC Curve),也就是ROC曲线下方的面积,AUC的范围是0到1,AUC越大,代表模型的性能越好。
7.P-R曲线
P-R曲线是描述精确率和召回率变化的曲线。P-R曲线刻画查准率和查全率(召回率)之间的关系,横轴为查全率,纵轴为查准率,查准率和查全率是一对矛盾的度量,一般来说,查准率高时,查全率往往偏低,查全率高时,查准率往往偏低。
图7-8 P-R曲线样例
模型与坐标轴围成的面积越大,则模型的性能越好。从图7-8中可以直接看出来。
这里有一个评价指标的案例:假设有100张照片,其中,猫的照片有60张,狗的照片是40张。
输入这100张照片进行二分类识别,找出这100张照片中的所有的猫。识别结果的混淆矩阵见表7-1:
表7-1 识别结果的混淆矩阵
预测值 | |||
---|---|---|---|
Positive | Negtive | ||
实际值 | Positive | TP = 40 | FN = 20 |
Negtive | FP = 10 | TN = 30 |
根据分类结果的混淆矩阵,可以得到分类结果的表格(表7-2)
表7-2分类结果
项目 | 符号 | 猫狗的例子 |
---|---|---|
识别出的正例 | TP + FP | 40+10=50 |
识别出的负例 | TN + FN | 30+20=50 |
总识别样本数 | TP + FP + TN + FN | 50+50=100 |
识别对了的正例与负例 | TP + TN | 40+30=70 |
识别错了的正例与负例 | FP + FN | 10+20=30 |
实际总正例数量 | TP + FN | 40+20=60 |
实际总负例数量 | TN + FP | 30+10=40 |
根据混淆矩阵,可以求得准确率、精确率、召回率等指标:
1.准确率
由于:
,所有样本数量为100,则准确率为:2.精确率
根据公式:
由于:
,
,则精确率为:3.召回率
由于:
,
。则召回率为:在4.4节中,已经讲解过过拟合和欠拟合问题,本章仅对如何处理过拟合和欠拟合问题进行总结。
1.过拟合的处理
通常有四种方法:
获得更多的训练数据
使用更多的训练数据是解决过拟合问题最有效的手段,因为更多的样本能够让模型学习到更多更有效的特征,减小噪声的影响。
降维
即丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征,或者使用一些模型选择的算法来帮忙(例如PCA)。降维将在后续章节中进行讲解。
正则化
正则化(Regularization)的技术,保留所有的特征,但是减少参数的大小,它可以改善或者减少过拟合问题。
集成学习方法
集成学习是把多个模型集成在一起,来降低单一模型的过拟合风险。集成学习将在后续章节进行讲解。
2.欠拟合的处理
通常有三种方法:
添加新特征
当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。通过挖掘组合特征等新的特征,往往能够取得更好的效果。
增加模型复杂度
简单模型的学习能力较差,通过增加模型的复杂度可以使模型拥有更强的拟合能力。例如,在线性模型中添加高次项,在神经网络模型中增加网络层数或神经元个数等。
减小正则化系数
正则化是用来防止过拟合的,但当模型出现欠拟合现象时,则需要有针对性地减小正则化系数。
在我们在训练模型的过程中,一般会使用一些正则化方法来防止过拟合。但是我们可能会使用的正则化的程度太高或太小了,即我们在选择
的值时也需要思考。图7-19可以看出,只有选择合适的正则化系数,才能得到合适的模型。图7-9 欠拟合模型(左)、合适的模型(中)和过拟合模型(右)
1.L1正则化和L2正则化
L1正则化和L2正则化的作用已经在4.4节中进行讲解,本节对两者进行总结。
L1正则化是指在损失函数中加入权值向量
的绝对值之和,L1正则化的功能是使权重稀疏:起到了特征选择的作用。设:
为模型的代价函数,为参数,为样本数,为特征数,为参数,代表预测值,为真实值,为正则化系数。则:L1正则化的公式:
在损失函数中加入权值向量
的平方和,L2的功能是使权重平滑,起到了减少过拟合的作用。L2正则化的公式:
2.Dropout正则化
Dropout的功能类似于L2正则化,与L2正则化的同的是,被应用的方式不同,Dropout也会有所不同,甚至更适用于不同的输入范围。常见的Dropout正则化,随机关闭一半的神经元,保留一半的神经元。
按照Hinton的原话,他的灵感来自于银行业务:
“我去银行办理业务。柜员不停的换人,于是我问其中给的一个人这是为什么。他说他不知道,但他们经常换来换去的。我猜想,银行工作人员想要成功欺诈银行,他们之间要互相合作才行,这让我意识到,在每个样本中随机删除不同的部分神经元,可以阻止他们的阴谋,因此可以降低过拟合。”
图7-10 Dropout正则化,随机关掉一定比例的神经元
3.Early stopping
Early stopping代表提早停止训练神经网络,Early stopping的优点是,只运行一次梯度下降,你可以找出
的较小值,中间值和较大值,而无需尝试正则化超级参数的很多值。图7-11 Early stopping方法的验证集误差和训练集误差
从图7-11中可以看出Early stopping方法的训练集误差一直在减小,而验证集误差达到一个最小值后就不再减小,反而开始增大,而Early stopping方法使验证集误差最小(图中的竖线位置)的时候停止训练。
4.数据增强(Data augmentation)
大部分的计算机视觉任务使用很多的数据,所以数据增强是经常使用的一种技巧来提高计算机视觉系统的表现。计算机视觉任务的数据增强通常以下方法实现:
(1) 随意翻转、镜像。
(2) 随意裁剪。
(3) 扭曲变形图片。
(4) 颜色转换,然后给R、G和B三个通道上加上不同的失真值。产生大量的样本,进行数据增强。
图7-12 通过随意翻转和裁剪、扭曲变形图片等方法进行数据增强
当运行一个机器学习算法时,如果这个算法的表现不理想,那么多半是出现两种情况:要么是偏差比较大,要么是方差比较大。换句话说,出现的情况要么是欠拟合,要么是过拟合问题。
1.方差(Variance)
方差描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。
方差越大,数据的分布越分散,如图7-11第一行所示,左边的图是低方差低偏差,这是最理想的结果,右边的图高方差低。
2.偏差(Bias)
偏差描述的是预测值(估计值)的期望与真实值之间的差距。
偏差越大,越偏离真实数据,如图7-13第二行所示,左边的图是低方差高偏差,右边的图高方差高偏差,这个是最差的结果。
图7-13偏差与方差
在我们在训练模型的过程中,一般会使用一些正则化方法来防止过拟合,但是如何选择合适的正则化系数
,从而在偏差和方差之间取得平衡。3.解决偏差和方差问题的方法
欠拟合,对应偏差高。显然,欠拟合就是本身拟合训练数据都不行,也就是训练误差也高,预测的值离真实值的距离就偏高。用模型复杂度来说,就是模型复杂度不够。
过拟合,对应方差高。也就是训练得到的模型太拟合训练数据了。不同的训练数据训练的模型效果波动很大。泛化能力弱。用模型复杂度来说,就是模型太复杂了。
图7-14 模型复杂度与误差
图7-14是模型复杂度与误差的关系,一般来说,随着模型复杂度的增加,方差会逐渐增大,偏差会逐渐减小,在虚线处,差不多是模型复杂度的最恰当的选择,其“偏差”和“方差”也都适度,才能”适度拟合”。
解决偏差和方差的方法通常有以下6种:
(1) 获得更多的训练样本——解决高方差。
(2) 尝试减少特征的数量——解决高方差。
(3) 尝试获得更多的特征——解决高偏差。
(4) 尝试增加多项式特征——解决高偏差。
(5) 尝试减少正则化系数
——解决高偏差。(6) 尝试增加正则化系数
——解决高方差。关键词:
Copyright 2015-2022 东方直播网 版权所有 备案号:沪ICP备2020036824号-8 联系邮箱:562 66 29@qq.com