第一章、统计学习方法概论

时间 : 17-06-02 评论 : 0 点击 : 909 次

统计学习概念

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。

从方法上看,统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。

监督学习是针对训练数据已有标签的学习(通常是人工打标签,成本高),准确率高;

无监督学习是针对训练数据无标签的学习,准确率较低,但由于不需要对数据打标签,成本低;

半监督学习则是在准确性和成本之间求得平衡,对部分数据打标签,大部分数据无标签;

强化学习又叫再励学习、评价学习。是指机器处于某个环境中,根据一定策略从可选动作中选择动作去作用于环境,从而改变环境和自身状态,同时会收到激励反馈,根据激励反馈继续选择下一步动作,以正向激励最大化为目标,在行动-激励的循环中学习到知识,改进行动方案以适应环境。

统计学习方法的三要素:模型(model)、策略(strategy)、算法(algorithm)

输入空间与输出空间:输入和输出的所有可能取值的集合。

特征空间:输入空间所有实例的特征向量的向量空间称为特征空间。

回归问题:输入变量与输出变量均为连续变量的预测问题。

分类问题:输出变量为有限个离散变量的预测问题。

标注问题:输入变量与输出变量均为变量序列的预测问题。标注问题的输出是一个向量,分类问题的输出是一个值。

输入x和输出y遵循联合概率分布的假设是监督学习关于数据的基本假设。

假设空间:模型是输入空间到输出空间映射的集合,这个集合就是假设空间。

损失函数(loss function):度量模型一次预测错误的程度,常用的有0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、对数似然损失函数。

风险函数(risk function):模型所有可能的真实样本的损失函数的期望。

经验风险(empirical risk):由于模型所有可能的真实样本的损失函数不可能知道(如果知道就意味着知道了所有可能样本输入对应的正确输出,就不需要预测了),通常用训练数据集的平均损失来评估模型好坏,称为经验风险。

经验风险最小化与结构风险最小化:当样本量足够大时,经验风险最小化能保证有很好的学习效果;当样本容量小时,经验风险最小化学习的效果可能不好,会产生过拟合(over-fitting)现象(所选模型的复杂度比真模型高),这时候需要引入结构风险最小化策略,结构风险等价于正则化(regularization),即加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term),对复杂的模型进行惩罚。

训练误差(training error)是训练数据集的平均损失,测试误差(test error)是测试数据集的平均损失。

对未知数据的预测能力称为泛化能力(generalization ability)

如果给定的样本数据充足,可以随机的将数据分为三部分,训练集(training set)、验证集(validation set)、测试集(test set)

如果给定的样本数据较少,可以采用交叉验证的方法,重复地使用数据,将数据分为训练集和测试集,反复训练、选择模型、测试。

简单交叉验证:随机将数据分为训练集和测试集

S折交叉验证(S-fold cross validation):随机将数据切分为S个互不相交大小相同的数据集,用S-1个用于训练模型,1个用于测试,对所有可能的S种选择重复进行,最后选出S次评测中平均测试误差最小的模型。

留一交叉验证:S折交叉验证的特殊情形S=N

泛化能力(generalization ability):指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。

泛化误差上界:泛化能力分析往往是通过研究泛化误差的概率上界来实现。

判别模型与生成模型:不是非常理解,后续理解了回来补充。

 

 

 

机器学习

第一章、统计学习方法概论:等您坐沙发呢!

发表评论