概论

统计学习方法步骤：

1）得到一个有限的训练数据集合

2）确定包含所有可能的模型的假设空间，即学习模型的集合

3）确定模型选择的准则，即学习的策略

4）实现求解最优模型的算法，即学习的算法

5）通过学习方法选择最优模型

6）利用学习的最优模型对新数据进行预测或分析

基本概念

输入空间：输入空间是所有输入可能的取值的集合

特征空间：所有用来表示输入实例的特征向量的集合

输出空间：输出空间是所有输出可能的取值的集合

输入空间和特征空间需要加以区分吗？

有时不需加以区分，如西瓜数据集；有时需要区分，例如图像；模型实际上都是定义在特征空间上的。

按照输入变量和输出变量的类型，对问题加以分类

1）连续的输入和连续的输出——回归问题

2）输出变量为有限个离散变量的预测问题称为分类问题

3）输入与输出变量均为变量序列的预测问题称为标注问题

假设空间：所有由输入空间到输出空间的映射的集合称为假设空间

监督学习问题的形式化

监督学习分为学习与预测两个过程，由学习系统和预测系统完成

学习过程中，学习系统利用给定的训练数据集，通过学习或者训练得到模型，表示为条件概率分布或者决策函数

预测过程中，预测系统对给定的测试样本集中输入输入值，并模型给出相应的输出

统计学习三要素

方法=模型+策略+算法

1、模型

确定从何种假设空间中选择模型

例如决策函数集合F=\{f|Y=f(X)\},F=\{f|Y=f_\theta(X),\theta\in R^n\}

条件概率的集合F=\{P|P(Y|X)\},F=\{P|P_\theta(Y|X),\theta\in R^n\}

称前者为非概率模型，后者为概率模型

2、策略

确定用何种准则学习或者选择从假设空间中选择最优模型

1）损失函数和风险函数

用损失函数或者代价函数来度量一次预测的好坏的程度，记作L(Y,f(X))

用风险函数度量平均意义下模型预测的好坏

四种常见的损失函数

0-1损失函数（0-1 loss function）L(Y,f(X))=0\quad ifY=f(X),1\quad ifY\ne f(X)

平方损失函数（quadratic loss function）L(Y,f(X))=(Y-f(X))^2

绝对损失函数（absolute loss function）L(Y,f(X))=|Y-f(X)|

对数损失函数（logarithmic loss function）L(Y,P(Y|X))=-\log P(Y|X)

选定损失函数后，用期望风险（期望损失）来度量性能，学习的目标就是选择期望风险最小的模型

R_{exp}=E_p[L(Y,f(X))]=\int_{X\times Y}L(y,f(x))P(x,y)dxdy

其中P(X,Y) 是X,Y 的联合分布

与期望风险不同，期望风险是关于联合分布的期望损失，经验风险是关于训练样本集合的平均损失，当N充分大，经验风险趋近于期望风险

对于训练数据集T=\{(x_1,y_1),...,(x_N,y_N)\} ，模型f(X) 关于训练数据集的平均损失称为经验风险或者经验损失R_{emp}=\frac1N\sum_{i=1}^NL(y_i,f(x_i))

2）经验风险最小化与结构风险最小化

由于样本数目有限，所以要对经验风险进行一定的矫正，需要经验风险最小化和结构风险最小化两种策略

经验风险最小化策略

经验风险最小化认为使经验风险最小的模型就是最优模型，于是需要求解最优化问题\arg\min_{f\in F}\frac1N\sum_{i=1}^NL(y_i,f(x_i))

例子：模型是条件概率分布，损失函数是对数损失函数，则极大似然估计可以使经验风险最小化

缺点：当样本容量很小的时候，可能导致过拟合

结构风险最小化策略

在经验风险上加上正则化项，结构风险定义为R_{srm}=\frac1N\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)

结构风险最小化策略认为结构风险最小的模型就是最优模型，所以求解最优化问题\arg\min_{f\in F}\frac1N\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)

结构风险最小化的模型汪汪队训练数据以及未知的测试数据都有较好的预测

例子：模型是条件概率分布，损失函数是对数损失函数，正则化项是先验分布的负对数时，贝叶斯估计中的最大后验估计可使结构风险最小化

3、算法

具体由模型，策略决定，模型、策略、算法确定之后，统计学习方法也就确定了