整理

Q1、为什么需要模型评估与选择？评估选择过程中干了啥？

由于需要根据一定标准选择适当模型，而训练误差因为过拟合的不可避免而不适合作为这样的标准，所以需要另找模型评估的方法，分析评估需要衡量模型泛化能力的性能度量、比较检验方法比较统计意义上泛化性能的优劣，以及偏差-方差分解来分析泛化误差。

Q2、为什么过拟合是无法避免的？

面对NP难或者更难得问题，有效的学习算法必然是在多显示时间内运行完成，若可彻底避免过拟合，则只需将经验误差最小化为0即可获得最优解，这意味着构造性地证明了P=NP 。因此，只要相信P\ne NP ，就意味着过拟合无法避免。

Q3、P-R曲线的平衡点是如何反映学习器的性能的？

平衡点越靠近右上角的点（1，1），表示能同时将查准率与查全率维持在较高的水平

Q4、ROC曲线是怎么得来的？

将所有点，按照预测值从大到小排序，初始点设为(x_1,y_1)=(0,0) ，假实际上有m^+ 个正例和m^- 个反例，则对于i=2,3,4,...,m ，若第i-1 个样本为真正例，则(x_{i+1},y_{i+1})=(x_i,y_i+\frac1 {m^+}) ，若为假正例，则(x_{i+1},y_{i+1})=(x_i+\frac1 {m^-},y_i) ，求得\{(x_1,y_1),...,(x_m,y_m)\} 后，连接，则得到ROC曲线

Q5、代价曲线是怎么得来的？如何反映某条件下的期望总体代价？如何反映所有条件下的期望总体代价？

Q6、McNemar检验的原理？

Q7、Friedman检验原理？Nemenyi检验原理？

Q8、偏差-方差分解公式的推导