整理

Q1、为什么需要模型评估与选择?评估选择过程中干了啥?
由于需要根据一定标准选择适当模型,而训练误差因为过拟合的不可避免而不适合作为这样的标准,所以需要另找模型评估的方法,分析评估需要衡量模型泛化能力的性能度量、比较检验方法比较统计意义上泛化性能的优劣,以及偏差-方差分解来分析泛化误差。
Q2、为什么过拟合是无法避免的?
面对NP难或者更难得问题,有效的学习算法必然是在多显示时间内运行完成,若可彻底避免过拟合,则只需将经验误差最小化为0即可获得最优解,这意味着构造性地证明了P=NP 。因此,只要相信P\ne NP ,就意味着过拟合无法避免。
Q3、P-R曲线的平衡点是如何反映学习器的性能的?
平衡点越靠近右上角的点(1,1),表示能同时将查准率与查全率维持在较高的水平
Q4、ROC曲线是怎么得来的?
将所有点,按照预测值从大到小排序,初始点设为(x_1,y_1)=(0,0) ,假实际上有m^+ 个正例和m^- 个反例,则对于i=2,3,4,...,m ,若第i-1 个样本为真正例,则(x_{i+1},y_{i+1})=(x_i,y_i+\frac1 {m^+}) ,若为假正例,则(x_{i+1},y_{i+1})=(x_i+\frac1 {m^-},y_i) ,求得\{(x_1,y_1),...,(x_m,y_m)\} 后,连接,则得到ROC曲线
Q5、代价曲线是怎么得来的?如何反映某条件下的期望总体代价?如何反映所有条件下的期望总体代价?
Q6、McNemar检验的原理?
Q7、Friedman检验原理?Nemenyi检验原理?
Q8、偏差-方差分解公式的推导