习题

2.1数据集包含1000个样本，其中500个正例，500个反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

2.2数据集包含100样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数同时进行随机猜测），试给出10折交叉验证法和留一法分别对错误率进行评估所得的结果。

2.3若学习器A的F1值比学习器B高，是分析A的BEP值是否也比B高。

2.4试述真正例率、假正例率与查准率、查全率之间的联系。

2.5试证明式AUC=1-l_{rank} 。

2.6试述错误率与ROC曲线的联系。

2.7试证明任意一条ROC曲线都有一条代价曲线与之对应，反之亦然。

2.8Min-max规范化和z-score规范化是两种常用的规范化方法。令x和x'反别表示变量在规范化之前和规范化之后的取值，相应的，令x_{min},x_{max} 表示规范化后的最小值和最大值，\overline x,\sigma_x 分别表示规范化前的均值和标准差，则min-max规范化，z-score规范化分别如式x'=x'_{min}+\frac{x-x_{min}}{x_{max}-x_{min}}\times(x'{max}-x'_{min}),x'=\frac{x-\overline x}{\sigma_x} ，试述二折的优缺点。

2.9试述X^2 检验过程。

2.10试述Friedman检验中使用式

的区别。