习题

4.1试证明对于不含冲突数据(即特征向量完全相同但标记不同)的训练集,比存在与训练集一致(即训练误差为0)的决策树
4.2试分析使用“最小训练误差”作为决策树划分选择准则的缺陷
4.3试编程实现基于信息熵进行划分选择的决策树算法,并为表4.3中数据生成一棵决策树
4.4试编程实现基于基尼指数进行划分选择的决策树算法,为表4.2中数据生成预剪枝、后剪枝决策树,并与未剪枝决策树进行比较
4.5试编程实现基于对率回归进行划分选择的决策树算法,并为表4.3中数据生成一棵决策树
4.6试选择4个UCI数据集,对上述3种算法所产生的未剪枝、预剪枝、后剪枝决策树进行实验比较,并进行适当的统计显著性检验
4.7图4.2是一个递归算法,若面临巨量数据,则决策树的层数会很深,则用递归方法容易导致“栈”溢出,试使用“队列”数据结构,以参数MaxDepth控制数的最大深度,写出与图4.2等价、但不使用递归的决策树生成算法
4.8试将决策树生成的深度优先搜索过程修改为广度优先搜索,以参数MaxNode控制数的最大节点数,将题4.7中基于队列的决策树算法进行改写。对比题4.7中的算法,试析哪种方式更易于控制决策树所需存储不超出内存
4.9试将4.4.2节对缺失值处理机制推广到基尼指数的计算中去
4.10从网上下载或自己编程实现任意一种多变量决策树算法,并观察其在西瓜数据集3.0上产生的结果