习题

4.1试证明对于不含冲突数据（即特征向量完全相同但标记不同）的训练集，比存在与训练集一致（即训练误差为0）的决策树

4.2试分析使用“最小训练误差”作为决策树划分选择准则的缺陷

4.3试编程实现基于信息熵进行划分选择的决策树算法，并为表4.3中数据生成一棵决策树

4.4试编程实现基于基尼指数进行划分选择的决策树算法，为表4.2中数据生成预剪枝、后剪枝决策树，并与未剪枝决策树进行比较

4.5试编程实现基于对率回归进行划分选择的决策树算法，并为表4.3中数据生成一棵决策树

4.6试选择4个UCI数据集，对上述3种算法所产生的未剪枝、预剪枝、后剪枝决策树进行实验比较，并进行适当的统计显著性检验

4.7图4.2是一个递归算法，若面临巨量数据，则决策树的层数会很深，则用递归方法容易导致“栈”溢出，试使用“队列”数据结构，以参数MaxDepth控制数的最大深度，写出与图4.2等价、但不使用递归的决策树生成算法

4.8试将决策树生成的深度优先搜索过程修改为广度优先搜索，以参数MaxNode控制数的最大节点数，将题4.7中基于队列的决策树算法进行改写。对比题4.7中的算法，试析哪种方式更易于控制决策树所需存储不超出内存

4.9试将4.4.2节对缺失值处理机制推广到基尼指数的计算中去

4.10从网上下载或自己编程实现任意一种多变量决策树算法，并观察其在西瓜数据集3.0上产生的结果