This repository has been archived on 2020-04-25. You can view files and clone it, but cannot push or open issues or pull requests.
ml/decisionTree/README.md

7.8 KiB
Raw Blame History

决策树

决策树的构造

决策树的构造是一个递归的过程,有三种情形会导致递归返回:(1) 当前结点包含的样本全属于同一类别,这时直接将该节点标记为叶节 点,并设为相应的类别;(2) 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分,这时将该节点标记为叶节点,并将其类 别设为该节点所含样本最多的类别;(3) 当前结点包含的样本集合为空,不能划分,这时也将该节点标记为叶节点,并将其类别设为父节 点中所含样本最多的类别。算法的基本流程如下图所示:

pic

可以看出:决策树学习的关键在于如何选择划分属性,不同的划分属性得出不同的分支结构,从而影响整颗决策树的性能。属性划分的目 标是让各个划分出来的子节点尽可能地“纯”,即属于同一类别。

数学归纳算法(ID3)

信息增益

相关概念

  1. 熵:表示随机变量的不确定性。
  2. 条件熵:在一个条件下,随机变量的不确定性。
  3. 信息增益:熵 - 条件熵,在一个条件下,信息不确定性减少的程度!

信息熵

ID3算法使用信息增益为准则来选择划分属性“信息熵”(information entropy)是度量样本结合纯度的常用指标假定当前样本集合D中 第k类样本所占比例为pk则样本集合D的信息熵定义为 信息熵

信息熵特点

  1. 不同类别的概率分布越均匀,信息熵越大;
  2. 类别个数越多,信息熵越大;
  3. 信息熵越大越不容易被预测变化个数多变化之间区分小则越不容易被预测对于确定性问题信息熵为0p=1; E=p*logp=0
    相关理解:通俗理解信息熵条件熵

假定通过属性划分样本集D产生了V个分支节点v表示其中第v个分支节点易知分支节点包含的样本数越多表示该分支节点的影响 力越大。故可以计算出划分后相比原始数据集D获得的“信息增益”information gain

信息增益
信息增益越大表示使用该属性划分样本集D的效果越好因此ID3算法在递归过程中每次选择最大信息增益的属性作为当前的划分属性。

C4.5算法

ID3算法存在一个问题就是偏向于取值数目较多的属性例如如果存在一个唯一标识这样样本集D将会被划分为|D|个分支,每个分 支只有一个样本这样划分后的信息熵为零十分纯净但是对分类毫无用处。因此C4.5算法使用了“增益率”gain ratio来选择划分 属性来避免这个问题带来的困扰。首先使用ID3算法计算出信息增益高于平均水平的候选属性接着C4.5计算这些候选属性的增益率, 增益率定义为:
pic

cart算法

CART决策树使用“基尼指数”Gini index来选择划分属性基尼指数反映的是从样本集D中随机抽取两个样本其类别标记不一致的概 率因此Gini(D)越小越好,基尼指数定义如下:
pic
进而,使用属性α划分后的基尼指数为:
pic

剪枝处理

从决策树的构造流程中我们可以直观地看出:不管怎么样的训练集,决策树总是能很好地将各个类别分离开来,这时就会遇到之前提到过 的问题过拟合overfitting即太依赖于训练样本。剪枝pruning则是决策树算法对付过拟合的主要手段剪枝的策略有两种如 下:

  • 预剪枝prepruning在构造的过程中先评估再考虑是否分支。
  • 后剪枝post-pruning在构造好一颗完整的决策树后自底向上评估分支的必要性。

评估指的是性能度量,即决策树的泛化性能。之前提到:可以使用测试集作为学习器泛化性能的近似,因此可以将数据集划分为训练集和 测试集。预剪枝表示在构造数的过程中,对一个节点考虑是否分支时,首先计算决策树不分支时在测试集上的性能,再计算分支之后的性 能,若分支对性能没有提升,则选择不分支(即剪枝)。后剪枝则表示在构造好一颗完整的决策树后,从最下面的节点开始,考虑该节点 分支对模型的性能是否有提升,若无则剪枝,即将该节点标记为叶子节点,类别标记为其包含样本最多的类别。
pic

pic

pic
上图分别表示不剪枝处理的决策树、预剪枝决策树和后剪枝决策树。预剪枝处理使得决策树的很多分支被剪掉,因此大大降低了训练时间 开销,同时降低了过拟合的风险,但另一方面由于剪枝同时剪掉了当前节点后续子节点的分支,因此预剪枝“贪心”的本质阻止了分支的展 开,在一定程度上带来了欠拟合的风险。而后剪枝则通常保留了更多的分支,因此采用后剪枝策略的决策树性能往往优于预剪枝,但其自 底向上遍历了所有节点,并计算性能,训练时间开销相比预剪枝大大提升。

连续值与缺失值处理

对于连续值的属性,若每个取值作为一个分支则显得不可行,因此需要进行离散化处理,常用的方法为二分法,基本思想为:给定样本集 D与连续属性α二分法试图找到一个划分点t将样本集D在属性α上分为≤t与t。

  • 首先将α的所有取值按升序排列所有相邻属性的均值作为候选划分点n-1个n为α所有的取值数目
  • 计算每一个划分点划分集合D即划分为两个分支后的信息增益。
  • 选择最大信息增益的划分点作为最优划分点。


pic
现实中常会遇到不完整的样本,即某些属性值缺失。有时若简单采取剔除,则会造成大量的信息浪费,因此在属性值缺失的情况下需要解 决两个问题1如何选择划分属性。2给定划分属性若某样本在该属性上缺失值如何划分到具体的分支上。假定为样本集中的 每一个样本都赋予一个权重根节点中的权重初始化为1则定义
pic
对于1通过在样本集D中选取在属性α上没有缺失值的样本子集计算在该样本子集上的信息增益最终的信息增益等于该样本子集 划分后信息增益乘以样本子集占样本集的比重。即:
pic
对于2若该样本子集在属性α上的值缺失则将该样本以不同的权重即每个分支所含样本比例划入到所有分支节点中。该样本在 分支节点中的权重变为:
pic

优缺点

  • 处理连续变量不好
  • 类型比较多的时候错误增加的比较快
  • 可规模性一般