修复决策树问题

2020-04-25 15:04:12 +08:00 · 2020-04-25 15:04:12 +08:00 · a30a3d6e46
commit a30a3d6e46
parent 380d68ac33
1 changed files with 13 additions and 13 deletions
--- a/decisionTree/README.md
+++ b/decisionTree/README.md
@ -7,7 +7,7 @@
 别设为该节点所含样本最多的类别；(3) 当前结点包含的样本集合为空，不能划分，这时也将该节点标记为叶节点，并将其类别设为父节
 点中所含样本最多的类别。算法的基本流程如下图所示：

-![pic](http://index.zeekling.cn/gogsPics/ml/decisionTree/20170121190335075.png)<br>
+![pic](https://img.zeekling.cn/images/2020/04/25/20170121190335075.png)<br>

 可以看出：决策树学习的关键在于如何选择划分属性，不同的划分属性得出不同的分支结构，从而影响整颗决策树的性能。属性划分的目
 标是让各个划分出来的子节点尽可能地“纯”，即属于同一类别。
@ -23,7 +23,7 @@
 ### 信息熵
 ID3算法使用信息增益为准则来选择划分属性，“信息熵”(information entropy)是度量样本结合纯度的常用指标，假定当前样本集合D中
 第k类样本所占比例为pk，则样本集合D的信息熵定义为：
-![信息熵](http://index.zeekling.cn/gogsPics/ml/decisionTree/20170121190335076.png)
+![信息熵](https://img.zeekling.cn/images/2020/04/25/20170121190335076.png)

 信息熵特点
 > 1. 不同类别的概率分布越均匀，信息熵越大；
@ -34,7 +34,7 @@ ID3算法使用信息增益为准则来选择划分属性，“信息熵”(info
 假定通过属性划分样本集D，产生了V个分支节点，v表示其中第v个分支节点，易知：分支节点包含的样本数越多，表示该分支节点的影响
 力越大。故可以计算出划分后相比原始数据集D获得的“信息增益”（information gain）。

-![信息增益](http://index.zeekling.cn/gogsPics/ml/decisionTree/20170121190335077.png)<br>
+![信息增益](https://img.zeekling.cn/images/2020/04/25/20170121190335077.png)<br>
 信息增益越大，表示使用该属性划分样本集D的效果越好，因此ID3算法在递归过程中，每次选择最大信息增益的属性作为当前的划分属性。

 ### C4.5算法
@ -42,14 +42,14 @@ ID3算法存在一个问题，就是偏向于取值数目较多的属性，例
 支只有一个样本，这样划分后的信息熵为零，十分纯净，但是对分类毫无用处。因此C4.5算法使用了“增益率”（gain ratio）来选择划分
 属性，来避免这个问题带来的困扰。首先使用ID3算法计算出信息增益高于平均水平的候选属性，接着C4.5计算这些候选属性的增益率，
 增益率定义为：
-<br>![pic](http://index.zeekling.cn/gogsPics/ml/decisionTree/20170121190335078.png)<br>
+<br>![pic](https://img.zeekling.cn/images/2020/04/25/20170121190335078.png)<br>

 ### cart算法
 CART决策树使用“基尼指数”（Gini index）来选择划分属性，基尼指数反映的是从样本集D中随机抽取两个样本，其类别标记不一致的概
 率，因此Gini(D)越小越好，基尼指数定义如下：
-<br>![pic](http://index.zeekling.cn/gogsPics/ml/decisionTree/20170121190335079.png)<br>
+<br>![pic](https://img.zeekling.cn/images/2020/04/25/20170121190335079.png)<br>
 进而，使用属性α划分后的基尼指数为：
-<br>![pic](http://index.zeekling.cn/gogsPics/ml/decisionTree/20170121190335080.png)<br>
+<br>![pic](https://img.zeekling.cn/images/2020/04/25/20170121190335080.png)<br>

 ## 剪枝处理
 从决策树的构造流程中我们可以直观地看出：不管怎么样的训练集，决策树总是能很好地将各个类别分离开来，这时就会遇到之前提到过
@ -62,9 +62,9 @@ CART决策树使用“基尼指数”（Gini index）来选择划分属性，基
 测试集。预剪枝表示在构造数的过程中，对一个节点考虑是否分支时，首先计算决策树不分支时在测试集上的性能，再计算分支之后的性
 能，若分支对性能没有提升，则选择不分支（即剪枝）。后剪枝则表示在构造好一颗完整的决策树后，从最下面的节点开始，考虑该节点
 分支对模型的性能是否有提升，若无则剪枝，即将该节点标记为叶子节点，类别标记为其包含样本最多的类别。
-<br>![pic](http://index.zeekling.cn/gogsPics/ml/decisionTree/20170121190335081.png)<br>
-<br>![pic](http://index.zeekling.cn/gogsPics/ml/decisionTree/20170121190335082.png)<br>
-<br>![pic](http://index.zeekling.cn/gogsPics/ml/decisionTree/20170121190335083.png)<br>
+<br>![pic](https://img.zeekling.cn/images/2020/04/25/20170121190335081.png)<br>
+<br>![pic](https://img.zeekling.cn/images/2020/04/25/20170121190335082.png)<br>
+<br>![pic](https://img.zeekling.cn/images/2020/04/25/20170121190335083.png)<br>
 上图分别表示不剪枝处理的决策树、预剪枝决策树和后剪枝决策树。预剪枝处理使得决策树的很多分支被剪掉，因此大大降低了训练时间
 开销，同时降低了过拟合的风险，但另一方面由于剪枝同时剪掉了当前节点后续子节点的分支，因此预剪枝“贪心”的本质阻止了分支的展
 开，在一定程度上带来了欠拟合的风险。而后剪枝则通常保留了更多的分支，因此采用后剪枝策略的决策树性能往往优于预剪枝，但其自
@ -78,17 +78,17 @@ D与连续属性α，二分法试图找到一个划分点t将样本集D在属性
 > * 计算每一个划分点划分集合D（即划分为两个分支）后的信息增益。
 > * 选择最大信息增益的划分点作为最优划分点。

-<br>![pic](http://index.zeekling.cn/gogsPics/ml/decisionTree/20170121190335084.png)<br>
+<br>![pic](https://img.zeekling.cn/images/2020/04/25/20170121190335084.png)<br>
 现实中常会遇到不完整的样本，即某些属性值缺失。有时若简单采取剔除，则会造成大量的信息浪费，因此在属性值缺失的情况下需要解
 决两个问题：（1）如何选择划分属性。（2）给定划分属性，若某样本在该属性上缺失值，如何划分到具体的分支上。假定为样本集中的
 每一个样本都赋予一个权重，根节点中的权重初始化为1，则定义：
-<br>![pic](http://index.zeekling.cn/gogsPics/ml/decisionTree/20170121190335085.png)<br>
+<br>![pic](https://img.zeekling.cn/images/2020/04/25/20170121190335085.png)<br>
 对于（1）：通过在样本集D中选取在属性α上没有缺失值的样本子集，计算在该样本子集上的信息增益，最终的信息增益等于该样本子集
 划分后信息增益乘以样本子集占样本集的比重。即：
-<br>![pic](http://index.zeekling.cn/gogsPics/ml/decisionTree/20170121190335086.png)<br>
+<br>![pic](https://img.zeekling.cn/images/2020/04/25/20170121190335086.png)<br>
 对于（2）：若该样本子集在属性α上的值缺失，则将该样本以不同的权重（即每个分支所含样本比例）划入到所有分支节点中。该样本在
 分支节点中的权重变为：
-<br>![pic](http://index.zeekling.cn/gogsPics/ml/decisionTree/20170121190335087.png)<br>
+<br>![pic](https://img.zeekling.cn/images/2020/04/25/20170121190335087.png)<br>


 ## 优缺点