diff --git a/bayes/README.md b/bayes/README.md index effa14a..7e44539 100644 --- a/bayes/README.md +++ b/bayes/README.md @@ -3,12 +3,12 @@ 叶斯分类器是一种概率框架下的统计学习分类器,对分类任务而言,假设在相关概率都已知的情况下,贝叶斯分类器考虑如何基于这些概 率为样本判定最优的类标。在开始介绍贝叶斯决策论之前,我们首先来回顾下概率论委员会常委--贝叶斯公式。 -![条件概率](http://index.zeekling.cn/data/Pictures/gogs/ml/bayes/1.png)
+![条件概率](https://img.zeekling.cn/images/2020/04/25/1.png)
### 条件概率 朴素贝叶斯最核心的部分是贝叶斯法则,而贝叶斯法则的基石是条件概率。贝叶斯法则如下: -![条件概率](http://index.zeekling.cn/data/Pictures/gogs/ml/bayes/0.png)
+![条件概率](https://img.zeekling.cn/images/2020/04/25/0.png)
对于给定的样本x,P(x)与类标无关,P(c)称为类先验概率,p(x | c )称为类条件概率。这时估计后验概率P(c | x)就变成为 估计类先验概率和类条件概率的问题。对于先验概率和后验概率,在看这章之前也是模糊了我好久,这里普及一下它们的基本概念。 @@ -19,7 +19,7 @@ 实际上先验概率就是在没有任何结果出来的情况下估计的概率,而后验概率则是在有一定依据后的重新估计,直观意义上后验概率就是条 件概率。 -![pic](http://index.zeekling.cn/data/Pictures/gogs/ml/bayes/2.png)
+![pic](https://img.zeekling.cn/images/2020/04/25/2.png)
回归正题,对于类先验概率P(c),p(c)就是样本空间中各类样本所占的比例,根据大数定理(当样本足够多时,频率趋于稳定等于其 概率),这样当训练样本充足时,p(c)可以使用各类出现的频率来代替。因此只剩下类条件概率p(x | c ),它表达的意思是在类别c中 @@ -32,7 +32,7 @@ 参数为θ的分布,问题就变为根据已知的训练样本来估计θ。极大似然法的核心思想就是:估计出的参数使得已知样本出现的概率最大,即 使得训练数据的似然最大。 -![pic](http://index.zeekling.cn/data/Pictures/gogs/ml/bayes/3.png)
+![pic](https://img.zeekling.cn/images/2020/04/25/3.png)
所以,贝叶斯分类器的训练过程就是参数估计。总结最大似然法估计参数的过程,一般分为以下四个步骤: @@ -43,7 +43,7 @@ 例如:假设样本属性都是连续值,p(x | c )服从一个多维高斯分布,则通过MLE计算出的参数刚好分别为: -![pic](http://index.zeekling.cn/data/Pictures/gogs/ml/bayes/4.png)
+![pic](https://img.zeekling.cn/images/2020/04/25/4.png)
上述结果看起来十分合乎实际,但是采用最大似然法估计参数的效果很大程度上依赖于作出的假设是否合理,是否符合潜在的真实数据分 布。这就需要大量的经验知识,搞统计越来越值钱也是这个道理,大牛们掐指一算比我们搬砖几天更有效果。 @@ -53,17 +53,17 @@ 训练样本往往覆盖不够,参数的估计会出现很大的偏差。为了避免这个问题,朴素贝叶斯分类器(naive Bayes classifier)采用了“属 性条件独立性假设”,即样本数据的所有属性之间相互独立。这样类条件概率p(x | c )可以改写为: -![pic](http://index.zeekling.cn/data/Pictures/gogs/ml/bayes/5.png)
+![pic](https://img.zeekling.cn/images/2020/04/25/5.png)
这样,为每个样本估计类条件概率变成为每个样本的每个属性估计类条件概率。 -![pic](http://index.zeekling.cn/data/Pictures/gogs/ml/bayes/6.png)
+![pic](https://img.zeekling.cn/images/2020/04/25/6.png)
相比原始贝叶斯分类器,朴素贝叶斯分类器基于单个的属性计算类条件概率更加容易操作,需要注意的是:若某个属性值在训练集中和某 个类别没有一起出现过,这样会抹掉其它的属性信息,因为该样本的类条件概率被计算为0。因此在估计概率值时,常常用进行平滑( smoothing)处理,拉普拉斯修正(Laplacian correction)就是其中的一种经典方法,具体计算方法如下: -![pic](http://index.zeekling.cn/data/Pictures/gogs/ml/bayes/7.png)
+![pic](https://img.zeekling.cn/images/2020/04/25/7.png)
当训练集越大时,拉普拉斯修正引入的影响越来越小。对于贝叶斯分类器,模型的训练就是参数估计,因此可以事先将所有的概率储存好 ,当有新样本需要判定时,直接查表计算即可。 diff --git a/svm/README.md b/svm/README.md index 80812dc..054191e 100644 --- a/svm/README.md +++ b/svm/README.md @@ -8,6 +8,6 @@ ## 超平面 -![超平面公式](http://index.zeekling.cn/gogsPics/ml/supportVectorMachine/20170817153338491.png) +![超平面公式](https://img.zeekling.cn/images/2020/04/25/20170817153338491.png)