63 lines
2.1 KiB
Markdown
63 lines
2.1 KiB
Markdown
![]() |
## 回归问题
|
|||
|
|
|||
|
## 线性回归
|
|||
|
### 统计量:描述数据特征
|
|||
|
#### 集中趋势衡量
|
|||
|
- 均值(平均数、平均值)
|
|||
|
- 中位数:排序,求中间数
|
|||
|
- 众数:出现次数最多的数
|
|||
|
|
|||
|
#### 离散程度衡量
|
|||
|
- 方差
|
|||
|
- 标准差
|
|||
|
|
|||
|
### 简单线性回归
|
|||
|
- 一个字变量、一个应变量
|
|||
|
|
|||
|
### 非线性回归
|
|||
|
- 概率
|
|||
|
|
|||
|
## 逻辑回归
|
|||
|
### 激活函数
|
|||
|
#### Sigmoid函数
|
|||
|
Sigmoid函数的定义:
|
|||
|

|
|||
|
;导数为:
|
|||
|

|
|||
|
|
|||
|
### 梯度上升算法
|
|||
|

|
|||
|
|
|||
|
此式便是梯度上升算法的更新规则,α是学习率,决定了梯度上升的快慢。可以看到与线性回归类似,只是增加了特征到结果
|
|||
|
的映射函数。
|
|||
|
|
|||
|
### 梯度下降算法
|
|||
|
|
|||
|
|
|||
|
### 非线性回归问题
|
|||
|
|
|||
|
|
|||
|
|
|||
|
### 回归中的相关度和决定系数
|
|||
|
|
|||
|
#### 皮尔逊相关系数(Pearson Correlation Coefficient)
|
|||
|
|
|||
|
1. 衡量两个值线性相关强度的量
|
|||
|
2. 取值范围:[-1,1]:正向相关:大于0,负向相关:小于 0,无相关性:=0
|
|||
|
|
|||
|

|
|||
|
|
|||
|
#### R平方值
|
|||
|
|
|||
|
1. 决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例
|
|||
|
2. 如R平方为0.8,则表示回归关系可以解释因变量80%的变异;即如果自变量不变,则因变量的变异程度会减少80%
|
|||
|
3. 简单线性回归:R^2=r*r
|
|||
|
|
|||
|

|
|||
|

|
|||
|
|
|||
|
##### R平方局限性
|
|||
|
R平方随着自变量的增大会变大,R平方和样本量是有关系的。所以,需要对R平方进行修正,修正方法为:
|
|||
|
|
|||
|

|