.. | ||
lego | ||
abalone.py | ||
abalone.txt | ||
ex0.txt | ||
lego.py | ||
log_regres.py | ||
multiple.csv | ||
multipleDummy.csv | ||
MultipleRegDelvery.py | ||
MultipleRegDelveryExample.py | ||
README.md | ||
regression_old.py | ||
regression.py | ||
SimpleLinearRegression.py | ||
testSet.txt | ||
线性模型.md |
回归问题
线性回归
统计量:描述数据特征
集中趋势衡量
- 均值(平均数、平均值)
- 中位数:排序,求中间数
- 众数:出现次数最多的数
离散程度衡量
- 方差
- 标准差
简单线性回归
- 一个字变量、一个应变量
非线性回归
- 概率
逻辑回归
激活函数
Sigmoid函数
梯度上升算法
此式便是梯度上升算法的更新规则,α是学习率,决定了梯度上升的快慢。可以看到与线性回归类似,只是增加了特征到结果 的映射函数。
梯度下降算法
非线性回归问题
回归中的相关度和决定系数
皮尔逊相关系数(Pearson Correlation Coefficient)
- 衡量两个值线性相关强度的量
- 取值范围:[-1,1]:正向相关:大于0,负向相关:小于 0,无相关性:=0
R平方值
- 决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例
- 如R平方为0.8,则表示回归关系可以解释因变量80%的变异;即如果自变量不变,则因变量的变异程度会减少80%
- 简单线性回归:R^2=r*r
R平方局限性
R平方随着自变量的增大会变大,R平方和样本量是有关系的。所以,需要对R平方进行修正,修正方法为: