网站建设市场占有率,免费网站成本,网站备案 注册用户,国际购物网站排名数据挖掘——回归算法 回归算法线性回归最小二乘法优化求解——梯度下降法逻辑回归逻辑回归函数逻辑回归参数估计逻辑回归正则化 决策树回归小结 回归算法
回归分析
如果把其中的一些因素#xff08;房屋面积#xff09;作为自变量#xff0c;而另一些随自变量的变化而变化… 数据挖掘——回归算法 回归算法线性回归最小二乘法优化求解——梯度下降法逻辑回归逻辑回归函数逻辑回归参数估计逻辑回归正则化 决策树回归小结 回归算法
回归分析
如果把其中的一些因素房屋面积作为自变量而另一些随自变量的变化而变化的变量作为因变量房价研究他们之间的非确定映射关系这种分析就称为回归分析。
回归分析是研究一个或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。
回归和分类的区别:
分类和回归的区别在于输出变量的类型。定量输出称为回归或者说是连续变量预测; 定性输出称为分类或者说是离散变量预测。
线性回归
线性回归假设特征和响应满足线性关系
一元线性回归问题函数关系可表示 y a b x yabx yabx
根据上式在确定a、b的情况下给定一个x值我们就能够得到一个确定的y值然而根据上式得到的y值与实际的y值存在一个误差a、b为参数(parameters)、或称回归系数(regression coefficients)
采用什么样的线性关系误差刻画更好呢
最小二乘法
基本思想保证直线与所有点接近 详细做法 若有n个样本点 x 1 y 1 , … , x n y n x_1y_1,… ,x_ny_n x1y1,…,xnyn可以用下面的表达式来刻画这些 点与直线yabx的接近程度: [ y 1 − ( a b x 1 ) ] 2 . . . [ y n − ( a b x n ) ] 2 [y_1-(abx_1)]^2...[y_n-(abx_n)]^2 [y1−(abx1)]2...[yn−(abxn)]2 使上式达到最小值的直线yabx就是所求的直线这种方法称为最小二乘法。
对a和b求偏导数可以得到: b x 1 y 1 . . . x n y n − n x ˉ y ˉ x 1 2 . . . x n 2 − n x ˉ 2 , a y ˉ − b x ˉ b\frac{x_1y_1...x_ny_n-n\bar x\bar y}{x_1^2...x_n^2-n\bar x^2},a\bar y-b\bar x bx12...xn2−nxˉ2x1y1...xnyn−nxˉyˉ,ayˉ−bxˉ
优化求解——梯度下降法
基本思想
向着梯度的反方向调整步长不能太大也不能太小 逻辑回归
逻辑回归函数 f ( x ) e x 1 e x f(x)\frac{e^x}{1e^{x}} f(x)1exex值域为[0,1]
逻辑回归参数估计 使用梯度下降方法迭代求解参数
逻辑回归正则化 W在数值上越小越好这样越能抵抗数据的扰动 L1倾向于使得w要么取1要么取0稀疏编码 L2倾向于使得w整体偏小(岭回归)
L1适合挑选特征 L2也称为岭回归有很强的概率意义
决策树回归
决策树是将空间用超平面进行划分的一种方法每次分割的时候都将当前的空间一分为二 这样使得每一个叶子节点都是在空间中的一个不相交的区域在进行决策的时候会根据输入样本每一维feature的值一步一步往下最后使得样本落入N个区域中的一个假设有N个叶子节点如下图所示。 既然是决策树那么必然会存在以下两个核心问题如何选择划分点如何决定叶节点的输出值——决策树分类选择划分点使得信息增益最大叶节点输出即类别 一个回归树对应着输入空间即特征空间的一个划分以及在划分单元上的输出值。分类树中采用信息增益等方法通过计算选择最佳划分点。而在回归树中采用的是启发式的方法。
小结