网站建设飠金手指排名十二,安徽网站开发培训,百度快速收录3元一条,建设个网站多少钱目录 1 先从一个例题出来#xff0c;预期值和现实值的差异怎么评价#xff1f;
1.1 这样一个问题
1.2 我们的一般分析
1.3 用到的关键点1
1.4 但是差距多远#xff0c;算是远呢#xff1f;
2 极大似然估计
2.1 极大似然估计的目的
2.1.1 极大似然估计要解决什么问题…目录 1 先从一个例题出来预期值和现实值的差异怎么评价
1.1 这样一个问题
1.2 我们的一般分析
1.3 用到的关键点1
1.4 但是差距多远算是远呢
2 极大似然估计
2.1 极大似然估计的目的
2.1.1 极大似然估计要解决什么问题
2.1.2 极大似然估计的原则
2.2 什么是极大似然估计
2.2.1 定义
2.2.2 似然率likehood
2.3 如何理解
2.4 如何落地具体用什么来验证极大似然估计 K2检验
3 K2检验 (K^2检验K^2显著度检验)
3.1 K2检验
3.2 K2值de公式
3.3 K2值de判断逻辑
3.4 具体步骤
3.5 K2值表
3.5.1 K2分布表
3.5.2 特点
3.6 K2分布的曲线
3.6.1 曲线图形
3.6.2 特点
3.7 K2检验有2个要素
3.8 K2检验的过程
3.8.1 K2值独立检验
4 对数回归
4.1 什么叫对数回归 logit regression
4.1.1 似然率likehood
4.1.2 从概率到→发生率
4.1.3 发生率的对然对数回归
5 为什么要用对数回归
5.1 线性回归的局限性
5.1.1 具体举个例子
5.2 什么原因引起的
5.3 怎么解决
5.3.1 解决办法
5.3.2 对数回归的方法 logit regression
5.3.3 概率转化为发生率后发生率的变化不对称
6 和机器学习的sigmoid函数也叫逻辑函数的关系待完善 1 先从一个例题出来预期值和现实值的差异怎么评价
1.1 这样一个问题
SPSS还有戏说统计那本数上都有 一个关于员工其实的数据例子其中假设有这么一些数据 整体员工里黑人和白人的比例6040 经理员工里黑人和白人的比例420 那么我们简单一看就知道这两者比例不一样那么这两者差距够大吗是否可以作为黑人被歧视的证据之一呢 1.2 我们的一般分析
第1我们先有现在的这个现实数据了但是我们不知道是否合理第2我们假设每个人都是平等的有成为经理的可能性。先假设前提55开也就是每个黑人和白人都是50%可能成为经理那么假设员工人数里就是合理现状往下推论
现实的世界SUM24, 经理的现状4/20按50%推测世界(60*0.530) / (20*0.510)3:1 ,SUM里应该分布是18/6
实际的和我们推测的数据差异很大从而说明有问题应然和实然差距太远 1.3 用到的关键点1
现实值和预期值的差异就是关键
现实值VS预期值对比现实的世界 / 实然的世界按50%推测世界/ 应然的世界 1.4 但是差距多远算是远呢
这就需要用到假设检验了假设检验的方法就是一般设定原假设两者没差异H0。然后给定一个我们能接受的显著度比如5%双边检验。如果我们检验出来的值对应的概率大于5%我们就接受原接受。如果对应的概率小于我们设定的显著度那我们认为在H0的假设下现实已经发生的是小概率事件不应该发生从而拒绝原假设。 2 极大似然估计
2.1 极大似然估计的目的
上面引出的问题预期值和现实值的差异怎么评价就是极大似然估计要解决的问题 2.1.1 极大似然估计要解决什么问题
极大似然估计要解决什么问题是用来判断预期值和现实值之前的差距从而去推测过去应该是什么样子 2.1.2 极大似然估计的原则
极大似然估计的原则现实一定是对应过去发生最大的概率的分支如果按照H0假设推测发现已经存在的现实并不是最大概率小于显著度那么就拒绝原假设 2.2 什么是极大似然估计
2.2.1 定义
定义在现实已经发生的基础上去回溯到过去推测过去的某个时刻自然量和因变量是什么样的关系时现实的发生概率最大这个推测过程就是极大似然估计
简单定义
过去最大概率对应的那个分支极有可能就是现实现实就是过去发生的各种可能里概率最大的那种情况 2.2.2 似然率likehood
现在的可能性—针对是未来概率probility过去的可能性—针对是过去似然率likehood 2.3 如何理解 可以认为是一个类似坐上时光机去回溯或者就是思想试验的东西 这个思想试验是一个模型就是认为现在往回去倒推过去自变量和因变量的关系现实应该是其中发生概率最大的可能对应的那个事件。如果推导不是这也那就错了。这个就是极大似然估计。 2.4 如何落地具体用什么来验证极大似然估计 K2检验
见下面 3 K2检验 (K^2检验K^2显著度检验)
3.1 K2检验
chi-square test of independenceK2检验和 自由度 高度相关K2就是chi-square也就是 “ chi 的平方值 ” 3.2 K2值de公式
K2Σ(观察值-预期值)^2/预期值K2(O1-E1)^2/E1(O2-E2)^2/E2….. (On-En)^2/En 3.3 K2值de判断逻辑
需要查表根据当前的df概率值的 二维交叉表可以查到当前的K2值在指定的df下其发生的概率大多是多大如果是小概率的事件就拒绝。因为极大概率不会发生这也就是极大似然估计的逻辑。 3.4 具体步骤
K2值是作为一个查表数值去一个 df*概率的二维交叉表里去差K2数值在那一列(df决定了行df和K2共同决定了列)这样反查概率。用概率率来判断如果概率很小证明是小概率事件发生可能性很小拒绝H0假设 3.5 K2值表
3.5.1 K2分布表
横轴行自由度DF纵轴列概率表中的值K2值
3.5.2 特点
自由度df越大自由的单元格就更多表里同样概率对应的K2值就会更大反过来说也就是出现较大K2值的概率就越大 3.6 K2分布的曲线
3.6.1 曲线图形
横轴表示K2值,x纵轴表示概率值,f(x)不同的曲线表示不同df对应的 K2-概率曲线--也就是图上的K参数 看经典的K2的曲线。自由度比较小的时候单调下降自由度比较大之后就开始接近正态分布的钟形曲线了超过20接近正态 T值检验T值也和自由度有关系但关系比较松散不用太关心。因为T检验一般检验连续变量连续变量自由度很容易超过20一般不考虑这个限制。但是K2分布一定要看自由度DF一般自由度越大的K2曲线K2的值均值都会更大。 3.6.2 特点
可以看到变化
1 前面k1 k2的事后是个完全单调下降的曲线从df3开始就开始接近正态分布2 自由度越大越接近于正态分布3 在自由度比较大时比如df大于8大于20都可以比较多条曲线就是同样的K2值平行于纵轴的竖线与对应的不同曲线的相交点DF越大的曲线对应的概率越大。反过来说就是比较不同的自由度自由度越大的曲线对应同样的K2值其对应的纵轴的概率会越大 3.7 K2检验有2个要素
自由度K2值 3.8 K2检验的过程
3.8.1 K2值独立检验
先检验算出来了确定的K2值的结果下来判断 如果自由度小K2一般越大越表示发生的概率小。因而根据最大似然估计推测 现在不可能是小概率发生从而用K2检验拒绝了原来的假设。极大似然估计认为现在一定是 在过去那个事件点发生的概率最大 4 对数回归
4.1 什么叫对数回归 logit regression
对数回归即发生率的自然对数回归.是以过去的可能性/概率为因变量(/结果)的回归分析 这里面有很多子概念下面逐个拆解
过去的可能性/概率probility似然率 likehood发生率发生率的对然对数回归为什么要用对数回归 4.1.1 似然率likehood
现在的可能性—针对是未来概率probility过去的可能性—针对是过去似然率likehood 4.1.2 从概率到→发生率
我们这里不直接衡量过去事情的发生率α而是衡量其发生率发生率某个事件发生的概率/此事件不发生的概率α/(1-α) 4.1.3 发生率的对然对数回归
发生率的对然对数回归Ln(α/(1-α))这个才是对数回归中概率的测量单位: 发生率的自然对数。 5 为什么要用对数回归
因为线性回归经常会遇到问题 5.1 线性回归的局限性
有时候用线性回归会出现 负数系数负数截距等而这是逻辑上不可能的情况
比如上学年数是收入的负相关系数截距也为负等等还会出现概率超过1情况等等逻辑上很怪异的情况 5.1.1 具体举个例子
比如现实中的成绩只有 合格不合格两档次而且又没有具体的分数我们需要分析人们及格的概率需要怎么做呢如果我们这么设计 5.2 什么原因引起的
线性回归遇到问题的原因
原因1如果纯都是定量数据就没问题但是一旦里面混入了定性/定类数据就有了问题 比如分析模型里有年龄成绩这种定比数据还有男女是否经理这种定类数据都作为自变量时就有可能出现这样的情况原因2本身变量之间的关系就很复杂不适合用线性关系来描述原因3其他 5.3 怎么解决
5.3.1 解决办法
1 对数回归是方法之一用对数函数处理后结果还可以用线性表示
2 其他方法 5.3.2 对数回归的方法 logit regression
其实还是用的线性回归只是用对数函数做了中转。因为必须改成曲线回归如何做曲线回归很难而用对数可以变换成其他直线回归 5.3.3 概率转化为发生率后发生率的变化不对称 概率转化为发生率后发生率的变化不对称。但是发生率的自然对数。Log of it p/(1-p) 却是对称的正是利用了对数函数的这一效果。 概率转化为发生率后发生率的变化不对称。发生率不对称因为是比率分母分子变化不对等0.9/0.19 变化大发生率变化小0.99/0.01990.999/0.0019990.9999/0.00019999 微量变化小反而发生率变化很大。 转化为发生率的自然对数。Log of it ln(p/(1-p))e2.718所以用自然对数变成稳定的-4.5~4.5之间了 6 和机器学习的sigmoid函数也叫逻辑函数的关系待完善 【机器学习】逻辑回归原理极大似然估计逻辑函数Sigmod函数模型详解-腾讯云开发者社区-腾讯云在KNN算法中直接可以得出预测结果但是如果想输出预测结果还要输出预测结果的概率这时候就需要使用逻辑回归解决问题。https://cloud.tencent.com/developer/article/2450449https://zhuanlan.zhihu.com/p/696212659https://zhuanlan.zhihu.com/p/696212659