网站项目报价单模板,营销qq手机版,做国外购物网站,网站服务器 电信目录
1 为什么我们要搞出来这么多指标/参数#xff1f;
1.1 描述统计学为啥要搞出来这么多复杂的参数#xff1f;什么平均值等
1.2 所以#xff0c;需要用少数几个关键数据代表1群数据
1.2.1 平均值
1.2.2 平均值的问题#xff1a;方差
2 代表性的数据1#xff1a;…目录
1 为什么我们要搞出来这么多指标/参数
1.1 描述统计学为啥要搞出来这么多复杂的参数什么平均值等
1.2 所以需要用少数几个关键数据代表1群数据
1.2.1 平均值
1.2.2 平均值的问题方差
2 代表性的数据1均值
2.1 平均数
2.2 其他平均数
2.3 期望值 以概率为权重的 加权平均值
3 其他描述平均值的
3.1 中位数
3.2 四分之一分位数1/4分位数
3.3 众数
4 描述分散程度的指标方差标准差
4.1 方差var
4.1.1 方差公式
4.1.2 方差公式的由来为什么是这个平方和的公式
4.1.3 方差的核心
4.1.4 方差的问题
4.2 标准差 SD
5 标准值和概率
5.1 标准值
5.2 有了标准值才有标准正态分布和 标准化参数
5.3 标准值和概率
6 样本和总体的关系
6.1 两组指标/参数
6.2 我们的目的是通过样本认识总体
6.3 我们怎么从 样本的参数 获得总体的参数
6.3.1 总体均值和样本均值多次抽样时
6.3.2 总体均值和样本均值只有单个样本时
6.3.3 总体方差和样本方差无论单次还是多次
6.3.4 为什么要多一个“均方差”概念没有“均均值”呢
6.3.5 均方差的延申概念
7 上面的逻辑漏洞
7.1 有问题的地方
7.2 勉强说的过去的解释
7.3 但是更常见的情况下我们怎么办 用T分布 1 为什么我们要搞出来这么多指标/参数
1.1 描述统计学为啥要搞出来这么多复杂的参数什么平均值等
数据本身很多了但是我们的大脑进行数据处理时却不是越多越好所以我们需要寻转典型数据数据的代表
数据收集时越多越好但是进行数据处理时数据太多人的大脑并不好处理所以我们不能直接看原始数据而是从中提炼出一些代表性的数据比如早期统计学学家提出平均人也就是平均值的概念。作为数据的代表 1.2 所以需要用少数几个关键数据代表1群数据
均值代表数据的普通特征描述集中趋势方差代表数据的离散趋势描述分散趋势 1.2.1 平均值
用代表值/ 典型值来代表数据是有价值的平均值是具有代表性的而且是预测数据最合适的数据。只有这一组数据这一个变量时 1.2.2 平均值的问题方差
但是也有问题比如平均值相同的两组数可能实际样本数据相差很大所以除了描述平均程度的代表指标平均值还需要另外一个维度的代表 描述数据分散程度的指标。 2 代表性的数据1均值
2.1 平均数
算术平均数Mean(x1x2….xn)/n 2.2 其他平均数
几何平均数 sqrt开n次方 (x1x2….xn)加权平均数 p1*x1p2*x2....pn*xn调和平均数n/(1/x11/x2.......1/xn) 2.3 期望值 以概率为权重的 加权平均值
概率论里期望值平均值期望值 Σ pi*xi 3 其他描述平均值的
3.1 中位数
中位数永远处于X轴最小和最大中间50%位置的数。只需要找X轴即可
IF Odd,2 X (n/21)IF Even,2 ( X(n/2) X (n/21)) / 2 3.2 四分之一分位数1/4分位数
分位数分位图还有2分位5分 3.3 众数
众数出现次数最多的数频率直方图里最高的那个柱子对应的数就是。 4 描述分散程度的指标方差标准差 4.1 方差var
4.1.1 方差公式
方差偏差平方和/N方差(x1-mean)^2(x2-mean)^2…. (xn-mean)^2 / N方差 E(X)^2-E(X^2) 4.1.2 方差公式的由来为什么是这个平方和的公式
单个偏差某偏差某数据-平均值总偏差 然后把所有的偏差加和起来就是总的偏差 偏差和Σ(各数据-平均值)会导致互相抵消偏差的绝对值的和Σ(|各数据-平均值|) 理论上可以但是使用的比较少。偏差平方和Σ(各数据-平均值)^2方差偏差平方和/NΣ(各数据-平均值)^2/N 4.1.3 方差的核心
方差的核心把所有得误差加和起来直接求和抵消了偏差的绝对值的和用的比较少平方求和可以不抵消而且适合导数计算 4.1.4 方差的问题 因为方差是平方和/n数据会变大很多单位也会变奇怪比如 米→平方米还可以理解但是人数→平方人数就很难理解所以还是要用标准差。SDsqrt(var) 4.2 标准差 SD
SDsqrt(var) 5 标准值和概率
5.1 标准值 Sdxi (xi-mean)/sd用SD标准差的长度作为单位来衡量每个样本值和均值的差距大小作用可以比较不同量纲的人在对应的正态分布中的位置。而且很多分布二项分布等最后都可以趋近正态分布 5.2 有了标准值才有标准正态分布和 标准化参数
有了标准值才有标准正态分布和 标准化参数标准正态分布就是正态分布里的数值转化为标准值之后对应的分布图形 各种回归分析里的标准化参数非标准化参数1个X单位变化引起多数个单位Y的变化标准化参数1个X变化1个标准差(X的)引起Y多少个单位的标准差(Y的)Y的变化 5.3 标准值和概率 标准差对应概率具体就是 标准正态分布曲线下曲线下面的积分面积 概率 6 样本和总体的关系
6.1 两组指标/参数 总体的
(总体)均值均值(总体)方差方差(总体)标准差标准差 样本的
样本均值样本方差样本标准差均方差新概念 6.2 我们的目的是通过样本认识总体
从个体case→ 样本sample→ 总体population因为我们的目的不是为了得到样本的各种参数其实我们的目的本质是为了得到总体的各种参数 6.3 我们怎么从 样本的参数 获得总体的参数
但是样本的参数可以直接等于总体参数吗可以
也就是说是可以的但是都要绕一下
样本值的均值无法直接推断总体均值但是可以根据中心极限定理确定多次取样样本的均值的均值总体平均值样本方差, 小于总体方差 样本方差/N-1 总体方差 6.3.1 总体均值和样本均值多次抽样时
正态分布的第2点就是样本的平均值的分布也符合正态分布。并且样本平均值的均值总体平均值是无偏估计。而样本平均值的均值符合正态分布。和总体的分布没关系即使总体不符合正态分布是偏的。但是样本平均值的分布也是会符合正态分布的
样本的均值如果有多次试验样本均值的均值总体均值 6.3.2 总体均值和样本均值只有单个样本时
如果只有单次试验呢我们可以用 样本均值 和 总体标准差估计一个总体均值的范围 前提如果我们知道样本均值且知道总体的方差/标准差 我们如果只有1个样本少数样本虽然不能直接推算总体样本但是可以这么估计范围。 比如在95%区间内 总体均值-1.96*标准差/sqrt(n) 样本平均值总体均值-1.96*标准差/sqrt(n) 因此 总体平均值样本平均值1.96*标准差/sqrt(n) 总体平均值样本平均值-1.96*标准差/sqrt(n) 当样本数量n一直增大后 总体平均值样本平均值1.96*标准差/sqrt(n)样本平均值0 总体平均值样本平均值-1.96*标准差/sqrt(n) 样本平均值-0 总体平均值样本平均值 如果范围从95%→99%后形象的看为什么置信区间变大了 总体平均值样本平均值2.58 *标准差/sqrt(n) 总体平均值样本平均值-2.58 *标准差/sqrt(n) 范围变大95%-99%也就是置信区间变大了。而拒绝的空间α就很小了。 6.3.3 总体方差和样本方差无论单次还是多次
样本方差 Σ(xi-mean)^2/n 总体方差均方差 Σ(xi-mean)^2/(n-1) 总体方差 6.3.4 为什么要多一个“均方差”概念没有“均均值”呢
因为只有均方差把n修改为n-1了才可以等于总体方差而样本均值可以不修改公式直接总体均值或者预测一个总体均值访问所以没有均均值的概念 6.3.5 均方差的延申概念
均方差 Σ(xi-mean)^2/(n-1) 总体方差样本标准差sqrt(样本方差)均标准差 sqrt(均方差) 7 上面的逻辑漏洞
7.1 有问题的地方
我们样本数量少只知道样本的均值样本方差。因此我们无法用 多次样本均值的均值总体均值这样的大数定律去推导。我们可以上面的这个正态分布的区间去估计
但是这个估计还有一个逻辑上有问题的地方但是这里面用到的δ可不是样本的标准差而是总体的标准差我们连总体的均值都不知道怎么会知道总体的标准差这是个逻辑悖论 7.2 勉强说的过去的解释
而如果用样本的标准差去替代总体的也是个办法 因为 样本方差的分母从N改为(N-1)总体方差所以还是可以行得通的但是肯定是有误差的。 7.3 但是更常见的情况下我们怎么办 用T分布 如果承认我们不知道总体的均值也不知道总体的方差怎么办呢这是常见情况
如果像推测总体均值只要知道总体如果呈现正态分布不是偏的或者奇怪的就可以用T分布DF大于30T分布和正态分布类似。