智慧团建登录网站入口,深圳集团网站建设哪家好,图片素材网站排行榜,农村自建房室内装修设计效果图统计学#xff1a;描述统计学和推断统计学。计量尺度#xff1a;定类尺度、定序尺度、定距尺度、定比尺度。 描述统计中的测度#xff1a; 1.数据分布的集中趋势 2.数据分布的离散程度 3.数据分布的形状。 离散系数 也称为标准差系数#xff0c;通常是用一组数据的标准差与…统计学描述统计学和推断统计学。计量尺度定类尺度、定序尺度、定距尺度、定比尺度。 描述统计中的测度 1.数据分布的集中趋势 2.数据分布的离散程度 3.数据分布的形状。 离散系数 也称为标准差系数通常是用一组数据的标准差与其平均数之比计算 C . V . s x ‾ C.V.\frac{s}{\overline{x}} C.V.xs 离散系数的作用主要用于比较不同总体或样本数据的离散程度越小说明数据离散程度小。 四种概率抽样方法 1.简单随机抽样 从含有 N N N个元素的总体中抽取 n n n个元素作为样本使得每一个容量为 n n n的样本都拥有相同的概率被抽中。分为重复抽样和不重复抽样两种方法。2.分层抽样 在抽样之前先将总体的元素划分为若干层然后从各个层中抽取一定数量的元素组成一个样本。在分层时应使层内各元素差异尽量小层与层之间差异尽可能大。采取分层抽样时为了保持样本结构与总体结构相同通常采用按比例抽样按各层元素数占总体元素数的比例从中抽取样本。3.系统抽样先将总体中元素按某种顺序排列并按某种规则确定一个随机起点然后每隔一定的间隔抽取一个元素直至抽取 n n n个元素形成一个样本又称等距抽样或机械抽样。4.整群抽样在抽样之前先将总体的元素划分为若干群然后以群作为抽样单位从中抽取部分群再对抽中的各个群所包含的元素进行观察。 中心极限定理设从均值为 μ \mu μ方差为 σ 2 \sigma^2 σ2的任意一个总体中抽取容量为 n n n的随机样本则当 n n n充分大时样本均值 x ‾ \overline{x} x的抽样分布近似服从均值为 μ \mu μ方差为 σ 2 / n \sigma^2/n σ2/n的正态分布。 点估计的评价准则 无偏性样本估计量的数学期望应等于被估计总体参数的真值。对于总体的一个未知参数可以有不同的无偏估计量。有效性令 θ 1 ^ 和 θ 2 ^ \hat{\theta_1}和\hat{\theta_2} θ1^和θ2^是总体未知参数 θ \theta θ的两个无偏估计量所谓有效性是指样本容量 n n n相同的情况下 θ 1 ^ \hat{\theta_1} θ1^对应的观测值较 θ 2 ^ \hat{\theta_2} θ2^对应的观测值更为集中于 θ \theta θ的真值附近即 D ( θ 1 ^ ) D ( θ 2 ^ ) D(\hat{\theta_1})D(\hat{\theta_2}) D(θ1^)D(θ2^)则称 θ 1 ^ \hat{\theta_1} θ1^是较 θ 2 ^ \hat{\theta_2} θ2^有效的估计量。一致性当样本容量增大即当 n n n趋近于无穷大的时候要求 θ ^ \hat{\theta} θ^依概率收敛于 θ ^ \hat{\theta} θ^即 lim n → ∞ P ( ∣ θ ^ − θ ∣ ξ ) 1 ( ξ 为任意小的正数 ) \lim_{n \to \infty}P(|\hat{\theta}-\theta|\xi)1(\xi为任意小的正数) limn→∞P(∣θ^−θ∣ξ)1(ξ为任意小的正数) 区间估计 区间估计是在点估计的基础上根据给定的置信度估计总体参数取值范围的方法。影响因素有数据离散度、样本容量、置信水平。 在区间估计中由样本统计量所构成的总体参数的估计区间称为置信区间区间最小值称为置信下界区间最大值称为置信上界。一般的将构造置信区间的步骤重复很多次置信区间包含总体参数真值的次数所占的比例称为置信水平。 区间估计的步骤 (1)确定置信水平 ( 1 − α ) (1-\alpha) (1−α),然后查表确定其 z α / 2 z_{\alpha/2} zα/2值。(2)计算样本的均值 x ‾ \overline{x} x和标准差 σ x ‾ \sigma_{\overline{x}} σx。(3)确定置信区间: x ‾ ± z α / 2 ∗ σ x ‾ \overline{x}\pm z_{\alpha/2}*\sigma_{\overline{x}} x±zα/2∗σx。在相同置信水平下 n n n较大时置信区间较短区间估计精度较高。 (1)总体服从正态分布且总体方差 σ 2 \sigma ^2 σ2已知时样本均值 x ‾ \overline{x} x的抽样分布均为正态分布数学期望为总体均值 μ \mu μ方差为 σ 2 n \frac{\sigma ^2}{n} nσ2总体均值 μ \mu μ的置信区间 x ‾ ± z α / 2 ∗ σ n \overline{x} \pm z_{\alpha/2}*\frac{\sigma}{\sqrt{n}} x±zα/2∗n σ。 总体比例的区间估计 在大样本情况下用样本比例 p p p来代替 π \pi π这时总体比例 π \pi π的置信区间为 p ± z α / 2 p ( 1 − p ) / n p\pm z_{\alpha /2}\sqrt{p(1-p)/n} p±zα/2p(1−p)/n 假设检验的原理假设检验也成为显著性检验是事先作出一个关于总体参数的假设然后利用样本信息来判断原假设是否合理即判断样本信息与原假设是否有显著差异从而决定应接受或否定原假设的统计推断方法。 对总体作出的统计假设进行检验的方法依据是概率论中的在一次试验中小概率事件几乎不发生原理。 假设检验的步骤 (1)根据问题要求提出原假设 H 0 H_0 H0和备择假设 H 1 H_1 H1。(2)确定适当的检验统计量(根据中心极限定理)及相应的抽样分布。(3)选取显著性水平 α \alpha α确定原假设 H 0 H_0 H0的接受域和拒绝域。 显著性水平表示原假设 H 0 H_0 H0为真时拒绝 H 0 H_0 H0的概率即拒绝原假设所冒的风险。(4)计算检验统计量的值。(5)作出统计决策。 假设检验中的两类错误 第一类错误原假设 H 0 H_0 H0为真但作出拒绝原假设的判断也称弃真错误。 犯此类错误的概率用 α \alpha α表示所以也称 α \alpha α错误 P ( 拒绝 H 0 ∣ H 0 为真 ) α P(拒绝H_0|H_0为真)\alpha P(拒绝H0∣H0为真)α。 第二类错误原假设 H 0 H_0 H0为假但作出接受原假设的判断。 犯此类错误的概率用 β \beta β表示所以也称 β \beta β错误 P ( 接受 H 0 ∣ H 0 为假 ) β P(接受H_0|H_0为假)\beta P(接受H0∣H0为假)β。 假设检验中的P值 P值的含义 P值是指在原假设 H 0 H_0 H0为真时样本统计量落在其观测值以外的概率即表示在实际原假设为真的情况下拒绝 H 0 H_0 H0犯错误的概率也成为观测到的显著性水平或相关概率值。 P值和假设检验中的显著性水平的区别 P值有效的补充了 α \alpha α提供的关于检验结果可靠性的有限信息利用统计量根据显著性水平 α \alpha α作出决策如果拒绝原假设也仅仅知道决策犯错误的概率而P值则是犯错误的实际概率。 第十章 卡方 χ 2 \chi^2 χ2分布与拟合优度检验 1. χ 2 \chi^2 χ2统计量与分布: χ 2 ∑ ( f 0 − f e ) 2 f e \chi^2\sum\frac{(f_0-f_e)^2}{f_e} χ2∑fe(f0−fe)2, f 0 f_0 f0为某一类别的观测值频数 f e f_e fe为某一类别的期望值频数建立在原假设 H 0 H_0 H0成立的前提下 2. χ 2 \chi^2 χ2分布特征② χ 2 \chi^2 χ2分布与自由度有关自由度越小越向左边倾斜随着自由度的增加 χ 2 \chi^2 χ2分布将逐步趋近于对称即正态分布。一般认为 n n n45③数据呈右偏分布。 χ 2 \chi^2 χ2检验一般是单侧检验其尾部为拒绝域由显著性水平 α \alpha α决定。 拟合优度检验 1.概念用于检验原假设 H 0 H_0 H0是否正确而该原假设 H 0 H_0 H0通常表述为一个随机变量的总体分布服从一个特定的形式。拟合优度检验是检验随机样本的总体分布与某种特定分布拟合的程度也就是检验观测值与理论值之间的接近程度在一定的显著性水平上。 2.自由度的确定 d f k − m − 1 dfk-m-1 dfk−m−1 k k k为数据类别的个数 m m m为样本数据中估计的参数个数。 例10.2某公司工资数据如下工资段 20 − 30 , 30 − 40 , 40 − 50 , 50 − 60 , 60 − 70 , 70 − 80 , 80 − 90 20-30,30-40,40-50,50-60,60-70,70-80,80-90 20−30,30−40,40−50,50−60,60−70,70−80,80−90分别有 5 , 21 , 40 , 45 , 30 , 17 , 7 5,21,40,45,30,17,7 5,21,40,45,30,17,7人。试检验工资的分布是否服从均值为 55.03 55.03 55.03标准差为 13.56 13.56 13.56的正态分布( α 0.01 \alpha0.01 α0.01).。 第一步计算期望值频数 f e f_e fe (1)计算Z值选择40-50区间为例计算。 Z 1 X − μ σ 40 − 55.03 13.56 − 1.11 , Z 2 50 − 55.03 13.56 − 0.37 Z_1\frac{X-\mu}{\sigma}\frac{40-55.03}{13.56}-1.11,Z_2\frac{50-55.03}{13.56}-0.37 Z1σX−μ13.5640−55.03−1.11,Z213.5650−55.03−0.37 由Z值的几何意义我们知道-1.11,-0.37是数据偏离均值55.03的程度。 (2)求标准正态分布下-1.11~-0.37之间正态分布曲线下的面积求得为0.2222。 (3)期望值频数 f e f_e fe165*0.222236.663.。 第二步 χ 2 \chi^2 χ2检验 (1) H 0 H_0 H0总体服从正态分布 H 1 H_1 H1总体不服从正态分布 (2)查表得 χ 2 ( α 0.01 , d f 4 ) 13.277 \chi^2(\alpha0.01,df4)13.277 χ2(α0.01,df4)13.277 (3)计算 χ 2 \chi^2 χ2统计量 (4)因为 χ 2 \chi^2 χ23.942102 13.277没落在拒绝域内所以接受原假设即认为工资数据的分布是服从正态分布的。 相关与回归分析的关系 答联系先进行相关分析再进行回归分析只有在确定两变量存在着相关分析后才能分析两变量的回归分析。两变量间的相关程度越大研究回归才更有意义。通过相关分析可以大致判断现象与现象之间配合什么数学模型建立回归方程4分。 区别分析的目的不同相关分析主要分析变量之间有无关系有多大程度的关系回归分析用于构建有联系的变量间的回归模型用于推理变量之间的因果关系。相关分析的两个或两个以上的变量是随机变量。回归分析中的自变量是确定性的变量。4分 回归分析: 缺点样本容量 n n n较小时仅凭相关系数较大还不足以说明变量有密切关系当 n n n较大时相关系数绝对值容易偏小。 回归平方和 S S R ∑ ( y ^ − y ‾ ) 2 SSR\sum{(\hat{y}-\overline{y})^2} SSR∑(y^−y)2残差平方和 S S E ∑ ( y i − y ^ ) 2 SSE\sum{(y_i-\hat{y})^2} SSE∑(yi−y^)2总离差平方和 S S T S S R S S E SSTSSRSSE SSTSSRSSE。 最小二乘法 原理使观测值与估计值的离差平方和最小。 y y y的估计值 y ^ b 0 b 1 x \hat{y}b_0b_1x y^b0b1x b 1 n ∑ x y − ∑ x ∑ y n ∑ x 2 − ( ∑ x ) 2 , b 0 y ‾ − b 1 x ‾ b_1\frac{n\sum{xy-\sum{x}\sum{y}}}{n\sum{x^2}-(\sum{x})^2},b_0\overline{y}-b_1\overline{x} b1n∑x2−(∑x)2n∑xy−∑x∑y,b0y−b1x 多元线性回归的显著性检验 提假设 H 0 : β 1 β 2 ⋯ β m 0 , H 1 : H_0:\beta_1\beta_2\cdots\beta_m0,H_1: H0:β1β2⋯βm0,H1:至少一个回归系数不等于0。 计算统计量 F S S R / m S S E / n − m − 1 F\frac{SSR/m}{SSE/n-m-1} FSSE/n−m−1SSR/m,确定显著性水平和自由度为(m,n-m-1),找临界值 F α F_{\alpha} Fα。若 F F α FF_{\alpha} FFα拒绝 H 0 H_0 H0否则接受并说明所有自变量联合起来对因变量有显著影响。 回归系数的显著性检验 H 0 : β i 0 H_0:\beta_i0 H0:βi0自变量 x i x_i xi与因变量没有线性关系 确定 t t t检验的统计量和显著性水平若 ∣ t ∣ t α / 2 |t|t_{\alpha/2} ∣t∣tα/2拒绝 H 0 H_0 H0否则接受。 或者根据给定的P值与方差分析表中的P1值比较若P1P则说明该回归系数显著。 方差分析表 ①m—SSR–SSR/m②n-m-1—SSE—SSE/(n-m-1) 第十二章 时间序列分析 Q:什么是时间序列有哪些分类? A时间序列是指一个变量的观测值按照时间顺序排列而成的序列它反映了现象动态变化的过程和特点是研究事物发展趋势、规律以及进行预测的依据。分为绝对数、相对数、平均数时间序列。 Q:时间序列的组成因素及其模型 A组成因素长期趋势季节波动循环波动不规则波动。 乘法模型是假设时间序列各个构成部分对序列的影响均按照比例变化加法模型是假设这四种因素对时间序列的影响是可加的。 Q:对时间序列进行平滑以描述其趋势的方法有哪些 A:移动平均法是采用逐项递移的方法分别计算一系列移动的序时平均数形成一个新的派生序时平均数时间序列。指数平滑法通过对历史时间数列进行逐层平滑计算从而消除随机因素的影响识别现象基本变化趋势并以此来预测未来。 Q:常用时间序列预测方法 移动平均预测法、指数平滑预测法、线性趋势预测法、自回归预测模型、季节因素分析预测法。 有趋势序列的最小二乘法预测模型 1.线性趋势模型 Y t ^ a b t \hat{Y_t}abt Yt^abt t t t是时间标号 2.二次曲线趋势模型 Y t ^ a b t c t 2 \hat{Y_t}abtct^2 Yt^abtct2 有趋势序列的自回归预测模型 n n n阶自回归模型 Y t ^ A 0 A 1 Y t − 1 A 2 Y t − 2 ⋯ A n Y t − n \hat{Y_t}A_0A_1Y_{t-1}A_2Y_{t-2}\cdotsA_nY_{t-n} Yt^A0A1Yt−1A2Yt−2⋯AnYt−n 步骤①确实最大滞后值 n n n自由度 t − 2 n − 1 t-2n-1 t−2n−1。②利用表确定自回归方程和临界值③计算检验统计量 t a n − A n S a n t\frac{a_n-A_n}{S_{a_n}} tSanan−An/如果不拒绝原假设那么第 n n n个变量被舍弃重复该步骤。 什么是因子分析 因子分析是用少量集成后的互不相关的因子变量去解释大量统计变量的一种统计方法这种方法能以较少的因子变量和最小的信息损失来解释变量之间的结构。 因子分析的步骤 ①根据具体问题判断待分析的若干原始变量是否适合作因子分析并采用某些检验方法来判断数据是否符合分析要求②选择提取公因子的方法并按一定标准确定提取公因子的数目③考察公因子的可解释性并在必要时进行因子旋转以寻求最佳的解释方式④计算出因子得分等中间指标进一步分析使用。 巴特利特球度检验、反映象相关矩阵检验、KMO检验。 什么是方差分析基本思想和原理 方差分析就是针对一定因素分析总体的各个因素水平是否有差异。通过对因素水平间方差与因素水平内方差的比较当这两个方差的比值较小时方差分析的结果可以认为总体均值相同否则认为不同。 方差分析中的基本假定 方差分析的前提条件是讨论的总体服从正态分布其各个总体的方差相等并且选择的样本是相互独立的。 什么是聚类分析作用是什么 聚类分析主要用于辨别具有相似性的事物并根据彼此不同的特性加以聚类使同一类事物具有高度的相似性不同类事物具有较大的差异性。聚类分析能够从现有的样本数据出发按照他们的亲疏程度分成若干类并通过变量与变量的连接状况揭示在同一类别中不同变量或样本的亲疏程度。