如何做网站广告图片,好友介绍网站怎么做,怎样安装免费的wordpress,江宁网站建设多少钱文章目录【后续会持续更新CDA Level III备考相关内容#xff0c;敬请期待】【考试大纲】【考试内容】【备考资料】1、统计基本概念1.1、统计学的含义及应用1.1.1、统计学的含义1.2.1、统计学的应用1.2、统计学的基本概念1.2.1、数据及数据的分类1.2.2、总体和样本1.2.3、…
文章目录【后续会持续更新CDA Level III备考相关内容敬请期待】【考试大纲】【考试内容】【备考资料】1、统计基本概念1.1、统计学的含义及应用1.1.1、统计学的含义1.2.1、统计学的应用1.2、统计学的基本概念1.2.1、数据及数据的分类1.2.2、总体和样本1.2.3、参数和统计量1.2.4、变量2、数据的描述性统计2.1、描述性统计图表2.1.1、直方图2.1.2、散点图2.1.3、箱型图3、集中趋势的描述3.1、众数3.2、分位数及中位数3.3、平均数3.4.1、算数平均数3.4.2、几何平均数3.4.3、调和平均数4、离散程度的描述4.1、极差4.2、平均差4.3、方差与标准差4.4、离散系数4.5、相对位置的度量——标准化值5、分布形态的描述5.1、矩的相关概念5.2、偏态偏度计算公式的理解5.3、峰态峰度计算公式的理解【后续会持续更新CDA Level III备考相关内容敬请期待】
【考试大纲】 【考试内容】 【备考资料】
1、统计基本概念
1.1、统计学的含义及应用
1.1.1、统计学的含义
统计学的含义统计学是一门收集、处理、分析、解释数据并从数据中得出结论的学科。统计学是应用数学的一个分支主要通过利用概率论建立数学模型收集所观察系统的数据进行量化的分析、总结并进而进行推断和预测为相关决策提供依据和参考。统计学主要又分为描述统计学和推断统计学。 描述性统计分析研究数据收集、处理和描述的统计学方法如总体规模、对比关系、集中趋势、离散程度、偏态、峰态等。推断性统计分析研究如何利用样本数据来推断总体特征的统计学方法如估计、假设检验、列联分析、方差分析、相关分析、回归分析等。
1.2.1、统计学的应用
随着计算机的发展和各种统计软件的开发作为一门基础学科的统计学在金融、保险、生物、经济等领域得到了广泛应用
1.2、统计学的基本概念
1.2.1、数据及数据的分类 数据是统计学的分析对象。数据有不同的表现形式也有不同的分类。 数据的表现形式
数字可以进行比较、加减乘除四则运算等有严格的数据符号常用阿拉伯数字表示。文字不可运算例如男女好坏等
数据的分类
按照计量尺度分类 分类型数据对事物进行分类的结果特点是不可排序不可计算。如人的性别分为男、女顺序型数据对事物类别顺序的测度特点是可排序不可计算。如产品分为一等品、二等品、三等品数值型数据对事物的精确测度特点是可排序可计算。如身高175cm、180cm总结分类型数据和顺序型数据是定性数据数值型数据是定量数据等级自上而下。不同类型的数据之间可以进行转换处理低级数据的方法高级数据可以用处理高级数据的方法低级数据不能用。 按计量层次分类 定类数据这是数据的最低层。它将数据按照类别属性进行分类各类别之间是平等并列关系。这种数据不带数量信息并且不能在各类别间进行排序。例如红色、白色性别中的男、女定序数据这时数据的中间级别。定序数据不仅可以将数据分成不同的类别而且各类别之间还可以通过排序来比较优劣。也就是说定序数据与定类数据最主要的区别是定序数据之间还是可以比较顺序的定距数据。定距数据是具有一定单位的实际测量值如摄氏温度、考试成绩等。此时不仅可以知道两个变量之间存在差异还可以通过加、减法运算准确的计算出各变量之间的实际差距是多少。定比数据。这是数据的最高等级。它的数据表现形式同定距数据一样均为实际的测量值。定比数据与定距数据唯一的区别是在定比数据中是存在绝对零点的而定距数据中是不存在绝对零点的零点是人为制定的。因此定比数据间不仅可以比较大小进行加、减运算还可以进行乘、除运算。 按来源不同分类 直接来源一手数据原始资料间接来源二手资料次级资料 按收集方式不同分类 观测数据实验数据 按与时间的关系不同分类 时间序列数据它是指在不同的时间上搜集到的数据反映现象随时间变化的情况。截面型数据。它是指在相同的或近似的时间点上搜集到的数据描述现象在某一时刻的变化情况。面板数据混合数据、平行数据截面型数据。它是指在相同的或近似的时间点上搜集到的数据描述现象在某一时刻的变化情况。 按概型不同分类 离散型数据连续型数据 特殊的数据类型虚拟变变量数据在数据集中可能以集中方式出现 可以反映数据的固有属性如一家公司属于医疗行业虚拟变量1或者不属于医疗行业虚拟变量0 可能是数据的一个识别特征。可以通过一个为真或者为假的条件来引入这样的二进制变量。例如日期可能在2008年之前(金融危机爆发前虚拟变量 0)也可能在2008年之后(金融危机爆发后虚拟变量 1)可以由数据的某些特征构建。虚拟变量将反映一个或真或假的条件。比如特定的公司规模(如果营收超过10亿元虚拟变量 1否则 0)
1.2.2、总体和样本
总体population指研究的所有元素的集合其中每个元素称为个体。例如研究全校学生的平均年龄总体是全校学生。和总体相关的事物统计学上用希腊字母表示。样本sample从总体中抽取的一部分元素的集合。实际中总体的个体往往难以一一研究所以可以从中抽取一部分来进行研究。例如研究全校学生的平均年龄总体过大从中抽取100人进行研究样本就是抽取的这100个学生。和样本相关的事物统计学上用英文字母表示。样本容量构成样本的元素的数目称为样本容量。上面的例子中100就是样本容量。
1.2.3、参数和统计量
-参数parameter指研究者想要了解的总体的某种特征值主要有总体均值μ、总体标准差σ、总体比例π等。
统计量statistic指根据样本数据计算出来的一个量即样本的某个特征值。常见的统计量有样本均值x、样本标准差S、样本比例p等。
1.2.4、变量
概念指描述实木某种特征的概念。如商品销售额、受教育程度、产品的质量等级等。变量与数据的关系变量的具体表现称为变量值即数据。变量的分类根据变量的数据计量尺度不同来分 分类变量categorical variable说明事物类别的一个名称顺序变量rank variable说明事物有序类别的一个名称数值型变量metric variable说明事物数据特征的一个名称。
2、数据的描述性统计
总量指标反映一定时间、空间下某种现象的总体规模、总水平或总成功的统计指标。相对指标是两个有相互联系的指标数值之比例如目标完成率
2.1、描述性统计图表
建议大家多看些分析案例有好的分析案例的练习希望大佬们分享给我谢谢~~ 构成类图标主要突出的是部分在整体中的占比关系饼图属于构成类图表散点图属于描述类图表折线图属于序列类图表条形图属于比较类图表词云图是比较类图表 2.1.1、直方图
【篇幅过长收集在专栏下的《描述性统计图表——直方图》中】传送门 ↓↓↓ 《描述性统计图表——直方图》
2.1.2、散点图
【篇幅过长收集在专栏下的《描述性统计——散点图》中】传送门 ↓↓↓ 《描述性统计图表——散点图》
2.1.3、箱型图
【篇幅过长收集在专栏下的《描述性统计——箱线图》中】传送门 ↓↓↓ 《描述性统计图表——箱线图》
3、集中趋势的描述 3.1、众数 众数Mode是指在统计分布上具有明显集中趋势点的数值代表数据的一般水平。 也是一组数据中出现次数最多的数值有时众数在一组数中有好几个。用M表示。 3.2、分位数及中位数
详细定义见《描述性统计图表——箱线图》
3.3、平均数
对于同一组数据一定满足算数平均数几何平均数调和平均数当所有数据取至相同的时候等号成立
3.4.1、算数平均数 加权平均数例题
3.4.2、几何平均数 3.4.3、调和平均数 4、离散程度的描述 4.1、极差 4.2、平均差 4.3、方差与标准差 自由度(degree of freedom, df)指的是计算某一统计量时取值不受限制的变量个数。通常dfn-k。其中n为样本数量k为被限制的条件数或变量个数或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。 4.4、离散系数 离散系数又称变异系数是统计学当中的常用统计指标。离散系数是测度数据离散程度的相对统计 量主要是用于比较不同样本数据的离散程度。离散系数大说明数据的离散程度也大离散系数小说明数据的离散程度也小 4.5、相对位置的度量——标准化值
标准化z(z-样本均值)/样本标准差 切比雪夫不等式
5、分布形态的描述
5.1、矩的相关概念
k阶原点矩又叫k阶矩E(Xk)也就是随机变量X的k次方的均值k阶中心矩E{[X-E(X)]k}也就是随机变量X与X的均值的差的k次方形成的新的随机变量的均值kl混合矩E(XkYl)也就是随机变量X的k次方与随机变量Y的l次方形成的新的随机变量的均值。kl混合中心矩E{[E-E(X)]k[Y-E(Y)]l}也就是随机变量X与X的均值的差的k次方乘以随机变量Y与Y的均值的差的l次方后乘积形成的新的随机变量的均值。
5.2、偏态
扩展知识——偏态分布偏态分布 偏度skewness也称为偏态、偏态系数是统计数据分布偏斜方向和程度的度量是统计数据分布非对称程度的数字特征。一般来说偏度的绝对值超过0.5意味着偏度非常大。在风险管理当中较大程度的负偏是需要格外关注的问题因为这可能导致大的损失的发生。 偏度计算公式的理解
对于未分组数据求出样本均值、方差以及标准差。 分母(样本容量-1)(样本容量-2)*标准差的三次方分子样本容量*[(每个样本值-样本均值)3的累计值] 对于分组数据求出加权算数平均数根据加权算数平均数算出方差以及标准差。 加权算数平均数 方差及标准差 分母样本容量*样本标准差3分子(组中值-样本均值)3与频数乘积得到的值的累加 正态分布的偏度为0两侧尾部长度对称。若以bs表示偏度。bs0称分布具有负偏离也称左偏态此时数据位于均值左边的比位于右边的少直观表现为左边的尾部相对于与右边的尾部要长因为有少数变量值很小使曲线左侧尾部拖得很长bs0称分布具有正偏离也称右偏态此时数据位于均值右边的比位于左边的少直观表现为右边的尾部相对于与左边的尾部要长因为有少数变量值很大使曲线右侧尾部拖得很长而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时可用偏离来检验分布的正态性。右偏时一般算术平均数中位数众数左偏时相反即众数中位数平均数。正态分布三者相等。 5.3、峰态 峰态kurtosis一词是由统计学家皮尔逊于1905年首次提出的。它是对数据分布平峰或尖峰程度的测度。测度峰态的统计量则是峰态系数coefficient of kurtosis记作K。峰态通常是与标准正态分布相比较而言的。如果一组数据服从标准正态分布则峰态系数的值等于0若峰态系数的值明显不等于0则表明分布比正态分布更平或更尖通常称为平峰分布或尖峰分布。 对于峰度而言尖峰态的峰度大于3低峰态的峰度小于3而正态分布的峰度正好等于3。有的峰度的计算公式当中直接在计算公式中减去了3。那么就变成了尖峰态的峰度大于0低峰态的峰度小于0而正态分布的峰度等于0。 峰度计算公式的理解
对于未分组数据求出样本均值、方差以及标准差。 分母(样本容量-1)(样本容量-2)(样本容量-3)*标准差的四次方分子样本容量*(样本容量1)[(每个样本值-样本均值)4的累计值]-3倍的[样本值与样本均值的差的平方和]2(样本容量-1) 对于分组数据求出加权算数平均数根据加权算数平均数算出方差以及标准差。 加权算数平均数 方差及标准差 分母样本容量*样本标准差3分子(组中值-样本均值)4与频数乘积得到的值的累加-3倍的样本容量*样本标准差4 较高的峰度通常表明数据的变动是由一些极值相对于期望的变动引起的而非许多相对较小的差异。