黑龙江建设部网站,常德做网站公司哪家好,营销网站建设的目的,青岛网站建设公司有哪些概率论
概率基础 这部分太简单#xff0c;直接略过 条件概率
独立性 独立事件A和B的交集如下 非独立事件 非独立事件A和B的交集如下 贝叶斯定理
先验 事件 后验 在概率论和统计学中#xff0c;先验概率和后验概率是贝叶斯统计的核心概念 简单来说后验概率就是结合了先验概…概率论
概率基础 这部分太简单直接略过 条件概率
独立性 独立事件A和B的交集如下 非独立事件 非独立事件A和B的交集如下 贝叶斯定理
先验 事件 后验 在概率论和统计学中先验概率和后验概率是贝叶斯统计的核心概念 简单来说后验概率就是结合了先验概率的前提和新事件的信息 自然贝叶斯 自然贝叶斯就是在有多个先验的前提下假设它们相互独立利用公式算出来的近似概率 贝叶斯与机器学习 条件概率生成像素 条件概率识别图像
概率分布
随机变量 随机变量分为离散型随机变量和连续型随机变量 区别如下 两个分布函数 概率质量函数 概率密度函数 累积分布函数
概率分布 离散型概率分布和连续型概率分布 纵坐标都是概率密度函数面积才是概率且总面积为1 伯努利分布和二项分布 均匀分布或标准分布 概率密度函数在一个范围[a,b]为定值 正态分布 理解模板函数 μ和σ的几何意义 一旁的函数是面积 箱型图 箱线图也称箱须图、箱形图、盒图用于反映数据的离散程度倾斜程度 主要由Q1,Q2,Q3百分位数组成 QQ图
定义 分位数-分位数图是通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法 横坐标是理论正态概率分布的百分数纵坐标是数据概率分布的百分数 具体定义如下
统计意义
比较数据是否符合正态分布越接近直线越可能是正态分布
边缘分布 将高维度密度分布降低至低纬度密度分布 离散型随机变量
*唯一公式 体现在联合分布的散点图上 连续性随机变量
本质是散点图概率密度绘制成三维图像上的一个横截面公式与离散型完全一致 条件分布 两个随机变量的条件分布 公式本质上是条件概率
离散型随机变量 连续型随机变量 几何意义横截面只是上式的分母 协方差
公式 对于数据集来收概率分布为恒定值对于随机变量来说公式要变成加权的形式 统计意义 协方差为正或负说明数据集之间有正相关或负相关的关系接近0说明数据集几乎没有关系 协方差矩阵 对角线上都是变量的方差其他都是两个变量之间的协方差 相关系数 就是把协方差标准化的结果 数理统计
总体和样本的统计属性
样本的方差 这种结果更接近总体真实的方差 大数定理 大数定律揭示了随着样本量 的增加样本均值将越来越接近总体的期望值 中心极限定理 中心极限定理Central Limit TheoremCLT是概率论和统计学中的一个重要定理它描述了在一定条件下独立同分布随机变量的和或均值趋近于正态分布的性质。具体来说中心极限定理表明当样本量足够大时任何分布的独立同分布随机变量的均值的分布都将接近于正态分布不论这些变量的原始分布是什么。 直接应用
利用样本的均值计算总体估计总体的均值因为中心极限定理告诉我们当n-∞二者的均值是一致的 也可以用来估计方差随着样本的变化趋势 中心极限定理表明当 n 足够大时均值的标准化形式将收敛于标准正态分布 可以用于假设检验等这些要求正态分布的情况 点估计-最大似然估计MLE 最大似然估计Maximum Likelihood EstimationMLE是一种用于估计统计模型参数的方法。最大似然估计通过找到使得观测数据出现的概率最大的参数值来估计模型参数。 说人话就是已知某个数据集想要计算某个模型的参数只需要令各个数据在这个模型(概率密度/分布函数)中的概率乘积(等价于出现可能性)最大就可以通过求导找出零点解出参数值 伯努利估计
随机变量只有两个取值 取对数求极值 最终大概率实际出现值的平均值 高斯函数估计 基本同理也是最大化点在正态分布曲线上的概率 线性回归 你的模型就是一条直线现在讨论的时让数据集尽可能接近你的直线利用垂直的高斯函数最大化概率计算直线的参数 假设都是用的标准高斯函数进行概率模拟 等价于最小化这些平方误差 正则化 正则化Regularization是一种用于防止机器学习模型过拟合的技术。过拟合是指模型在训练数据上表现良好但在新数据测试集上表现不佳即模型过于复杂以至于捕捉了训练数据中的噪音和细节无法很好地推广到新的数据。正则化通过在损失函数中增加一个惩罚项限制模型的复杂度从而提高模型的泛化能力。 常见正则化方法L2-正则化 多项式拟合中多项式系数的平方之和组成惩罚项 正则项 L2-正则化误差乘以正则化参数 贝叶斯统计
贝叶斯公式信念先验和后验 贝叶斯统计将概率解释为对不确定事件的主观信念或信念程度。它通过更新这种信念来进行统计推断。 贝叶斯公式的进一步解释 离散和连续分布的贝叶斯公式
最大化后验概率 MAP 其实就是更新后的后验概率分布中取一个最大值最大化你的信念 贝叶斯统计的特点 先验很大程度上影响着后验 没有任何信息的先验均匀分布的PDF函数的最大后验就是MLE 如果有充分数据MLE和MAP估计是一样的 三者的关系 模型的总损失模型本身的损失·MLE估计的损失正则化损失 模型损失 多项式模型的系数分布在正太分布曲线上之积最小化 条件概率MLE估计 就是模型生成的点与目标函数的差在正态分布曲线上的概率最大值 正则化 置信区间
显著性水平α 样本落在置信区间外的概率 -score Z-score是一种标准化的数据度量仅仅适用于正态分布中 Z-score表示一个数据点距离其所在数据集均值的标准差倍数。 Z 分数用于衡量一个观测值在其分布中的相对位置能够帮助识别数据点的异常程度以及进行不同数据集之间的比较。 计算公式 Z分数与显著性水平的关系 z相关于显著性水平α的的值通过查表获得 置信区间的计算公式 怎么来的将均值标准化后根据置信水平确定Z值然后还原为随机变量X-bar即可 在标准差准确的情况下均值的分布一定是正态分布根据中心极限定理 边际误差的计算
t分布-当标准差未知的情况 当使用样本的标准差时均值的分布不是一个正态分布而是一个t分布 t分布有一个自由度样本数N-1自由度越大均值分布越接近于正态分布 概率的置信区间计算 P-hat是抽样的概率概率的置信区间与样本均值的置信区间计算公式一致都是±边际误差