php+mysql网站开发全程实例 下载,抖音代运营广州,创意视觉网站,开发银行助学贷款系统登录官网AI算法岗面试八股面经【超全整理】
概率论信息论机器学习CVNLP 目录 1、古典概型、几何概型2、条件概率、全概率公式、贝叶斯公式3、先验概率、后验概率4、离散型随机变量的常见分布5、连续型随机变量的常见分别6、数学期望、方差7、协方差、相关系数8、独立、互斥、不相关9.大…AI算法岗面试八股面经【超全整理】
概率论信息论机器学习CVNLP 目录 1、古典概型、几何概型2、条件概率、全概率公式、贝叶斯公式3、先验概率、后验概率4、离散型随机变量的常见分布5、连续型随机变量的常见分别6、数学期望、方差7、协方差、相关系数8、独立、互斥、不相关9.大数定理10、中心极限定理11、最大似然估计极大似然估计 1、古典概型、几何概型
古典概型有限等可能
样本空间的数量是有限的每个样本点的发生是等可能性的
几何概型无限等可能
样本空间的样本点有无限个每个样本点发生的可能性是均等的
2、条件概率、全概率公式、贝叶斯公式
条件概率 设A、B是两个时间且 P ( A ) 1 P(A)1 P(A)1代表关节位置则称 P ( B ∣ A ) P ( A B ) P ( A ) P(B|A)\frac{P(AB)}{P(A)} P(B∣A)P(A)P(AB)为事件A发生条件下B的条件概率。 P ( A ) 0 P(A)0 P(A)0时 P ( A B ) P ( A ) P ( B ∣ A ) P(AB)P(A)P(B|A) P(AB)P(A)P(B∣A) P ( B ) 0 P(B)0 P(B)0时 P ( A B ) P ( B ) P ( A ∣ B ) P(AB)P(B)P(A|B) P(AB)P(B)P(A∣B)
全概率公式 若事件 A 1 , A 2 , A 3 , ⋯ , A n A_1,A_2, A_3,\cdots,A_n A1,A2,A3,⋯,An满足以下条件 ∀ i ̸ j , A i A j ∅ \forall{i\notj},A_iAj\emptyset ∀ij,AiAj∅ A 1 ⋃ A 2 ⋃ A 3 ⋃ ⋯ ⋃ A n Ω A_1\bigcup A_2\bigcup A_3\bigcup\cdots\bigcup A_n\Omega A1⋃A2⋃A3⋃⋯⋃AnΩ
则称 A 1 , A 2 , A 3 , ⋯ , A n A_1,A_2, A_3,\cdots,A_n A1,A2,A3,⋯,An为完备事件组 全概率公式为 P ( B ) ∑ i 1 n P ( A i ) P ( B ∣ A i ) \begin{aligned} P(B)\sum_{i1}^{n}P(A_i)P(B|A_i) \\ \end{aligned} P(B)i1∑nP(Ai)P(B∣Ai)
贝叶斯公式 已知结果找原因发生了结果B A k A_k Ak被视作导致B发生的原因 设 A 1 , A 2 , A 3 , ⋯ , A n A_1,A_2, A_3,\cdots,A_n A1,A2,A3,⋯,An为完备事件组且 P ( A i ) 0 ( i 1 , 2 , ⋯ , n ) P(A_i)0(i1,2,\cdots,n) P(Ai)0(i1,2,⋯,n)B为任意事件 P ( B ) 0 P(B)0 P(B)0则 P ( A k ∣ B ) P ( A k ) P ( B ∣ A k ) P ( B ) P ( A k ) P ( B ∣ A k ) ∑ i 1 n P ( A i ) P ( B ∣ A i ) \begin{aligned} P(A_k|B)\frac{P(A_k)P(B|A_k)}{P(B)} \frac{P(A_k)P(B|A_k)}{\sum_{i1}^{n}P(A_i)P(B|A_i)}\\ \end{aligned} P(Ak∣B)P(B)P(Ak)P(B∣Ak)∑i1nP(Ai)P(B∣Ai)P(Ak)P(B∣Ak) 通常把 P ( A 1 ) , P ( A 2 ) , … , P ( A n ) P(A_1),P(A_2),\dots,P(A_n) P(A1),P(A2),…,P(An)叫做先验概率就是在做试验前的概率而把 P ( A k ∣ B ) ( k 1 , 2 , … , n ) P(A_k|B)(k1,2,\dots, n) P(Ak∣B)(k1,2,…,n) 叫做后验概率。
3、先验概率、后验概率
先验概率
由原因推结果事情未发生只根据以往数据统计分析事情发生的可能性即先验概率。先验概率是指根据以往经验和分析得到的概率如全概率公司它往往作为“由因求果”问题中的“因”出现。
后验概率
由结果推原因事情已发生已有结果求引起这件事情发生的因素的可能性“由果求因”即后验概率。后验概率是指一句得到的结果信息所计算出的最有可能是哪种事件发生如贝叶斯公式是“由因求果”中的因。
全概率公式、贝叶斯公式与先验、后验概率的关系
全概率公式总结几种因素事件发生的概率的并集由因求果贝叶斯公式事情已经发生计算引起结果的各因素的概率由因求果同后验概率全概率是用原因推结果贝叶斯是用结果推原因后验概率的计算是一先验概率为前提条件的如果只知道事情结果而不知道先验概率没有以往数据统计是无法计算后验概率的。后验概率需要应用到贝叶斯公式。
4、离散型随机变量的常见分布
0-1分布伯努利分布
随机变量只取0或1两种值概率分布是p和1-p随机试验只做一次 X ∼ B ( 1 , p ) \begin{aligned} X\sim B(1,p)\\ \end{aligned} X∼B(1,p)
二项分布伯努利概型
设试验E只有两种可能结果 A A A及 A ‾ \overline{A} A则称E为伯努利试验将E独立重复地进行n次则称这一连串独立的重复试验为n重伯努利分布
随机变量依然也是两种0或1概率分布是p和1-p但是此时随机试验做了n次其中事件X发生了k次 X ∼ B ( n , p ) \begin{aligned} X\sim B(n,p)\\ \end{aligned} X∼B(n,p) 设 P ( A k ) P(Ak) P(Ak)表示在n次试验里面事件A发生了k次的概率 P ( A k ) C n k p k ( 1 − p ) n − k \begin{aligned} P(Ak)C_n^kp^k{(1-p)}^{n-k}\\ \end{aligned} P(Ak)Cnkpk(1−p)n−k 泊松分布 X ∼ P ( λ ) \begin{aligned} X\sim P(\lambda)\\ \end{aligned} X∼P(λ) P ( A k ) λ k k ! e − λ \begin{aligned} P(Ak)\frac{\lambda^k }{k!}e^{-\lambda}\\ \end{aligned} P(Ak)k!λke−λ
几何分布 X ∼ G ( p ) \begin{aligned} X\sim G(p)\\ \end{aligned} X∼G(p) 在伯努利试验中记每次试验中事件A发生的概率为0试验进行到时间A出现为止此时所进行的试验次数为X其分布律为 P ( A k ) ( 1 − p ) k − 1 p ( k 0 , 1 , 2 , … ) \begin{aligned} P(Ak){(1-p)}^{k-1}p ~~~~~~ (k0,1,2,\dots )\\ \end{aligned} P(Ak)(1−p)k−1p (k0,1,2,…)
5、连续型随机变量的常见分别
均匀分布 X ∼ U ( a , b ) \begin{aligned} X\sim U(a,b)\\ \end{aligned} X∼U(a,b) f ( n ) { 1 b − a , a x b 0 other \begin{aligned} f(n) \begin{cases} \frac{1}{b-a}, \text {$axb$} \\ 0 \text{other} \end{cases}\\ \end{aligned} f(n){b−a1,0axbother
指数分布 X ∼ E ( λ ) \begin{aligned} X\sim E(\lambda)\\ \end{aligned} X∼E(λ) f ( n ) { λ e − λ x , x 0 0 other \begin{aligned} f(n) \begin{cases}\lambda e^{-\lambda x}, \text {$x0$} \\ 0 \text{other} \end{cases}\\ \end{aligned} f(n){λe−λx,0x0other
正态分布/高斯分布 X ∼ N ( μ , σ 2 ) \begin{aligned} X\sim N(\mu, \sigma ^2)\\ \end{aligned} X∼N(μ,σ2) f ( x ) 1 2 π σ e − ( x − μ ) 2 2 σ 2 \begin{aligned} f(x)\frac{1 }{\sqrt{2\pi}\sigma}e^{-\frac{{(x-\mu)^2} }{2\sigma^2}}\\ \end{aligned} f(x)2π σ1e−2σ2(x−μ)2
特别地当 μ 0 , σ 1 \mu0,\sigma1 μ0,σ1时为标准正态分布 X ∼ N ( 0 , 1 ) X\sim N(0, 1) X∼N(0,1)
6、数学期望、方差
数学期望 数学期望或均值、简称期望是试验中每次可能结果的概率乘以其结果的总和。 方差 方差是衡量源数据与期望值相差的度量值。平方的期望-期望的平方 D ( X ) E ( ( X − E ( X ) ) 2 ) E ( X 2 ) − E 2 ( X ) D(X)E({(X-E(X))}^2)E(X^2)-E^2(X) D(X)E((X−E(X))2)E(X2)−E2(X)
7、协方差、相关系数
协方差 期望值分别为 E ( X ) E(X) E(X)与 E ( Y ) E(Y) E(Y)的两个实随机变量X与Y之间的协方差 C o v ( A , Y ) Cov(A,Y) Cov(A,Y)定义为 C o v ( X , Y ) E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] E [ X Y ] − 2 E [ Y ] E [ X ] E [ X ] E [ Y ] E [ X Y ] − E [ X ] E [ Y ] Cov(X,Y)E[(X-E[X])(Y-E[Y])]\\E[XY]-2E[Y]E[X]E[X]E[Y]\\E[XY]-E[X]E[Y] Cov(X,Y)E[(X−E[X])(Y−E[Y])]E[XY]−2E[Y]E[X]E[X]E[Y]E[XY]−E[X]E[Y] 即XY的协方差等于每一个X减去X的平均值乘上每一个Y减去Y的平均值的乘积的和的平均值。
相关系数 皮尔逊相关系数 p x y C o v ( X , Y D ( X ) D ( Y ) p_{xy}\frac{Cov(X,Y}{\sqrt{D(X)}\sqrt{D(Y)}} pxyD(X) D(Y) Cov(X,Y 即用XY的协方差除以X的标准差和Y的标准差
8、独立、互斥、不相关
独立 事件A与事件B独立的定义是 P ( A B ) P ( A ) P ( B ) P(AB)P(A)P(B) P(AB)P(A)P(B)
互斥 事件A与事件B互斥的定义是 集合A与集合B没有相同的样本点即 A ⋂ B ∅ A\bigcap B \empty A⋂B∅
不相关 事件A与事件B不相关的定义是 C o v ( A , B ) E [ A B ] − E [ A ] E [ B ] 0 Cov(A,B)E[AB]-E[A]E[B]0 Cov(A,B)E[AB]−E[A]E[B]0
如果事件A和事件B发生的概率都不为0那么独立和互斥有这样一层关系互斥不独立独立不互斥在数学期望存在的情况下独立必不相关不相关未必独立
9.大数定理
通俗一点来讲就是样本数量很大的时候样本均值和数学期望充分接近也就是说当我们大量重复某一相同的实验的时候其最后的实验结果可能会稳定在某一数值附近。 如果有一个随机变量X不断地观察并且采样这个随机变量得到了n个采样值 X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1,X2,…,Xn然后求得这n个采样值的平均值 X ‾ n \overline{X}_n Xn当n趋于正无穷的时候这个平均值就收敛于这个随机变量X的期望。 lim n → ∞ 1 n ∑ i 1 n x i μ \lim_{n \to \infty} \frac{1}{n}\sum_{i1}^{n}x_i\mu n→∞limn1i1∑nxiμ
10、中心极限定理
设随机变量 X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1,X2,…,Xn相互独立服从同一分布且具有数学期望和方差 E ( X k ) μ E(X_k)\mu E(Xk)μ D ( X k ) θ 2 ( k 0 , 1 , 2 , … ) D(X_k)\theta^2(k0,1,2,\dots) D(Xk)θ2(k0,1,2,…)则随机变量之和 ∑ k 1 n X k \sum_{k1}^{n}X_k ∑k1nXk的标准化变量 Y n ∑ k 1 n X k − E ( ∑ k 1 n X k ) D ( ∑ k 1 n X k ) ∑ k 1 n X k − n μ n θ Y_n\frac{\sum_{k1}^{n}X_k-E(\sum_{k1}^{n}X_k)}{\sqrt{D(\sum_{k1}^{n}X_k)}}\frac{\sum_{k1}^{n}X_k-n\mu}{\sqrt{n}\theta} YnD(∑k1nXk) ∑k1nXk−E(∑k1nXk)n θ∑k1nXk−nμ 对于均值为 μ \mu μ方差为 θ 2 \theta^2 θ2的独立同分布的随机变量 X 1 , X 2 , … , X n X_1,X_2,\dots,X_n X1,X2,…,Xn之和 ∑ k 1 n X k \sum_{k1}^{n}X_k ∑k1nXk当n足够大时有 1 n ∑ k 1 n X k − μ θ n ∼ N ( 0 , 1 ) \frac{\frac{1}{n}{\sum_{k1}^{n}X_k}-\mu}{\frac{\theta}{\sqrt{n}}}\sim N(0,1) n θn1∑k1nXk−μ∼N(0,1) N个独立同分布的随机变量当N充分大时其均值服从正态分布。 大数定律和中心极限定理的区别
大数定理更关注的是样本均值后者关注的是样本均值的分布。比如掷骰子假设一轮掷骰子n次重复了m轮当n足够大时大数定理指出这n次的均值等于随机变量的数学期望而中心极限定理指出这m轮的均值分布符合数学期望的正态分布。
11、最大似然估计极大似然估计
一个简单的 n 重伯努利模型二项分布事件 A 发生的概率为 p不发生的概率为 1-p独立验概 n 次事件 A 发生 k 次的概率为 P ( A k ) C n k p k ( 1 − p ) n − k P(Ak)C_n^kp^k{(1-p)}^{n-k} P(Ak)Cnkpk(1−p)n−k 这是一个概率模型即已知概率p求另一些概率即由因求果 而一个数理统计模型是由果溯因即求解一下问题p是多大时事件A发生k次的概率最大实际上就是一个求参数问题。
概率质量函数Probability Mass FunctionPMF是离散型随机变量在个特定取值上的概率概率密度函数Probability Density FunctionPDF是统计学中常用的参数估计方法
最大似然估计Maximum Likelihood EstimationMLE是统计学中常用的参数估计方法用于根据已观测到的样本数据选择使得观测数据出现概率最大的参数值。
对于离散型随机变量似然函数是概率质量函数的乘积 L ( θ ) P ( X x 1 ) × P ( X x 2 ) × ⋯ × P ( X x n ) L(\theta)P(Xx_1)\times P(Xx_2)\times \cdots \times P(Xx_n) L(θ)P(Xx1)×P(Xx2)×⋯×P(Xxn)
对于连续型随机变量似然函数是概率密度函数的乘积 L ( θ ) f ( x 1 ∣ θ ) × f ( x 2 ∣ θ ) × ⋯ × f ( x n ∣ θ ) L(\theta)f(x_1|\theta)\times f(x_2|\theta)\times \cdots \times f(x_n|\theta) L(θ)f(x1∣θ)×f(x2∣θ)×⋯×f(xn∣θ)
最大似然估计的目标是找到使得似然函数最大化的参数值。
概率、似然 1、概率发生前推测
某件事情发生的可能性在结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性例如抛硬币之前推测正面朝上的概率为50%
2、似然发生后推测参数
是在确定的结果之后推测产生这个结果的可能环境参数例如抛一枚硬币1000次其中500次正面朝上推测这是一枚标准硬币正面吵上的概率为50%
统计学两大学派 1、频率学派
认为样本信息来自总体通过对样本信息的研究可以合理地推断、估计总体信息并且随着样本的增加推断结果更加准确极大似然估计
2、贝叶斯学派
将先验信息和后验信息相结合通过贝叶斯公式将先验信息与样本数据结合起来得到后验分布并以此作为对未知参数的推断先验分布具有主观性