洛阳霞光企业网站建设公司,ss网站代码,h5和网站的区别,宁波seo网络推广定制矩阵的正定与负定#xff1a;从Fisher信息矩阵看“曲率”的秘密
在数学和统计学中#xff0c;矩阵的“正定性”和“负定性”是一对重要概念#xff0c;尤其在优化、统计推断和机器学习中频繁出现。比如#xff0c;Fisher信息矩阵#xff08;Fisher Information Matrix, F…矩阵的正定与负定从Fisher信息矩阵看“曲率”的秘密
在数学和统计学中矩阵的“正定性”和“负定性”是一对重要概念尤其在优化、统计推断和机器学习中频繁出现。比如Fisher信息矩阵Fisher Information Matrix, FIM常被描述为“正定”的这不仅是个数学性质还与参数估计的“曲率”密切相关。那么什么是正定和负定它们有什么用今天我们就来聊聊这些问题以Fisher信息矩阵为例揭开矩阵性质背后的奥秘。 什么是正定和负定
矩阵的正定性和负定性是线性代数中的概念用来描述一个对称矩阵的“方向性”和“形状”。假设 ( A A A ) 是一个 ( n × n n \times n n×n ) 的实对称矩阵即 ( A A T A A^T AAT )它的正定性和负定性定义如下
正定Positive Definite
矩阵 ( A A A ) 是正定的如果对于任意非零向量 ( x ∈ R n x \in \mathbb{R}^n x∈Rn )( x ≠ 0 x \neq 0 x0 ) x T A x 0 x^T A x 0 xTAx0
这意味着 ( A A A ) 的二次型quadratic form总是正的。
负定Negative Definite
矩阵 ( A A A ) 是负定的如果 x T A x 0 x^T A x 0 xTAx0
即二次型总是负的。
其他情况
半正定Positive Semidefinite( x T A x ≥ 0 x^T A x \geq 0 xTAx≥0 )允许等于零。半负定Negative Semidefinite( x T A x ≤ 0 x^T A x \leq 0 xTAx≤0 )。
通俗比喻
想象 ( A A A ) 是一个“碗”的形状
正定像一个“正放的碗”碗底在下口朝天无论从哪个方向离开碗底高度 x T A x x^T A x xTAx都增加像一个凸起的谷底。凸函数想象 x 2 x^2 x2的样子。负定像一个“倒扣的碗”碗底在上口朝地所有方向都下降像一个凹陷的山顶。凹函数想象 l o g x logx logx的样子。半正定或半负定碗可能有平坦的区域某些方向高度不变。 如何判断正定和负定
数学上有几种等价方法判断一个对称矩阵的性质 特征值Eigenvalues 正定所有特征值 ( λ i 0 \lambda_i 0 λi0 )。负定所有特征值 ( λ i 0 \lambda_i 0 λi0 )。半正定所有特征值 ( λ i ≥ 0 \lambda_i \geq 0 λi≥0 )。 二次型 检查 ( x T A x x^T A x xTAx ) 在所有非零 ( x x x ) 上的符号。 主子式Leading Principal Minors 正定所有主子式从左上角逐步扩大的子矩阵的行列式都大于零。负定主子式符号交替奇数阶负偶数阶正。
简单例子 ( A [ 2 0 0 2 ] A \begin{bmatrix} 2 0 \\ 0 2 \end{bmatrix} A[2002] ) ( x T A x 2 x 1 2 2 x 2 2 0 x^T A x 2x_1^2 2x_2^2 0 xTAx2x122x220 )除非 ( x 0 x 0 x0 )正定。特征值2, 2皆正。 ( A [ − 1 0 0 − 1 ] A \begin{bmatrix} -1 0 \\ 0 -1 \end{bmatrix} A[−100−1] ) ( x T A x − x 1 2 − x 2 2 0 x^T A x -x_1^2 - x_2^2 0 xTAx−x12−x220 )负定。特征值-1, -1皆负。 Fisher信息矩阵的正定性
Fisher信息矩阵 ( I ( θ ) I(\theta) I(θ) ) 定义为得分函数的协方差 I ( θ ) i j E [ ∂ log p ( x ∣ θ ) ∂ θ i ∂ log p ( x ∣ θ ) ∂ θ j ∣ θ ] I(\theta)_{ij} E\left[ \frac{\partial \log p(x|\theta)}{\partial \theta_i} \frac{\partial \log p(x|\theta)}{\partial \theta_j} \bigg| \theta \right] I(θ)ijE[∂θi∂logp(x∣θ)∂θj∂logp(x∣θ) θ]
或者等价地 I ( θ ) i j − E [ ∂ 2 log p ( x ∣ θ ) ∂ θ i ∂ θ j ∣ θ ] I(\theta)_{ij} -E\left[ \frac{\partial^2 \log p(x|\theta)}{\partial \theta_i \partial \theta_j} \bigg| \theta \right] I(θ)ij−E[∂θi∂θj∂2logp(x∣θ) θ]
书中常说“如果模型是可识别的即不同参数 ( θ \theta θ ) 对应不同分布 ( p ( x ∣ θ ) p(x|\theta) p(x∣θ) )Fisher信息矩阵通常是正定的。”为什么
正定的来源
得分函数的协方差( I ( θ ) I(\theta) I(θ) ) 是协方差矩阵而协方差矩阵天然是半正定的( x T I x E [ ( x T s ) 2 ] ≥ 0 x^T I x E[(x^T s)^2] \geq 0 xTIxE[(xTs)2]≥0 )。可识别性如果模型可识别得分函数 ( s ( θ ) ∇ log p s(\theta) \nabla \log p s(θ)∇logp ) 在不同 ( θ \theta θ ) 下变化显著( I ( θ ) I(\theta) I(θ) ) 没有零特征值即 ( x T I x 0 x^T I x 0 xTIx0 ) 仅当 ( x 0 x 0 x0 )从而正定。
正态分布例子
对于 ( x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) x∼N(μ,σ2) ) I ( θ ) [ 1 σ 2 0 0 1 2 σ 4 ] I(\theta) \begin{bmatrix} \frac{1}{\sigma^2} 0 \\ 0 \frac{1}{2\sigma^4} \end{bmatrix} I(θ)[σ21002σ41]
特征值( 1 σ 2 , 1 2 σ 4 \frac{1}{\sigma^2}, \frac{1}{2\sigma^4} σ21,2σ41 )皆正。( x T I x x 1 2 σ 2 x 2 2 2 σ 4 0 x^T I x \frac{x_1^2}{\sigma^2} \frac{x_2^2}{2\sigma^4} 0 xTIxσ2x122σ4x220 )正定。 正定和负定的用途
正定和负定不仅是数学标签它们在实际中有重要作用尤其与“曲率”挂钩。
1. 曲率与优化
正定表示函数比如负对数似然在某点是“碗口向上”的凸函数最优解在底部。Fisher信息矩阵正定说明似然函数局部是凸的参数估计有唯一解。负定表示“碗口向下”如损失函数的最大值。优化时常希望Hessian负定如最大化似然。
在牛顿法中Hessian的正定性保证步长方向正确而Fisher信息矩阵正定则为自然梯度提供稳定基础。
2. 参数估计精度
Fisher信息矩阵正定意味着它的逆 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)−1 ) 存在且正定提供了参数估计的协方差下界Cramér-Rao界 Cov ( θ ^ ) ≥ I ( θ ) − 1 \text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} Cov(θ^)≥I(θ)−1
正定性保证协方差矩阵有效估计精度可量化。
3. 稳定性与正交性
正定矩阵的特征值全正保证系统如优化过程稳定。如果 ( I i j 0 I_{ij} 0 Iij0 )参数正交矩阵接近对角形式正定性更易满足简化计算。 正定性与“曲率”的联系
Fisher信息矩阵的正定性为何能衡量“参数估计的曲率”
几何意义( x T I x x^T I x xTIx ) 是对数似然函数在 ( θ \theta θ ) 附近曲率的期望。正定说明曲率处处向上似然函数像一个“碗”参数估计的“底部”清晰。信息含量曲率越大特征值越大似然对参数变化越敏感数据提供的信息越多。
例如( I μ μ 1 σ 2 I_{\mu\mu} \frac{1}{\sigma^2} Iμμσ21 ) 表明当 ( σ 2 \sigma^2 σ2 ) 小时曲率大( μ \mu μ ) 的估计更精确。 总结
矩阵的正定性和负定性描述了二次型的符号和函数的形状正定是“正放的碗”负定是“倒扣的碗”。在Fisher信息矩阵中正定性源于模型的可识别性保证了似然函数的局部凸性和参数估计的稳定性。它不仅衡量“曲率”还为优化和推断提供了理论支撑。下次看到正定矩阵不妨想想它在告诉你什么形状的故事
补充 “碗口向上”是什么意思
在数学和几何中当我们说一个矩阵 ( A A A ) 是正定的意味着它的二次型 ( x T A x x^T A x xTAx ) 对于所有非零向量 ( x x x ) 都是正的( x T A x 0 x^T A x 0 xTAx0 )。这可以用一个碗的形状来类比但这里的“碗”是指一个三维空间中的曲面具体来说是一个抛物面或椭球面。
“碗口向上”指的是这个曲面在原点( x 0 x 0 x0 )处达到最小值( x T A x 0 x^T A x 0 xTAx0 )然后随着 ( x x x ) 远离原点曲面高度( x T A x x^T A x xTAx )逐渐增加。这种形状在数学上对应一个凸函数底部在最低点像一个正放的碗。几何图像想象一个普通的碗开口朝天底部在桌子上的形状。无论你从哪个方向( x x x ) 的任意方向离开中心高度碗的深度或 ( x T A x x^T A x xTAx )都上升。
举个例子
考虑正定矩阵 ( A [ 1 0 0 1 ] A \begin{bmatrix} 1 0 \\ 0 1 \end{bmatrix} A[1001] ) x T A x x 1 2 x 2 2 x^T A x x_1^2 x_2^2 xTAxx12x22
当 ( x [ 0 , 0 ] x [0, 0] x[0,0] ) 时( x T A x 0 x^T A x 0 xTAx0 )最低点。当 ( x [ 1 , 0 ] x [1, 0] x[1,0] ) 时( x T A x 1 x^T A x 1 xTAx1 )( x [ 0 , 2 ] x [0, 2] x[0,2] ) 时( x T A x 4 x^T A x 4 xTAx4 )。这是一个碗口向上的抛物面底部在原点向上延伸。 “碗倒扣在桌子上”
“碗倒扣在桌子上的形状”是一个很自然的联想但它对应的是负定矩阵而不是正定矩阵。
“碗口向下”负定如果矩阵 ( A A A ) 是负定的( x T A x 0 x^T A x 0 xTAx0 ) 对所有非零 ( x x x ) 成立。这时曲面在原点处是最高点( x T A x 0 x^T A x 0 xTAx0 )向四周下降像一个倒扣的碗或一个“坑”。例子( A [ − 1 0 0 − 1 ] A \begin{bmatrix} -1 0 \\ 0 -1 \end{bmatrix} A[−100−1] ) x T A x − x 1 2 − x 2 2 x^T A x -x_1^2 - x_2^2 xTAx−x12−x22 ( x [ 0 , 0 ] x [0, 0] x[0,0] ) 时( x T A x 0 x^T A x 0 xTAx0 )最高点。( x [ 1 , 0 ] x [1, 0] x[1,0] ) 时( x T A x − 1 x^T A x -1 xTAx−1 )( x [ 0 , 2 ] x [0, 2] x[0,2] ) 时( x T A x − 4 x^T A x -4 xTAx−4 )。这是一个碗口向下的抛物面像倒扣的碗。 为什么正定对应“碗口向上”
在统计和优化中正定矩阵如Fisher信息矩阵常用来描述凸性
Fisher信息矩阵 ( I ( θ ) I(\theta) I(θ) ) 正定表示负对数似然 ( − log p ( x ∣ θ ) -\log p(x|\theta) −logp(x∣θ) ) 在真实参数附近是“碗口向上”的凸函数存在唯一的最优解。“曲率”是指碗的陡峭程度正定保证曲率正向向上弯曲便于优化和估计。
反过来负定矩阵可能对应最大值问题如似然函数的最大化形状是“碗口向下”。
后记
2025年2月25日12点24分于上海在Grok 3大模型辅助下完成。