如何拿高权重网站外链进行互换?,定制戒指,网站分析案例,买到一个域名以后如何做网站在机器学习和信息理论中#xff0c;熵#xff08;Entropy#xff09;是衡量不确定性和信息量的一个重要概念。熵最初由信息论的奠基人克劳德香农#xff08;Claude Shannon#xff09;在1948年提出#xff0c;用来衡量信息源的信息不确定性。在机器学习中#xff0c;熵被…在机器学习和信息理论中熵Entropy是衡量不确定性和信息量的一个重要概念。熵最初由信息论的奠基人克劳德·香农Claude Shannon在1948年提出用来衡量信息源的信息不确定性。在机器学习中熵被用于许多场景例如分类任务中的决策树构建用来衡量一个属性对分类的贡献。下面详细介绍熵的定义和推导过程。
1. 熵的定义
熵衡量的是一个随机变量的不确定性。对于一个离散的概率分布 ( P ) 其熵Entropy定义为 H ( X ) − ∑ i 1 n P ( x i ) log P ( x i ) H(X) - \sum_{i1}^{n} P(x_i) \log P(x_i) H(X)−i1∑nP(xi)logP(xi) 其中
( H(X) ) 表示随机变量 ( X ) 的熵( x_i ) 表示随机变量 ( X ) 可能取的第 ( i ) 个值( P(x_i) ) 是 ( X ) 取值 ( x_i ) 的概率对数 ( \log ) 通常以 2 为底对应单位为“比特”但也可以使用自然对数对应单位为“纳特”。
熵反映的是从信息源中获得的信息的平均量。假如某个事件的概率越低即它越不确定一旦发生就提供了更多的信息因此熵越大。
2. 熵的推导
熵的推导可以从几个基本信息论概念入手
a. 自信息量Self-Information
自信息量是衡量某个特定事件发生时它为我们带来的信息量。对于某个事件 ( x_i ) 发生它的自信息量定义为 I ( x i ) − log P ( x i ) I(x_i) -\log P(x_i) I(xi)−logP(xi)
当事件发生的概率 P ( x i ) P(x_i) P(xi) 越小它的不确定性越高因此提供的“信息量”越大。当 P ( x i ) P(x_i) P(xi) 为 1 时自信息量为 0因为这种事件是确定的不带来额外信息。加上log可以把非线性的概率转换为线性空间。
b. 熵是期望自信息量
熵的定义可以被理解为所有可能事件自信息量的期望值。对于一个离散随机变量 ( X )它的熵表示为每个可能事件自信息量的期望 H ( X ) E [ I ( X ) ] ∑ i 1 n P ( x i ) I ( x i ) − ∑ i 1 n P ( x i ) log P ( x i ) H(X) \mathbb{E}[I(X)] \sum_{i1}^{n} P(x_i) I(x_i) - \sum_{i1}^{n} P(x_i) \log P(x_i) H(X)E[I(X)]i1∑nP(xi)I(xi)−i1∑nP(xi)logP(xi)
因此熵是每个可能事件的概率与其自信息量乘积的加权和反映了整个系统的平均不确定性。
3. 熵的性质
熵有以下一些重要性质 非负性熵总是大于等于 0。对于确定事件即 ( P(x_i) 1 )熵为 0对于不确定性较大的分布熵更高。 均匀分布的熵最大对于均匀分布熵最大。例如对于一个有 ( n ) 种可能事件且每个事件的概率都相等的系统熵为 H ( X ) log n H(X) \log n H(X)logn 这是因为均匀分布下不确定性最大每个事件发生的概率一样不提供更多信息。 熵和概率的关系熵的值取决于概率分布。若一个系统中所有事件的概率都接近 1熵较小若系统的事件概率分布接近均匀熵较大。
4. 熵在机器学习中的应用
总结
熵作为信息论中的核心概念衡量了系统的不确定性。通过从自信息量推导出的熵公式我们能够量化一个系统中信息的平均量。在机器学习中熵广泛用于决策树构造和其他分类任务中以帮助衡量数据集的纯度或不确定性。