网站开发 ssh 菜鸟,百度跨境电商平台,wordpress seo插件教程,东莞品牌网站设计公司该函数将输出向量转化为概率分布#xff0c;作用和softmax一致。
相比softmax#xff0c;对较小的概率分布处理能力更好。
一、定义
softmax 计算公式#xff1a; log_softmax 计算公式#xff1a; 可见仅仅是将 softmax 最外层套上 log 函数。
二、使用场景
log_soft…该函数将输出向量转化为概率分布作用和softmax一致。
相比softmax对较小的概率分布处理能力更好。
一、定义
softmax 计算公式 log_softmax 计算公式 可见仅仅是将 softmax 最外层套上 log 函数。
二、使用场景
log_softmax 相比 softmax对较小的概率分布处理能力更好。
例如向量 使用softmax处理后得到的概率分布如下 使用 log_softmax 之后得到的概率分布如下 可见使用 softmax 第一个数直接变0当经过一次迭代 之后使用 softmax 得到的概率分布第一个元素仍为0因此求得梯度为0这个数据就不能用于更新参数而使用 log_softmax 可解决此问题。 因此log_softmax与softmax的区别在于输出的形式不同softmax输出的是概率分布而log_softmax输出的是对数概率分布。
在实际应用中log_softmax通常用于计算损失函数而softmax则用于预测[1]。 参考资料
[1] log_softmax与softmax的区别_编程设计_ITGUEST