Softmax

Softmax，这个概念参考[1]解释的非常仔细，这里只做简述，先上公式：

这公式是啥子意思呢？先看一个应用：

假如我们现在有一个分类任务，如果模型足够理想，输入一张猫图，输出[1, 0]，输入一张狗图，输出[0, 1]。通常这种任务，前面会是一个深度卷积神经网络，最后会有一个全连接层，经过这个全连接层会得到图的特征向量(embedding)，我自己喜欢管embedding叫特征向量。上图中最后得到的特征向量是[1.2, 0.3]，再经过softmax：

得到了[0.71, 0.29]，我们可以这样理解最后这个结果，这张图是猫的概率是0.71，是狗的概率是0.29，它们两加起来是1，不管softmax的输入向量为何，输出向量里的值相加一定是1，得到的结果可以理解为图在各个类上的概率分布，向量的长度即类别（class）的数量。再以一个长度为3的一维向量为例：

假设你现在要训练一个模型，它需要有能力分辨猫，狗，鸟，你模型训练好以后，输入了一张鸟图，得到了一个这样的特征向量，现在要做softmax，计算步骤如下：

所以按模型判断，该图是鸟图的概率是0.0003，明显这个模型不准诶。

softmax还可用于增强学习（reinforcement learning），先上公式：

在机器视觉领域，softmax的输出，是图像在各个类别上的概率分布，在增强学习领域，softmax的输出可以是各个策略的在某个步骤或时间会被采取的可能性。公式中a是我们可以选的行动，t表示的是步骤或者时间，τ是系统温度，这个值越高，模型越冲动，越会去探索新的可能。qt(a)是从现在已知的情况来看，选择行动a会获得成功的概率，Pt(a)则是模型在t这个步骤或时间上会采取a行动的概率。

想象一下，我们正在训练一种强化学习模型。我们必须配置一个系统温度τ，它是系统随机行动的可能性。该系统目前有两个选项：打Ace或打King。根据过往经验，打Ace成功的概率是80％，打King成功的概率是20％。我们将温度τ配置为2。

那么在这一轮中，模型打Ace的概率是：

这意味着尽管该模型目前有80％的把握确定打Ace是正确的策略，但只有57％的可能性使用该策略。这是因为在强化学习中，我们为探索（测试新策略）和开发（使用已知策略）均分配了价值。如果我们提高温度，则该模型将变得“更具冲动性”：更有可能探索新策略，而不是使用最有可能获胜的策略。

声明：图文，案例均来自参考，本篇仅是翻译和摘要。

参考：

[1] Thomas Wood，Softmax Function Definition, DeepAI

Softmax

Comments

Explore more like this

ArcFace，CosFace，SphereFace，三种人脸识别算法的损失函数(Loss Function)的设计

最近看了点人脸识别算法，发现ArcFace，CosFace，SphereFace的损失函数（Loss Function）设计得非常有意思，且设计理念都是相似的，因此今天就记一篇损失函数的设计。

Cross Entropy Loss

交叉熵度量的是两个概率分布的差异。 要理解交叉熵，有很多小概念需要理解。 信息量，一个事件发生的概率越大，事件发生携带的信息量越小，发生的概率越小，事件发生携带的信息量越大

交叉熵度量的是两个概率分布的差异。要理解交叉熵，有很多小概念需要理解。信息量，一个事件发生的概率越大，事件发生携带的信息量越小，发生的概率越小，事件发生携带的信息量越大