Læs afsnittet "Model for sandsynligheder" i noten Word2Vec.
Vi starter med at minde om definitionen af Softmax:
Softmax
Hvis \(\vec{y}\) er en vektor med \(V\) koordinater:
\[ \vec{y} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_V \end{pmatrix} \]
så er \(\text{Softmax}\big(\vec{y}\big)=\vec{z}\), hvor \(\vec{z}\) er en ny vektor med \(V\) koordinater. Den \(i\)’te koordinat i \(\vec{z}\) er givet ved
\[ z_i = \frac{\mathrm{e}^{y_i}}{\mathrm{e}^{y_1} + \dotsm + \mathrm{e}^{y_V}} \tag{1}\]
Husk på, at vi betegner sandsynligheden for, at \(\text{ord}_i\) er et kontekstord til \(w\), med
\[ P(\text{ord}_i\mid w) \] Denne sandsynlighed beregnes ved først at bestemme skalarproduktet
\[ y_i = \vec{v}_{w}\cdot \vec{k}_{\text{ord}_i} \] for \(i \in \{1, 2, ..., V\}\), hvor \(V\) er antallet af ord i vores ordforråd.
Herefter bruges Softmax:
\[ \begin{aligned} P(\text{ord}_i\mid w) &= z_i = \frac{\mathrm{e}^{y_i}}{\mathrm{e}^{y_1} + \dotsm + \mathrm{e}^{y_V}} \\ &= \frac{\mathrm{e}^{\vec{v}_{w}\cdot \vec{k}_{\text{ord}_i}}}{\mathrm{e}^{\vec{v}_{w}\cdot \vec{k}_{\text{ord}_1}} + \dotsm + \mathrm{e}^{\vec{v}_{w}\cdot \vec{k}_{\text{ord}_V}}} \end{aligned} \tag{2}\]