Læs afsnittet "Fokus- og kontekstvektorer" i noten Word2Vec.
Husk på denne vigtige pointe:
Vi vil gerne have, at vores fokus- og kontekstvektorer skal opfylde, at hvis \(w\) ofte har \(c\) som kontekst, så er skalarproduktet \(\vec{v}_{w}\cdot \vec{k}_{c}\) stort, mens en meget negativ værdi af \(\vec{v}_{w}\cdot \vec{k}_{c}\) indikerer, at \(w\) sjældent har \(c\) som kontekst.
Lad os sige, at vi har lavet 2-dimensionale fokus- og kontekstvektorer, som beskrevet i afsnittet "Fokus- og kontekstvektorer".
\[ \begin{aligned} &\vec{v}_{\text{bil}} = \begin{pmatrix} -2\\ 1\end{pmatrix}, \quad \vec{v}_{\text{cykel}} = \begin{pmatrix} -1\\ 2\end{pmatrix} \\ &\vec{k}_{\text{hjul}} = \begin{pmatrix} -1.5\\1.5\end{pmatrix}, \quad \vec{k}_{\text{motor}} = \begin{pmatrix} -2\\ 0 \end{pmatrix}, \quad \vec{k}_{\text{jordbær}} = \begin{pmatrix} 3\\-1 \end{pmatrix} \end{aligned} \]
Udregn skalarprodukterne \(\vec{v}_{\text{cykel}}\cdot \vec{k}_{\text{hjul}}\) og \(\vec{v}_{\text{cykel}}\cdot \vec{k}_{\text{jordbær}}\). Passer det med, hvilket ord, der oftest er kontekst til "cykel"?
Udregn skalarprodukterne \(\vec{v}_{\text{cykel}}\cdot \vec{k}_{\text{motor}}\) og \(\vec{v}_{\text{bil}}\cdot \vec{k}_{\text{motor}}\). Passer det med, hvilket fokusord, der oftest har "motor" som kontekst?
Udregn skalarprodukterne \(\vec{v}_{\text{cykel}}\cdot \vec{k}_{\text{hjul}}\) og \(\vec{v}_{\text{bil}}\cdot \vec{k}_{\text{hjul}}\). Sammenlign med resultatet for kontekstordet "motor" i opgaven før og kommentér på resultatet.
Tegn alle vektorerne ind i et koordinatsystem. Passer det med, hvordan vi gerne vil have vektorerne til at ligge?
Antag, at vi har lavet 3-dimensionale fokus- og kontekstvektorer som beskrevet i afsnittet "Fokus- og kontekstvektorer". Så skulle ord, der ofte har samme kontekst, gerne have fokusvektorer af nogenlunde samme længde og retning, mens fokusvektorerne for ord, der betyder noget helt forskelligt, kan have meget forskellig længde og retning. Antag, at fokusvektorerne for "kat", "hund", "mis" og "kælk" er \[ \begin{aligned} \vec{v}_{\text{kat}}=\begin{pmatrix}0\\2\\1 \end{pmatrix},\quad \vec{v}_{\text{hund}}=\begin{pmatrix}0\\1.2\\1.8\end{pmatrix}, \\ \\ \vec{v}_{\text{mis}}=\begin{pmatrix}-0.5\\2\\0.8\end{pmatrix},\quad \vec{v}_{\text{kælk}}=\begin{pmatrix} 0\\-1\\-2 \end{pmatrix} \end{aligned} \]
- Find længden af de fire vektorer.
- Find vinklen mellem \(\vec{v}_{\text{kat}}\) og de tre øvrige vektorer.
- Stemmer resultatet overens med, hvilke ord der er tættest på "kat" i betydning?
- Tegn vektorerne ind i GeoGebra. Skriv for eksempel
kat=(0,2,1)
i inputfeltet i GeoGebra og vælg derefter "Vis" \(\rightarrow\) "3D Grafik".
Antag, at vi har lavet 4-dimensionale fokus- og kontekstvektorer således, at jo større skalarproduktet \(\vec{v}_{w}\cdot \vec{k}_{c}\) er, desto mere sandsynligt er det, at ordet \(w\) har \(c\) som kontekst. vektoren for "hund" og kontekstvektorerne for "pels" og "fjer" er \[ \begin{aligned} \vec{v}_{\text{hund}}=\begin{pmatrix} 0.5\\2\\1\\-1\end{pmatrix} ,\quad \vec{k}_{\text{pels}}=\begin{pmatrix} 0\\3\\2\\-2\end{pmatrix},\quad \vec{k}_{\text{fjer}}=\begin{pmatrix} 1\\-2\\1.5\\0.5\end{pmatrix} \end{aligned} \]
- Udregn skalarprodukterne \(\vec{v}_{\text{hund}}\cdot \vec{k}_{\text{pels}}\) og \(\vec{v}_{\text{hund}}\cdot \vec{k}_{\text{fjer}}\).
- Passer det med, hvilket af ordene "pels" og "fjer" der er mest sandsynligt som kontekst til "hund"?