Lad os sige, at vi har spurgt 10 personer, om de ved, hvad "skibidi toilet" betyder. De 7 svarede "Ja", og de 3 svarede "Nej". Vi sætter targetværdien \(t=1\) for "Ja" og \(t=0\) for "Nej".
Vi skal så ud fra en eller flere feature variable for hver person træne en kunstig neuron til at kunne klassificere, om en ny person ved, hvad "skibidi toilet" betyder.
Vi vil dog ikke fokusere på netværket, men på mulige værdier af tabsfunktionen, idet vi bruger squared error som tabsfunktion: \[ E = \frac{1}{2} \sum \left (t-o \right)^2 \tag{1}\] hvor der summeres over alle træningsdata.
Så \(o=0.5\) giver os et udgangspunkt, som værdien af tabsfunktionen i hvert fald bør komme under, men mon ikke det kan blive bedre end det?
Normalt vil outputværdien \(o\) afhænge af vores feature variable. Men som vi gjorde det i opgave 3, vil vi nu prøve at undersøge nærmere, hvad der sker, hvis vi fastholder outputværdien på en fast værdi \(o=p\) for alle input. Det vil sige, at vi vil se på tabsfunktionen som en funktion af \(p\) alene: \(E(p)\).