Skibidi toilet
Formål
Formålet med dette forløb er at se på, hvordan man kan vurdere værdien af tabsfunktionen og værdien af klassifikationsnøjagtigheden, når man har trænet en kunstig neuron på et datasæt.
Hvis værdierne vurderes utilfredsstillende, må man forsøge, om andre startvægte, en anden learning rate eller flere iterationer giver et bedre resultat.
Træn neuralt netværk til klassifikation på datasæt
Vi vil se på data fra 200 fiktive personer, der efter et besøg på et museum om internetfænomener bliver spurgt, om de ved, hvad “skibidi toilet” betyder.
Der er to forklarende variable, \(x_1\) er personens alder, og \(x_2\) er besøgets længde i minutter, samt en afhængige variabel \(t\), som angiver, om personen kan huske, hvad “skibidi toilet” betyder (1 betyder Ja, 0 betyder Nej).
Data ligger i Excel-filen her. Vi vil bruge kunstig neuron app’en til at træne en model på disse data.
Det er ikke åbenlyst, om modellen er trænet godt nok, men i det følgende vil vi se på, hvad man i hvert fald kan bruge til at se, at det nok ikke er særligt godt endnu.
Lille eksempel
Lad os sige, at vi har spurgt 10 personer, om de ved, hvad “skibidi toilet” betyder. De 7 svarede Ja, og de 3 svarede Nej. Vi sætter targetværdien \(t=1\) for Ja og \(t=0\) for Nej.
Vi skal så ud fra en eller flere feature-variable for hver person træne en neural neuron til at kunne klassificere, om en ny person ved, hvad “skibidi toilet” betyder.
Vi vil dog ikke fokusere på netværket, men på mulige værdier af tabsfunktionen, idet vi bruger *squared-error”: \[ E = \frac{1}{2} \sum \left (t-o \right)^2 \tag{1}\]
Så \(o=0.5\) giver os et udgangspunkt, men mon ikke det kan blive bedre end det?
Som opgave 3 viser, så afhænger tabsfunktionen \(E\) af værdien af \(p\), så vi kan se på funktionen \(E(p)\).
Generalisering
I matematik vil vi rigtigt gerne generalisere, så vi ikke bare ser på et lille eksempel med \(10\) personer, hvor andelen \(q=\frac{7}{10}\) svarer ja, men på noget mere generelt.
Lad os derfor sige, at vores datasæt er med \(n\) personer, og at andelen af personer, som svarer ja, betegnes med \(q\). Der vil derfor være \(q \cdot n\) personer, som svarer Ja og \((1-q) \cdot n\) personer, som svarer Nej.
Tilbage til datasættet med de 200 punkter
Med disse overvejelser skal vi tilbage til datasættet med de 200 person om “skibidi toilet”. Vi skal se, om den model, vi trænede med appen, ser ud til måske at være trænet godt nok.
Klassifikationsnøjagtigheden
Måske du i opgave 1 så på klassifikationsnøjagtigheden (CA). Hvis ikke, så lav opgave 1.
Måske du har undret dig over, at vi både taler om værdien af tabsfunktionen og om CA, som jo begge siger noget om, hvor god modellen er.
Vi håber naturligvis, at vi ved at minimere værdien af tabsfunktionen får predikteret flere tilfælde korrekt, men som opgave 8 viser, så er der ikke 100% en sammenhæng mellem lavere værdi af tabsfunktionen og bedre klassefikationsnøjagtighed.
Løsninger til opgaver
ikke lavet endnu.