Facit til forløbet "Kan vi genkende håndskrevne tal?"

Gennemsnitlig pixelværdi

Ciffer: 0

Hvis datasættet grupperes fra \(20\) til \(64\) i intervaller med en bredde på \(2\) fås det udvidede kvartilsæt til:

\[ (20, 38, 44.9, 50.5, 64) \]

Ciffer: 1

Hvis datasættet grupperes fra \(8\) til \(34\) i intervaller med en bredde på \(2\) fås det udvidede kvartilsæt til:

\[ (8, 16.4, 20.7, 23.7, 34) \] Boksplots

Antal hvide pixels

Ciffer: 0

Hvis datasættet ikke grupperes fås det udvidede kvartilsæt til:

\[ (23, 26, 28, 29, 34) \]

Ciffer: 1

Hvis datasættet ikke grupperes fås det udvidede kvartilsæt til:

\[ (27, 36, 38, 40, 44) \]

Gennemsnitlig pixelværdi

Ved \(x=30.2\) bliver 5 klassificeret forkert. Det giver en klassifikationsnøjagtighed på \(97.5 \%\).

Antal hvide pixels

Ved \(y=31.5\) bliver 3 klassificeret forkert. Det giver en klassifikationsnøjagtighed på \(98.5 \%\).

Begge features

Det kan ikke gøres bedre, selvom vi bruger begge features.

Hvis man bruger en pixelopløsning på \(14 \times 14\) eller \(28 \times 28\) pixels bliver mindst 4 cifre klassificeret forkert.

Det er helt umuligt at kende forskel på 0 og 3-taller, hvis man bruger den gennemsnitlige pixelværdi og antallet af hvide pixels. Dette er illustreret her:

  • Plot af \((\textrm{lodret}_\textrm{gns}, \textrm{vandret}_\textrm{gns})\):

  • Det kan ikke lade sig gøre at klassificere cifrene med id 3, 8, 35, 54, 327, 344, 398 korrekt.

  • Klassifikationsnøjagtigheden er \(96.5 \%\).

  • Plot af \((\textrm{lodret}_\textrm{gns}, \textrm{vandret}_\textrm{gns})\) baseret på en pixel-opløsning på \(7\):

    Som det kan ses på ovenstående plot, giver en pixel-opløsning på \(7\) faktisk anledning til flere fejl! Det vil sige, at klassifikationsnøjagtigheden falder.

  • Plot af \((\textrm{lodret}_\textrm{gns}, \textrm{vandret}_\textrm{gns})\) baseret på en pixel-opløsning på \(14\):

    Her kan vi komme helt ned på fire cifre (id 8, 326, 327, 329), som misklasifficeres. Det giver en klassifikationsnøjagtighed på \(98 \%\).