Del 1: Logistisk regression

Forventet tid ca. 90 min.

Aktivitet 1

Start med at se denne video (eller læs afsnittet logistisk regression og hjerte-kar-sygdom):

Aktivitet 2

Hent datasættet med de 2000 datapunkter.

Aktivitet 3

Genskab denne figur

fra afsnittet logistisk regression og hjerte-kar-sygdom ud fra de første 100 punkter og overvej, hvorfor det er en dårlig ide at bruge alle 2000 punkter. Du kan enten gøre det i dit eget CAS værktøj eller i Excel.

Hvis du ikke er vant til at lave grafer i Excel, er det nok lettest at anvende det program, som du normalt bruger.

Aktivitet 4

Inddel de 2000 datapunkter i intervaller som vist i denne tabel:

Blodtryk Rask Syg Andel syge
(75,100] 168 29 0.147
(100,125] 195 45 0.188
(125,150] 143 63 0.306
(150,175] 152 105 0.409
(175,200] 93 135 0.592
(200,225] 57 136 0.705
(225,250] 46 179 0.796
(250,275] 25 204 0.891
(275,300] 19 206 0.916
Tabel 1: Tabel over syge og raske inden for forskellige blodtryksintervaller.

Dette kan for eksempel gøres ved hjælp af en pivottabel i Excel som beskrevet nedenfor.

  • Vælg “Indsæt pivottabel” i Excel og vælg dataområde og placering. Bemærk, at du skal gøre dette under menuen “Indsæt”, og hvis du finder “pivotdiagram” et sted, er det ikke det rigtige, det skal være pivottabel. Når du klikker på “Eksisterende regneark” skal du klikke det sted i regnearket, hvor du vil have pivottabellen placeret.

  • Indstil pivottabellen som vist på figuren nedenfor. Bemærk, at du skal trække Blodtryk og Syg ned fra listen for oven til "Kolonner", "Rækker" og "Værdier" i bunden. Under "Værdier" vil der i første omgang stå "Sum af Syg", så klik på pilen, vælg "Værdifeltindstillinger" og ændr det til "Antal af syg".

  • Højreklik på én af værdierne for blodtryk i pivottabellen, vælg "Grupper" og vælg indstillinger for intervallerne.

Herefter skal det se således ud:

Aktivitet 5

Lav lineær regression ud fra data i tabel 1 og genskab derved denne figur:

Figur 1: Grafen for \(p(x)\) tilnærmet med en ret linje.

Husk at bruge midtpunktet af hvert interval. Brug det program, du normalt anvender til at lave lineære regression.