Del 1: Logistisk regression
Forventet tid ca. 90 min.
Aktivitet 1
Start med at se denne video (eller læs afsnittet logistisk regression og hjerte-kar-sygdom):
Aktivitet 2
Hent datasættet med de 2000 datapunkter.
Aktivitet 3
Genskab denne figur
fra afsnittet logistisk regression og hjerte-kar-sygdom ud fra de første 100 punkter og overvej, hvorfor det er en dårlig ide at bruge alle 2000 punkter. Du kan enten gøre det i dit eget CAS værktøj eller i Excel.
Hvis du ikke er vant til at lave grafer i Excel, er det nok lettest at anvende det program, som du normalt bruger.
Aktivitet 4
Inddel de 2000 datapunkter i intervaller som vist i denne tabel:
Blodtryk | Rask | Syg | Andel syge |
---|---|---|---|
(75,100] | 168 | 29 | 0.147 |
(100,125] | 195 | 45 | 0.188 |
(125,150] | 143 | 63 | 0.306 |
(150,175] | 152 | 105 | 0.409 |
(175,200] | 93 | 135 | 0.592 |
(200,225] | 57 | 136 | 0.705 |
(225,250] | 46 | 179 | 0.796 |
(250,275] | 25 | 204 | 0.891 |
(275,300] | 19 | 206 | 0.916 |
Dette kan for eksempel gøres ved hjælp af en pivottabel i Excel som beskrevet nedenfor.
Aktivitet 5
Lav lineær regression ud fra data i tabel 1 og genskab derved denne figur:
Husk at bruge midtpunktet af hvert interval. Brug det program, du normalt anvender til at lave lineære regression.