Test for sygdomme
Formål
Dette forløb handler om at forstå forskellige sandsynligheder i forbindelse med test for sygdomme. Du skal blandt lære, hvad sensitivitet, specificitet, prævalens samt positiv og negativ prædiktiv værdi betyder.
Når en sygdom er smitsom, vil vi ofte være interesseret i at teste for sygdommen, så eventuelt smittede personer undgår at smitte andre. Som eksempel kan nævnes det omfattende testprogram, vi så under Covid-19 pandemien. Seksuelt overførte sygdomme, som for eksempel klamydia, vil også typisk være genstand for test.
Sensitivitet og specificitet
Når man tester for en sygdom, vil man måske umiddelbart tænke, at hvis testen er positiv, så er man syg, og hvis testen er negativ, så er man rask. Men det behøver faktisk ikke at være tilfældet. Man kan godt være rask, selvom testen er positiv (det kalder man for en falsk positiv), og man kan godt være syg, som testen er negativ (det kalder man for en falsk negativ). Det er fordi, at der ikke findes nogen test, som er helt perfekt!
Det vil sige, at resultatet af en test vil falde i én af følgende fire kategorier:
| Syg | Rask | |
|---|---|---|
| Positiv test | Sand positiv (SP) | Falsk positiv (FP) |
| Negativ test | Falsk negativ (FN) | Sand negativ (SN) |
Det er klart, at man selvfølgelig helst vil have en test, hvor flest mulige lander i diagonalen med sande positive og sande negative.
En god test skal derfor have følgende egenskaber:
- Hvis testen anvendes på en syg person, så skal sandsynligheden for, at testen bliver positiv, være høj.
- Hvis testen anvendes på en rask person, så skal sandsynligheden for, at testen bliver negativ, være høj.
Disse to betingede sandsynligheder kaldes for henholdsvis sensitivitet og specificitet og kan skrives matematisk sådan her:
\[ \mathrm{sensitivitet } = P(\textrm{positiv test } | \textrm{ syg}) \] og
\[ \mathrm{specificitet } = P(\textrm{negativ test } | \textrm{ rask}) \]
Det er klart, at hvis en test skal være god, så ønsker vi, at både sensitiviteten og specificiteten er tæt på \(100 \%\).
Prævalens
Blandt alle dem, vi tester, vil en vis andel i virkeligheden være syge. Det kaldes for sygdommens prævalens. Det vil sige:
\[ \mathrm{prævalens } = P(\textrm{syg}) \]
Positiv og negativ prædiktiv værdi
Hvis du bliver testet for en sygdom, så vil du enten stå med en positiv eller en negativ test, og du er dybest set slet ikke interesseret i ovenstående sandsynligheder (sensitivitet, specificitet og prævalens)! Du vil i stedet stille dig selv ét af følgende to spørgsmål:
- Min test er positiv – hvad er sandsygligheden for, at jeg rent faktisk er syg?
eller
- Min test er negativ – hvad er sandsygligheden for, at jeg rent faktisk er rask?
Du vil jo gerne undgå, at din test enten er falsk positiv eller falsk negativ.
Ovenstående sandsynligheder kaldes for den positive prædiktive værdi og den negative prædiktive værdi. Skrevet som en betinget sandsynlighed bliver det:
\[ \textrm{positiv prædiktiv værdi } = P(\textrm{syg } | \textrm{ positiv test}) \] og
\[ \textrm{negativ prædiktiv værdi } = P(\textrm{rask } | \textrm{ negativ test}) \]
Du undrer dig måske over, at den positive prædiktive værdi er så forholdsvis lav (under \(40 \%\)), mens den negative prædiktive værdi er så tæt på 100%. Men det er fordi, at den positive og negative prædiktive værdi ikke kun afhænger af testens sensitivitet og specificitet, men også af prævalensen af sygdommen (i den gruppe vi tester iblandt). Hvis vi ser på, hvad vi ved, inden vi overhovedet begynder at teste (det kaldes for a priori sandsynligheder), så er det følgende:
\[P(\textrm{syg})= 5 \%\]
og dermed også, at
\[P(\textrm{rask})= 95 \%\] Det vil sige, at inden vi har taget testen, er vi ret sikre på, at vi er raske. Får vi så (som forventet) en negativ test, så bliver vi bare endnu mere sikre på, at vi er raske (svarende til en negativ prædiktiv værdi på \(99.2 \%\)). Får vi derimod en positiv test, så bliver vi lidt mere sikre på, at vi er syge. Vi opjusterer altså fra en a priori sandsynlighed på \(5 \%\) til en positiv prædiktiv værdi på \(36.1 \%\). Men fordi at sandsynligheden for at være syg på forhånden er så lille, så vil en positiv test stadig efterlade en vis chance for, at vi rent faktisk ikke er syge alligevel!
Det virker måske underligt, men forestil dig, at vi laver graviditetstest blandt mænd. Da ingen test er perfekt (sensitivitet og specificitet vil altid være under \(100 \%\)), så vil der før eller siden ske det, at en af mændene tester positiv. Men her er det ret tydeligt, at prævalensen (det vil sige sandsynligheden for at være gravid), blandt dem vi tester (det vil sige mænd), er \(0 \%\). Derfor bliver den positive prædiktive værdi også \(0 \%\), selvom testen er positiv! Men det er selvfølgelig også lidt åndsvagt at lave graviditetstest blandt mænd…!
Hvis vi tester en hel befolkning for eksempelvis corona, så vil prævalensen være forholdsvis lav. Tester vi derimod kun blandt personer, som har symptomer på corona, så vil prævalens straks være højere. Vi skal nu undersøge, hvilken betydning det har på den positive og negative prædiktive værdi.
Ordbog
Inden vi går videre, samler vi lige alle begreberne ét sted:
Ordbog
Sensitivitet: \(P(\textrm{positiv test } | \textrm{ syg})\)
Specificitet: \(P(\textrm{negativ test } | \textrm{ rask})\)
Prævalens: \(P(\textrm{syg})\)
Positiv prædiktiv værdi: \(P(\textrm{syg } | \textrm{ positiv test})\)
Negativ prædiktiv værdi: \(P(\textrm{rask } | \textrm{ negativ test})\)
Bayes formel (mest for A-niveau)
Hvis du har læst afsnittet om Betinget sandsynlighed og uafhængighed så ved du, at en betinget sandsynlighed er defineret på følgende måde:
\[ P(A | B) = \frac{P(A \cap B)}{P(B)} \] Og du har lært, at hvis man bruger det lidt smart, så kan man bevise Bayes’ sætning, som siger, at
\[ P(A | B) = \frac{P(B|A) \cdot P(A)}{P(B)} \]
Det vil vi nu udnytte til at opskrive et udtryk for den positive prædiktive værdi:
\[ P(\textrm{syg } | \textrm{ positiv test}) = \frac{P(\textrm{positiv test } | \textrm{ syg}) \cdot P(\textrm{syg})}{P(\textrm{positiv test})} \]
Udnytter vi definitionen af sensitivitet og prævalens, så kan vi omskrive tælleren til
\[ P(\textrm{syg } | \textrm{ positiv test}) = \frac{\textrm{sensitivitet} \cdot \textrm{prævalens}}{P(\textrm{positiv test})} \tag{1}\]
Nu mangler vi at finde et udtryk for nævneren. Der må gælde, at
\[ P(\textrm{positiv test}) = P(\textrm{positiv test } \cap \textrm{ syg}) + P(\textrm{positiv test } \cap \textrm{ rask}) \] Bruger vi definitionen på betingede sandsynligheder, kan vi skrive ovenstående som
\[ \begin{aligned} P(\textrm{positiv test} &) = \\ P(&\textrm{positiv test } | \textrm{ syg} ) \cdot P(\textrm{syg}) + P(\textrm{positiv test } | \textrm{ rask}) \cdot P(\textrm{rask}) \end{aligned} \] Det her er faktisk Loven om total sandsynlighed, som vi behandlede i afsnittet Opdeling og sandsynlighed.
Vi udnytter nu, at \[P(\textrm{rask})+P(\textrm{syg})=1\] og dermed, at \[P(\textrm{rask}) = 1- P(\textrm{syg})\] Tilsvarende er også \[P(\textrm{positiv test } | \textrm{rask}) = 1-P(\textrm{negativ test } | \textrm{rask})\] Derfor er
\[ \begin{aligned} P(\textrm{positiv test}&) \\ = P(&\textrm{positiv test } | \textrm{ syg} ) \cdot P(\textrm{syg}) + \left ( 1 - P(\textrm{negativ test } | \textrm{ rask}) \right ) \cdot \left ( 1- P(\textrm{syg}) \right ) \end{aligned} \]
Men nu er sandsynligheden for at teste positiv alene udtrykt ved hjælp af sensitiviteten, specificiteten og prævalensen:
\[ P(\textrm{positiv test}) = \textrm{sensitivitet} \cdot \textrm{prævalens} + \left ( 1 - \textrm{specificitet} \right ) \cdot \left ( 1- \textrm{prævalens} \right ) \] Indsætter vi dette i (1), får vi
\[ \begin{aligned} P(\textrm{syg } &| \textrm{ positiv test}) \\ &= \frac{\textrm{sensitivitet} \cdot \textrm{prævalens}}{\textrm{sensitivitet} \cdot \textrm{prævalens} + \left ( 1 - \textrm{specificitet} \right ) \cdot \left ( 1- \textrm{prævalens} \right )} \end{aligned} \tag{2}\]
Bruger vi denne formel til at udregne den positive prædiktive værdi i det tilfælde, hvor prævalensen er \(5 \%,\) sensitiviteten er \(86 \%\) og specificiteten er \(92 \%,\) får vi
\[ \begin{aligned} P(\textrm{syg } | \textrm{ positiv test}) &= \frac{0.86 \cdot 0.05}{0.86 \cdot 0.05 + (1-0.92) \cdot (1-0.05)} \\ &= 0.361=36.1 \% \end{aligned} \]
Det skulle meget gerne stemme med det, du har fået i opgave 4 (men hvor den positive prædiktive værdi blev beregner på baggrund af tabelværdier).