Del 6: Maximum likelihood estimation
Forventet tid ca. 120 min.
Aktivitet 1
Start med at se denne video (eller læs afsnittet maksimum likelihood estimation):
Aktivitet 2
Fra afsnittet Maksimum likelihood estimation fandt vi frem til, at log-likelihoodfunktionen kan skrives på denne måde:
\[ \begin{aligned} l(a,b) =\sum_{i=1}^n\big( {y_i}\cdot \ln(p(x_i))+(1-y_i)\cdot \ln(1-p(x_i)) \big), \end{aligned} \tag{1}\]
hvor
\[ p(x_i) = \frac{ 1}{1 + e^{-(ax_i + b)}}=\frac{e^{ax_i + b}}{1+e^{ax_i +b}}. \tag{2}\]
Bestemmelse af \(a\) og \(b\) med Excels problemløser-værktøj
Vi vil nu finde estimater for \(a\) og \(b\) ved hjælp af Excel. Først og fremmest skal man sørge for, at man har aktiveret problemløser-værktøjet. Det gøres på følgende måde:
- Gå op under filer og vælg indstillinger.
- Vælg derefter tilføjelsesprogrammer.
- Nederst vælges Excel-tilføjelsesprogrammer. Tryk på udfør.
- Vælg til sidst tilføjelsesprogrammet problemløser fra en liste.
På billedet ses, hvordan man kan lave et lille regneark til at beregne de relevante størrelser. Der er lavet et par celler til de ukendte parametre \(a\) og \(b\), som med fordel kan sættes til 0 fra starten for at undgå numeriske problemer i Excel. Det oprindelige datasæt indsættes i søjlerne \(x_i\) og \(y_i\). I de næste søjler beregnes odds, \(p(x_i)\) og \(\ln(p_i)\) med formlerne1 \[\begin{align*} odds &= e^{ax_i + b}\\ p(x_i) &= \frac{e^{ax_i + b}}{1+e^{ax_i +b}} = \frac{odds}{1+odds}\\ \ln(p_i)&= {y_i}\cdot \ln(p(x_i))+(1-y_i)\cdot \ln(1-p(x_i)). \end{align*}\]
1 I Excel på dansk fås eksponentialfunktionen ved at skrive EKSP (og EXP i den engelske version). For at få den naturlige logaritmen skriver man LN i begge tilfælde.
Her er det vigtigt, at cellerne, der indeholder værdien af \(a\) og \(b\), benyttes når oddsene beregnes (det vil være smart med fastlåsning af referencerne, hvor man har $ foran både tal og bogstav ved reference). Til sidst finder man \(l(a,b)\) i det blå felt ved at beregne summen af alle \(\ln(p_i)\), som i formlen (1).
Nu mangler man bare at benytte problemløseren til at finde de værdier af \(a\) og \(b\), der gør værdien i det blå felt maksimal. På billedet er der vist med rød, hvor man finder problemløseren, og hvad der skal justeres. Målsætningen er den blå celle, der indeholder summen. Variabelcellerne er de to, der indeholder \(a\) og \(b\). Sørg for ikke at sætte flueben i boksen "Gør variabler uden begrænsninger ikke-negative". Tryk på løs.