Formålet med dette forløb er at få en forståelse for, hvordan streamingtjenester og sociale medier kan lave individualiserede anbefalinger til sine brugere. Herunder hvordan samarbejds- og indholdsbaserede algoritmer virker.
Anbefalet til dig
Læs indledningen i noten Anbefalet til digindtil afsnittet "En samarbejdsbaseret algoritme".
NoteOpgave 1: Samarbejds- og indholdsbaserede algoritmer
Beskriv med dine egne ord, hvad forskellen er på samarbejds- og indholdsbaserede algoritmer.
En online elektronikbutik har 1.000.000 kunder. Heraf har 235.476 købt en computer, 423.517 har købt en mus og 114.237 købt et tastatur, 23.127 har købt både computer og mus, mens 51.633 har købt både computer og tastatur.
Beregn frekvensen af \(F_{\{\text{computer}\}}\), \(F_{\{\text{mus}\}}\), \(F_{\{\text{tastatur}\}}\), \(F_{\{\text{computer,mus}\}}\) og \(F_{\{\text{computer, tastatur}\}}\). Hvilken vare var mest populær?
Beregn \(\hat{P}( F_{\text{mus}} \mid F_{\text{computer}})\) og \(\hat{P}(F_{\text{tastatur}} \mid F_{\text{computer}} )\). Hvilken vare ville du anbefale til en bruger, der lige har købt en computer?
Beregn frekvenserne af \(F_{\{\text{Blinkende Lygter}\}}\), \(F_{\{\text{Olsen-banden}\}}\) og \(F_{\{\text{Blinkende Lygter, Olsen-banden}\}}\).
Beregn \(\hat{P}(F_{\text{Olsen-banden}}\mid F_{\text{Blinkende lygter}} )\) og \(\hat{P}( F_{\text{Hævnen}}\mid F_{\text{Blinkende lygter}})\). Hvilken film ville du foreslå en bruger, der lige har set "Blinkende lygter"?
Brugernummer
"Blinkende lygter"
"Olsen-banden"
"Hævnen"
1
1
0
0
2
1
0
1
3
1
1
1
4
0
0
1
Tabel 1: Eksempel på et datasæt med \(p=3\) film og \(n=4\) brugere. Hver række svarer til en bruger, hvor 1 angiver at brugeren har set filmen, mens 0 angiver at brugeren ikke har set filmen.
Betragt den multiple regressionsmodel for brugeren i eksempel 3 i afsnittet, som du lige har læst. Altså
\[\hat{r}= 2 - 0.02x_1 + 0.05x_2 \tag{1}\]
Lad os se på film med \(x_2=0\), det vil sige film uden action.
Redegør for, at hvis vi sætter \(x_2=0\) i (1), så får vi, at \(\hat{r}\) er en lineær funktion af \(x_1\).
Hvad er hældning og skæring i modellen?
Tegn den rette linje ind i et koordinatsystem.
Hvad sker der med ratings, når indholdet af romantik stiger?
Prøv i stedet at sætte \(x_2=50\) i modellen.
Hvad er hældning og skæring nu?
Tegn den tilhørende rette linje ind i samme koordinatsystem som linjen for \(x_2=0\).
Hvad er forskellen på de to linjer?
Vi gør nu det samme for fastholdt \(x_1\).
Sæt \(x_1=10\), og tegn den tilhørende linje ind i et koordinatsystem med \(x_2\) på \(x\)-aksen.
Gør det samme for \(x_1=60\).
Hvad sker der med ratings, når andelen af action stiger?
NoteOpgave 5: Ratings af film
Vi betragter 3 features, nemlig varighed, produktionsår (regnet i forhold til år 2000), og vurdering på IMDb. Tre film har følgende features:
"Titanic"
"Olsen-banden ser rødt"
"Jagten"
\(x_1\)
Varighed (min)
194
105
115
\(x_2\)
År - 2000
-3
-24
12
\(x_3\)
IMDb rating
7.9
7.7
8.3
En bruger, som foretrækker gamle film, men hader lange film, har vægtene \(p_1=-0.01\), \(p_2=-0.1\) og \(p_3= 0.1\) samt \(b=2.8\). Prædiktér brugerens ratings af de tre film. Hvilken film ville du anbefale brugeren?
En anden bruger foretrækker film af god kvalitet, men går ikke op i varighed og alder. Vedkommende har derfor præferencerne \(b=-1\), \(p_1=0\), \(p_2=0\), \(p_3=0.6\). Prædiktér brugerens ratings og anbefal en film.
Tabel 2
NoteOpgave 6: Multipel regressionsmodel med én variabel
Gør rede for, at en multipel regressionsmodel som i \[ \hat{r}=b + p_1x_1 + p_2x_2, \] med én variabel, er det samme som en almindelig regressionsmodel, som I kender det fra gymnasieundervisningen.
Vis, at de partielle afledede er som givet i (2). Bemærk, at da \(E\) er en sum, kan den differentieres ledvist. Det er altså nok at vise, at \[
\begin{aligned}
&\frac{\partial (r_j-\hat{r}_j)^2}{\partial p_1} = -2x_{1j}(r_j-\hat{r}_j)\\
&\frac{\partial (r_j-\hat{r}_j)^2}{\partial p_2} = -2x_{2j}(r_j-\hat{r}_j) \\
&\frac{\partial (r_j-\hat{r}_j)^2}{\partial b} = - 2(r_j-\hat{r}_j)
\end{aligned}
\]
Lav en tabel over alle de prædikterede ratings \(\hat{r}_{ij}\).
Beregn prædiktionsfejlen \(r_{ij}-\hat{r}_{ij}\) for alle de film, der faktisk er blevet ratet af brugerne (det vil sige, hvor \(r_{ij}\neq NA\) i tabellen over ratings i punkt 1).
Beregn tabsfunktionen \(E\).
Tabel 3
Tabel 4
Tabel 5
NoteOpgave 10: Partielle afledede
Vis, at de partielle afledede af \((r_{ij}-\hat{r}_{ij})^2\) med hensyn til vægtene er givet ved formlerne (5), (6) og (7) her under.