AI, klimaudfordringer og sammenstyrtede broer

01_A-niveau

04_Kort

Forudsætninger og tidsforbrug

Forløbet kræver kendskab til:

Lineær regression.

Tidsforbrug: 2 x 90 minutter.

Formål

I 2018 styrtede dele af Morandi broen i Genova, Italien sammen og 43 mennesker omkom. En del af grunden til katastrofen var for ringe beton.

I 2021 styrtede dele af en 12-etagers bygning sammen i Miami, Florida. 98 mennesker døde. Også her var betonens styrke en del af grunden til katastrofen.

Cement er en betydelig del af beton, og produktionen af cement udgør (https://en.wikipedia.org/wiki/Cement?utm_source=chatgpt.com) af verdens \(\textrm{CO}_2\) udledning, og har derfor en betydelig indflydelse på klimakrisen.

Den årlige produktion af beton er ca. 30 mia. tons, hvilket gør beton til det næstmest anvendte materiale efter vand.

Det er derfor af flere grunde vigtigt at se på modeller for, hvordan beton kan laves med tilstrækkelig høj styrke, men samtidig med så lavt indhold af cement som muligt.

Kemiske laboratorieforsøg er naturligvis meget vigtige til dette – men de er også både dyre og tidskrævende. Så derfor ser man også på matematiske modeller.

Formålet med dette forløb er derfor at se på forskellige metoder til at lave en model for en betons styrke ud fra cementindholdet, vandindholdet og alderen af betonen. Vi vil se på almindelig lineær regression, multipel lineær regression og neurale netværk til at gøre dette.

Introduktion

Vi vil bruge en del af datasættet Concrete Compressive Strength.

I den del af datasættet vi ser på, har vi information om mængden af cement, mængden af vand, hvor mange dage betonen har hærdet (alder) og betonens trykstyrke.

Vi vil lave forskellige modeller til at forudsige trykstyrken ud fra de øvrige tre variable: cement, vand og alder.

Vi vil bruge 80% af datasættet til at træne modellen og 20% af datasættet til at teste, hvor god modellen så er blevet. Det gør vi for at undgå det, man kalder for overfitting, hvor modellen tilpasser sig de konkrete data for godt og derfor bliver ringere til at prædiktere nye data.

Lineær regression

Vi starter med helt almindelig lineær regression, hvor vi både forsøger med cement, vand og alder som forklarende variabel.

Opgave 1

Diskutér, hvordan I forventer, at cement, vand og alder har indflydelse på styrken af betonen.
Lav lineær regression på træningsdatasættet med cement som forklarende variabel:

\[ y_{\textrm{styrke}} = a_{\textrm{cement}} \cdot x_{\textrm{cement}} + b_{\textrm{cement}} \]

Lav lineær regression på træningsdatasættet med vand som forklarende variabel:

\[ y_{\textrm{styrke}} = a_{\textrm{vand}} \cdot x_{\textrm{vand}} + b_{\textrm{vand}} \]

Lav lineær regression på træningsdatasættet med alder som forklarende variabel:

\[ y_{\textrm{styrke}} = a_{\textrm{alder}} \cdot x_{\textrm{alder}} + b_{\textrm{alder}} \]

Det skulle gerne være tydeligt, at ingen af de tre simple lineære modeller er særligt gode. Inden vi går videre til mere komplicerede modeller, vil vi lave det, man kalder for feature-engineering, hvor vi vil gøre to ting:

Den første er, at vi vil se på \(\log(\textrm{alder})\) som variabel i stedet for alder. Betons styrke bliver hurtigt bedre i starten, men derefter er virkningen af alder aftagende. Da grafen for \(\log(\textrm{x})\) netop har den egenskab, at den vokser hurtigere i starten, og derefter flader ud, vil vi forvente, at \(\log(\textrm{alder})\) giver en bedre forklaring.
Den anden pointe er, at mere cement i sig selv gør beton stærkere, mens mere vand gør beton svagere. Det betyder dog ikke, at man helt kan undvære vand, da det netop er blandingen af cement og vand, der skaber betonens styrke gennem hydratiseringsprocessen. Vi tilføjer derfor en ny variabel, \(\frac{\textrm{vand}}{\textrm{cement}}\) (også kendt som vand-cement-forholdet), som udtrykker den præcise balance mellem de to ingredienser, der bestemmer betonens endelige kvalitet.

Opgave 2

Start med at indsætte to nye søjler mellem søjlen med vand og alder – det bliver en fordel senere.
I den første nye søjle beregner du \(\log(\textrm{alder})\) (i Excel tager du \(10\)-tals logaritmen til et tal ved at skrive LOG10).
I den anden nye søjle beregner du \(\frac{\textrm{vand}}{\textrm{cement}}\).
Lav lineær regression på modellen

\[ y_{\textrm{styrke}} = a_{\log(\textrm{alder})} \cdot x_{\log(\textrm{alder})} + b_{\log(\textrm{alder})} \]
Lav lineær regression på modellen

\[ y_{\textrm{styrke}} = a_{\frac{\textrm{vand}}{\textrm{cement}}} \cdot x_{\frac{\textrm{vand}}{\textrm{cement}}} + b_{\frac{\textrm{vand}}{\textrm{cement}}} \]

Multipel lineær regression

Vi har nu fire forklarende variable, hvoraf ingen af dem i sig selv er særligt god til at forklare styrken, men mon det kan gøres bedre, hvis vi bruger alle fire samtidig?

Til det skal vi bruge en ny type model, som kaldes for multipel lineær regression.

\[ \begin{aligned} y_{\textrm{styrke}} = a_{\textrm{cement}} \cdot x_{\textrm{cement}} + & a_{\textrm{vand}} \cdot x_{\textrm{vand}} + \\ &a_{\log(\textrm{alder})} \cdot x_{\log(\textrm{alder})} + a_{\frac{\textrm{vand}}{\textrm{cement}}} \cdot x_{\frac{\textrm{vand}}{\textrm{cement}}} + b \end{aligned} \]

Man kan lave multipel lineær regression i mange forskellige værktøjer for eksempel Excel, Maple eller NSpire.

Opgave 3

Lav den lineære multiple regression med de fire forklarende variable i dit foretrukne værktøj.

Sådan gør du i Excel

Start med at aktivere "Dataanalyse"-værktøjet:

Klik på "Filer" og vælg "Indstillinger".
Tryk på "Tilføjelsesprogrammer".
Under "Administrer" vælger du "Excel-tilføjelsesprogrammer" og trykker på "Udfør".
Vælg her "Analysis ToolPak".

Du kan nu gå i gang med at lave multipel lineær regression:

Vælg fanen "Data" og tryk på "Dataanalyse".
Vælg her "Regression".
Ved "Input for Y-område" vælger du søjlen med styrken (sørg for også at vælge den øverste celle med overskriften).
Ved "Input for X-område" vælger du søjlerne med cement, vand, log(alder) og vand/cement (sørg for også at vælge de øverste celler med overskriften). Vær opmærksom på at disse fire søjler skal stå i et sammenhængende område.
Sæt flueben ved "Etiketter".
Tryk på "OK".
Resultatet bliver nu vist i en ny fane i Excel-arket.

Overvej, hvad værdierne af de fire hældningkoefficienter \(a_{\textrm{cement}}\), \(a_{\textrm{vand}}\), \(a_{\log(\textrm{alder})}\) og \(a_{\frac{\textrm{vand}}{\textrm{cement}}}\) betyder for modellen.

For de almindelige lineære regressioner kunne vi lave et punktplot (scatterplot) med den forklarende variabel (som kaldes for en feature) på \(x\)-aksen og den afhængige variabel (som kaldes for target) på \(y\)-aksen samt regressionslinjen. Den mulighed har vi ikke, når der nu er flere forklarende variable (features), så vi må lave et andet type plot.

Vi vil lave et plot, hvor den rigtige værdi af styrke er på \(x\)-aksen og modellens prædikterede værdi er på \(y\)-aksen. Der skulle nemlig gerne være stor overensstemmelse mellem de to.

Vi vil bruge de fem modeller, vi har lavet – men nu vil vi inddrage de 20% af data, som vi netop havde taget fra til at teste modellerne.

Lad os se på et lille eksempel, inden du selv skal i gang igen. Da vi så på modellen med cement som den eneste forklarende variabel, gav regressionen

\[ y_{\textrm{styrke}} = 0.0779 \cdot x_{\textrm{cement}} + 13.785 \]

I Excel-filen med testdata, ser vi i den første række, at mængden af cement er \(266\) og styrken af betonen \(52.9\). Indsættes \(266\) i modellen, giver det

\[ y_{\textrm{styrke}} = 0.0779 \cdot 266 + 13.785 =34.5 \]

Vi skal derfor have et punkt \((y_{\textrm{data}}, y_{\textrm{model}}) = (52.9, 34.5)\) i plottet. Tilsvarende skal modellens \(y\)-værdien bestemmes for de øvrige rækker i testdata.

Opgave 4

Beregn de øvrige \(y\)-værdier for modellen med cement som eneste forklarende variabel.
Lav punktplottet med \((y_{\textrm{data}}, y_{\textrm{model}})\).
Lav lineær regression på dette plot.
Hvilken ligning ville regressionslinjen få, hvis modellen perfekt kunne forudsige styrken?

Inden vi kan lave samme plot og regression for de øvrige modeller, skal du tilføje søjlerne med \(\log(\textrm{alder})\) og \(\frac{\textrm{vand}}{\textrm{cement}}\) til Excel-arket med testdata.

Opgave 5

Beregn forventede \(y\)-værdier og lav \((y_{\textrm{data}}, y_{\textrm{model}})\)-plot samt lineær regression for hver af de tre øvrige forklarende variable hver for sig: vand, log(alder) og vand/cement (modellerne lavede du i opgave 1 og 2).

Det er, igen, åbenlyst, at en model med kun én forklarende variabel er utilstrækkelig. Hældningskoefficienten for regressionen skulle optimalt være \(1\), men er i alle tilfælde langt under \(1\).

Opgave 6

Beregn forventede \(y\)-værdier og lav \((y_{\textrm{data}}, y_{\textrm{model}})\)-plot samt lineær regression for den multiple lineære regression, som du lavede i opgave 3.

Neuralt netværk

Okay, det var betydeligt bedre, men stadig med plads til forbedringer. Måske du har tænkt på, at vi lovede, at vi skulle bruge AI. Lad os derfor se på, om AI i form af et såkaldt neuralt netværk kan lave en model, som klarer opgaven med at prædiktere betonens styrke bedre.

Opgave 7

Brug app’en til at lave et kunstigt neuralt netværk med to skjulte lag med hver 10 neuroner. Vælg en learning rate på \(0.00001\), \(5000\) iterationer og ReLu som aktiveringsfunktion. Træn netværket på træningsdata og test det på testdata.
Lav \((y_{\textrm{data}}, y_{\textrm{model}})\)-plot samt lineær regression.

Som du lige har opdaget, er det neurale netværk i stand til at klare opgaven lidt bedre end den multiple lineære regression.

Flere forklarende variable

Lad os til sidst se, om vi kan lave en endnu mere præcis model, hvis vi inddrager flere forklarende variable (features).

Her er træningsdata 80% af datasættet til at træne modellen og 20% af datasættet til at teste den.

Åbn hver af de to filer. Tilføj to søjler inden alder, hvor du beregner \(\log(\textrm{alder})\) og \(\frac{\textrm{vand}}{\textrm{cement}}\) (på den måde kommer alle de forklarende variable til at stå i et sammenhængende område).

Opgave 8

Lav multiple lineær regression med alle de forklarende variable.
Lav \((y_{\textrm{data}}, y_{\textrm{model}})\)-plot samt lineær regression.

Opgave 9

Brug app’en til at lave et neuralt netværk på træningsdata fra det store datasæt med flere features.
Lav \((y_{\textrm{data}}, y_{\textrm{model}})\)-plot samt lineær regression med brug af det trænede netværk og testdata.

Vi ender altså med en rimeligt præcist model, når vi tager alle variable med – hvor det neurale netværk gør det bedre end multipel lineær regression.

Fordelen ved den multiple lineære model er, at vi kan tolke på værdierne af koefficienterne. Ulempen er, at modellen har sværere ved at fange ikke-lineære tendenser i data.

Fordelen ved det neurale net er, at det er rigtigt godt til at fange ikke-lineære tendenser. Ulempen er, at vi ikke får koefficienter, som vi kan forstå betydningen af.

Delvis facitliste

Facitliste.