Sammenligning af DNA-strenge
Formål
Formålet med dette forløb er at give en kort introduktion til, hvordan man kan måle afstanden eller forskellen mellem noget, som ikke er tal. Her skal vi konkret se på forskellen mellem to tekststrenge og mellem to DNA strenge.
Hvor ens er to tekster?
I forbindelse med at undersøge om en tekst, for eksempel en dansk stil, er plagiat, bliver det relevant at sammenligne, hvor ens to tekster er. Helt så avanceret bliver det dog ikke her.
Vi vil kun se meget simpelt på ord med \(5\) bogstaver, og hvordan man for eksempel kan måle afstande mellem forskellige ord. Vi vil se på alle kombinationer af \(5\) bogstaver, også for eksempel "xtmsp", selvom de ikke er normale ord.
DNA-strenge og alignment
Uden i øvrigt at komme ind på biologien repræsenteres DNA som meget lange tekststrenge. Når mennesker og chimpanser er meget ens, kommer det til udtryk ved, at DNA-strengen for et menneske ligner den for en chimpanse meget, der er altså en kort afstand mellem DNA for et menneske og DNA for en chimpanse. Indenfor biologien kaldes dette for alignment. I stedet for at sammenligne på DNA niveau, sammenlignes også nogle gange på aminosyre niveau, hvilket vi vil bruge her.
Følgende eksempel, der viser et meget lille udsnit af sådanne koder fra mus, rotter, mennesker og gær er taget fra Tema12-Link5.pdf (nucleus.dk), der kan anbefales, hvis man ønsker at arbejde mere med alignment.
| Dyr | Kode |
|---|---|
| Mus | S W A W A E G W T R Y G P |
| Rotte | K W V W A E G W T R Y G P |
| Menneske | A W A W A E G W T R Y G P |
| Gær | E W L R K P G W V K Y V P |
Hvis afstanden her regnes som antal bogstaver, der er forskellige, ses det at afstanden mellem mus og rotte er på \(2\), som vist nedenfor.
| Dyr | Kode |
|---|---|
| Mus | S W A W A E G W T R Y G P |
| Rotte | K W V W A E G W T R Y G P |
Når resultatet sikkert virker overraskende, skyldes det, at vi kun har set på et meget lille udsnit af DNA for de fire. I figur 1 har man set på hele det protein, som udsnittet stammer fra, og her bliver resultatet mere som forventet.