Afstand mellem DNA- og RNA-strenge
RNA er strenge med bogstaverne U (uracil), G (guanin), C (cytosin), A, (adenin). DNA har ikke U, men i stedet T (thymin) og DNA er dobbelt. Bogstaverne U, G, C, A og T kaldes for nukleotider.
Vi ser her på afstande mellem DNA (eller RNA), som bygger på antallet af mutationer for at nå fra den ene til den anden og desuden, hvor hyppige disse mutationer er - hvis man ved, en mutation sker ofte, er afstanden mellem en streng uden mutationen og en med mutationen ikke så lang, som hvis mutationen er meget sjælden. Udover regler for, hvilke ændringer, man tillader, giver man derfor en omkostning ved ændringen – afstanden er ikke bare antal ændringer, men summen af, hvor "dyre" disse ændringer er.
Afstand mellem DNA bruges til at analysere slægtskab og hvilke dyr, herunder mennesket, der nedstammer fra hvilke andre dyr – det kaldes for fylogenetiske træer – se mere her.
I den sammenhæng kalder man skift mellem A og G eller mellem C og T for transitioner1. De fire andre mulige skift mellem A og C, mellem A og T, mellem G og T, mellem G og C, kaldes for transversioner. Transitioner er hyppigere mutationer end transversioner, så afstanden mellem
1 A og G er puriner, mens C og T er pyrimediner. Transition bytter en purin med en purin eller en pyrimedin med en pyrimedin.
Indel mutationer er indsætning ("In") eller fjernelse ("Del" for delete") af et eller flere basepar. Det er mindre hyppigt og svarer til længere afstand. I kilden ovenfor bruges følgende omkostninger og altså afstande mellem DNA-strenge. Bemærk, at det er et valg - der er mange andre muligheder:
Transition: 1
Transversion: 2
Gap åbning: 9 (indsæt eller fjern præcis en base - altså et bogstav)
Gap forlængelse: 4 (indsæt eller fjern en base på samme sted, som er åbnet)
Man kan samle de to sidste og sige, at det koster
Vi tilføjer forlængelse/forkortelse: Det koster
Transition: 1
Transversion: 2
Indsæt eller fjern delord med
bogstaver midt i et ord:Forlæng/forkort: Indsæt eller fjern
bogstaver i start eller slut af et ord:
Afstand mellem to strenge er så den kortest mulige måde, man kan komme fra den ene til den anden med de tilladte moves vægtet som her.
I det følgende bruger vi meget korte strenge. Det er naturligvis ikke realistisk. Vi vil finde afstanden fra
Her er der to punktmutationer og begge er transversioner (fra
Havde vi brugt samme omkostning/vægt for alle tilladte ændringer, ville begge de to veje have samme længde.
Hvad med fra
Med lange strenge, som er ens på lange stykker, finder man afstande ved først at "aligne". Det vil sige, at man anbringer strengene, så de passer sammen på flest mulige pladser. Og derefter udregner man afstande, men det er stadig ikke nemt – der skal algoritmer til. Her er et eksempel.
Streng 1:
Streng 2:
Første alignment:
- Indsættelse af
: - To transversioner
og samt en transition . - I alt
.
Hvis man i stedet vælger denne alignment
Man indser ret let, at prisen for at klippe gør, at man ikke vil klippe to gange og bruge
Men hvad med: