Afstand mellem DNA- og RNA-strenge

A-niveau

RNA er strenge med bogstaverne U (uracil), G (guanin), C (cytosin), A, (adenin). DNA har ikke U, men i stedet T (thymin) og DNA er dobbelt. Bogstaverne U, G, C, A og T kaldes for nukleotider.

Vi ser her på afstande mellem DNA (eller RNA), som bygger på antallet af mutationer for at nå fra den ene til den anden og desuden, hvor hyppige disse mutationer er - hvis man ved, en mutation sker ofte, er afstanden mellem en streng uden mutationen og en med mutationen ikke så lang, som hvis mutationen er meget sjælden. Udover regler for, hvilke ændringer, man tillader, giver man derfor en omkostning ved ændringen – afstanden er ikke bare antal ændringer, men summen af, hvor "dyre" disse ændringer er.

Afstand mellem DNA bruges til at analysere slægtskab og hvilke dyr, herunder mennesket, der nedstammer fra hvilke andre dyr – det kaldes for fylogenetiske træerse mere her.

I den sammenhæng kalder man skift mellem A og G eller mellem C og T for transitioner. De fire andre mulige skift mellem A og C, mellem A og T, mellem G og T, mellem G og C, kaldes for transversioner. Transitioner er hyppigere mutationer end transversioner, så afstanden mellem GATTACA og GATTACG er mindre end afstanden mellem GATTACA og GATTACC. Den slags udskiftning af et bogstav (et basepar) kaldes en punktmutation.

1 A og G er puriner, mens C og T er pyrimediner. Transition bytter en purin med en purin eller en pyrimedin med en pyrimedin.

Indel mutationer er indsætning ("In") eller fjernelse ("Del" for delete") af et eller flere basepar. Det er mindre hyppigt og svarer til længere afstand. I kilden ovenfor bruges følgende omkostninger og altså afstande mellem DNA-strenge. Bemærk, at det er et valg - der er mange andre muligheder:

Man kan samle de to sidste og sige, at det koster 5+4L at indsætte eller fjerne en delstreng med L bogstaver midt i et ord (overvej, at I forstår, at det er samme regel).

Vi tilføjer forlængelse/forkortelse: Det koster 4L at indsætte eller fjerne L bogstaver i start eller slut af et ord. Alt i alt:

Afstand mellem to strenge er så den kortest mulige måde, man kan komme fra den ene til den anden med de tilladte moves vægtet som her.

I det følgende bruger vi meget korte strenge. Det er naturligvis ikke realistisk. Vi vil finde afstanden fra AGT til ATG. Der er mange muligheder for, hvordan man kan komme fra AGT til ATG, altså hvordan mutationerne kunne have set ud. For eksempel kunne det være:

AGTATGTATG Det vil sige, indsæt T mellem A og G og fjern så det sidste T. Det koster 9+4=13. Altså er længden af denne vej 13. En anden mulighed er

AGTATTATG

Her er der to punktmutationer og begge er transversioner (fra T til G eller omvendt), så det koster 2+2=4. Det er den korteste vej, så afstanden er 4. At denne vej faktisk er den kortest, kræver mere eftertanke.

Havde vi brugt samme omkostning/vægt for alle tilladte ændringer, ville begge de to veje have samme længde.

Hvad med fra AGT til TGA? Jo, det er faktisk nemmere. Det er i virkeligheden samme DNA-sekvens – man har bare læst den fra den anden ende...

Med lange strenge, som er ens på lange stykker, finder man afstande ved først at "aligne". Det vil sige, at man anbringer strengene, så de passer sammen på flest mulige pladser. Og derefter udregner man afstande, men det er stadig ikke nemt – der skal algoritmer til. Her er et eksempel.

Streng 1: TCGTAGG

Streng 2: TCTGTATCGA

Første alignment: TCGTAGGTCTGTATCGA Det koster:

Hvis man i stedet vælger denne alignment TCGTAGGTCTGTATCGA er transversionen mellem G og T erstattet med en transition GA og omkostningen falder med 1 til 21.

Man indser ret let, at prisen for at klippe gør, at man ikke vil klippe to gange og bruge TCGTAGGTCTGTATCGA hvor man kun sparer en enkelt transition.

Men hvad med: TCGTAGGTCTGTATCGA Her er omkostningen 9 for det første gap og 13 for det andet. Og der er en transition i sidste plads GA, så omkostningen er 23, men det er ikke helt så klart, at det er for dyrt at klippe to gange. I kan nok finde på eksempler, hvor det kan svare sig at klippe flere steder.