Afstand mellem DNA- og RNA-strenge
RNA er strenge med bogstaverne U (uracil), G (guanin), C (cytosin), A, (adenin). DNA har ikke U, men i stedet T (thymin) og DNA er dobbelt. Bogstaverne U, G, C, A og T kaldes for nukleotider.
Vi ser her på afstande mellem DNA (eller RNA), som bygger på antallet af mutationer for at nå fra den ene til den anden og desuden, hvor hyppige disse mutationer er - hvis man ved, en mutation sker ofte, er afstanden mellem en streng uden mutationen og en med mutationen ikke så lang, som hvis mutationen er meget sjælden. Udover regler for, hvilke ændringer, man tillader, giver man derfor en omkostning ved ændringen – afstanden er ikke bare antal ændringer, men summen af, hvor "dyre" disse ændringer er.
Afstand mellem DNA bruges til at analysere slægtskab og hvilke dyr, herunder mennesket, der nedstammer fra hvilke andre dyr – det kaldes for fylogenetiske træer – se mere her.
I den sammenhæng kalder man skift mellem A og G eller mellem C og T for transitioner1. De fire andre mulige skift mellem A og C, mellem A og T, mellem G og T, mellem G og C, kaldes for transversioner. Transitioner er hyppigere mutationer end transversioner, så afstanden mellem \(GATTACA\) og \(GATTACG\) er mindre end afstanden mellem \(GATTACA\) og \(GATTACC\). Den slags udskiftning af et bogstav (et basepar) kaldes en punktmutation.
1 A og G er puriner, mens C og T er pyrimediner. Transition bytter en purin med en purin eller en pyrimedin med en pyrimedin.
Indel mutationer er indsætning ("In") eller fjernelse ("Del" for delete") af et eller flere basepar. Det er mindre hyppigt og svarer til længere afstand. I kilden ovenfor bruges følgende omkostninger og altså afstande mellem DNA-strenge. Bemærk, at det er et valg - der er mange andre muligheder:
Transition: 1
Transversion: 2
Gap åbning: 9 (indsæt eller fjern præcis en base - altså et bogstav)
Gap forlængelse: 4 (indsæt eller fjern en base på samme sted, som er åbnet)
Man kan samle de to sidste og sige, at det koster \(5+4L\) at indsætte eller fjerne en delstreng med \(L\) bogstaver midt i et ord (overvej, at I forstår, at det er samme regel).
Vi tilføjer forlængelse/forkortelse: Det koster \(4L\) at indsætte eller fjerne \(L\) bogstaver i start eller slut af et ord. Alt i alt:
Transition: 1
Transversion: 2
Indsæt eller fjern delord med \(L\) bogstaver midt i et ord: \(5+4L\)
Forlæng/forkort: Indsæt eller fjern \(L\) bogstaver i start eller slut af et ord: \(4L\)
Afstand mellem to strenge er så den kortest mulige måde, man kan komme fra den ene til den anden med de tilladte moves vægtet som her.
I det følgende bruger vi meget korte strenge. Det er naturligvis ikke realistisk. Vi vil finde afstanden fra \(AGT\) til \(ATG\). Der er mange muligheder for, hvordan man kan komme fra \(AGT\) til \(ATG\), altså hvordan mutationerne kunne have set ud. For eksempel kunne det være:
\[AGT \to ATGT \to ATG\] Det vil sige, indsæt \(T\) mellem \(A\) og \(G\) og fjern så det sidste \(T\). Det koster \(9+4 =13\). Altså er længden af denne vej \(13\). En anden mulighed er
\[AGT\to ATT \to ATG\]
Her er der to punktmutationer og begge er transversioner (fra \(T\) til \(G\) eller omvendt), så det koster \(2+2=4\). Det er den korteste vej, så afstanden er \(4\). At denne vej faktisk er den kortest, kræver mere eftertanke.
Havde vi brugt samme omkostning/vægt for alle tilladte ændringer, ville begge de to veje have samme længde.
Hvad med fra \(AGT\) til \(TGA\)? Jo, det er faktisk nemmere. Det er i virkeligheden samme DNA-sekvens – man har bare læst den fra den anden ende...
Med lange strenge, som er ens på lange stykker, finder man afstande ved først at "aligne". Det vil sige, at man anbringer strengene, så de passer sammen på flest mulige pladser. Og derefter udregner man afstande, men det er stadig ikke nemt – der skal algoritmer til. Her er et eksempel.
Streng 1: \(TCGTAGG\)
Streng 2: \(TCTGTATCGA\)
Første alignment: \[\begin{matrix}T&C&G&-&-&-&T&A&G&G\\T&C&T&G&T&A&T&C&G&A\end{matrix}\] Det koster:
- Indsættelse af \(GTA\): \(5+4\cdot 3=17\)
- To transversioner \(G\leftrightarrow T\) og \(A\leftrightarrow C\) samt en transition \(G\leftrightarrow A\).
- I alt \(17+4+1=22\).
Hvis man i stedet vælger denne alignment \[\begin{matrix}T&C&-&-&-&G&T&A&G&G\\T&C&T&G&T&A&T&C&G&A\end{matrix}\] er transversionen mellem \(G\) og \(T\) erstattet med en transition \(G\leftrightarrow A\) og omkostningen falder med \(1\) til \(21.\)
Man indser ret let, at prisen for at klippe gør, at man ikke vil klippe to gange og bruge \[\begin{matrix}T&C&-&G&-&-&T&A&G&G\\T&C&T&G&T&A&T&C&G&A\end{matrix}\] hvor man kun sparer en enkelt transition.
Men hvad med: \[\begin{matrix}T&C&-&G&T&A&-&-&G&G\\T&C&T&G&T&A&T&C&G&A\end{matrix}\] Her er omkostningen \(9\) for det første gap og \(13\) for det andet. Og der er en transition i sidste plads \(G\leftrightarrow A,\) så omkostningen er \(23\), men det er ikke helt så klart, at det er for dyrt at klippe to gange. I kan nok finde på eksempler, hvor det kan svare sig at klippe flere steder.