Bokstavsfrekvens

Från Wikipedia
Hoppa till: navigering, sök
Spanska bokstavsfrekvenser
Relativa bokstavsfrekvenser i engelsk text

Hur ofta olika bokstäver förekommer i skriven text studeras flitigt inom kryptografins frekvensanalys. Frekvensfördelningen är inte given för ett visst språk, eftersom alla författare skriver något olika. Linotype-maskiner sorterade bokstävernas frekvens som etaoin shrdlu cmfwyp vbgkqj xz baserat på erfarenhet och sed hos användarna. Likaså kodar modern internationell morsekod de vanligaste bokstäverna till de kortaste symbolerna. Liknande idéer används i moderna datakompressionstekniker såsom Huffmankodning.

Nyare analyser visar att bokstavsfrekvenser, liksom ordfrekvenser, tenderar att variera, både vad gäller författare och ämne. Man kan inte skriva en uppsats om Xenon utan att använda bokstaven X ofta, och olika författare har vanor som kan återspeglas i deras användning av bokstäver, bigram, trigram, ordfrekvenser, ordlängder och meningslängder. Frekvenserna för dessa enheter kan räknas ut för specifika författare, och användas för att bevisa eller motbevisa författarskap till texter.

Noggranna genomsnittliga bokstavsfrekvenser kan bara fås fram genom att analysera ett stort antal representativa texter. Med tillgängligheten i moderna datorer och stora textsamlingar, görs sådana beräkningar lätt.

Relativa bokstavsfrekvenser i olika språk[redigera | redigera wikitext]

Bokstav Engelska [1] Franska [2] Tyska [3] Spanska [4] Esperanto [5] Italienska[6] Turkiska Svenska[7]
% % % % % % % %
a 8,167 7,636 6,51 12,53 12,12 11,74 11,68 9,3
b 1,492 0,901 1,89 1,42 0,98 0,92 2,95 1,3
c 2,782 3,260 3,06 4,68 0,78 4,5 0,97 1,3
d 4,253 3,669 5,08 5,86 3,04 3,73 4,87 4,5
e 12,702 14,715 17,40 13,68 8,99 11,79 9,01 9,9
f 2,228 1,066 1,66 0,69 1,03 0,95 0,44 2,0
g 2,015 0,866 3,01 1,01 1,17 1,64 1,34 3,3
h 6,094 0,737 4,76 0,70 0,38 1,54 1,14 2,1
i 6,966 7,529 7,55 6,25 10,01 11,28 8,27* 5,1
j 0,153 0,545 0,27 0,44 3,50 0,00 0,01 0,7
k 0,772 0,049 1,21 0,00 4,16 0,00 4,71 3,2
l 4,025 5,456 3,44 4,97 6,14 6,51 5,75 5,2
m 2,406 2,968 2,53 3,15 2,99 2,51 3,74 3,5
n 6,749 7,095 9,78 6,71 7,96 6,88 7,23 8,8
o 7,507 5,378 2,51 8,68 8,78 9,83 2,45 4,1
p 1,929 3,021 0,79 2,51 2,74 3,05 0,79 1,7
q 0,095 1,362 0,02 0,88 0,00 0,51 0 0,007
r 5,987 6,553 7,00 6,87 5,91 6,37 6,95 8,3
s 6,327 7,948 7,27 7,98 6,09 4,98 2,95 6,3
t 9,056 7,244 6,15 4,63 5,27 5,62 3,09 8,7
u 2,758 6,311 4,35 3,93 3,18 3,01 3,43 1,8
v 0,978 1,628 0,67 0,90 1,90 2,10 0,98 2,4
w 2,360 0,114 1,89 0,02 0,00 0,00 0 0,03
x 0,150 0,387 0,03 0,22 0,00 0,00 0 0,1
y 1,974 0,308 0,04 0,90 0,00 0,00 3,37 0,6
z 0,074 0,136 1,13 0,52 0,50 0,49 1,50 0,02
à - 0,486 0 0 0 se a 0 0,0
å - 0 0 0 0 0 0 1,6
ä - 0 0 0 0 0 0 2,1
œ - 0,018 0 0 0 0 0 0
ç - 0,085 0 0 0 0 1,26 0
ĉ - 0 0 0 0,66 0 0 0
è - 0,271 0 0 0 se e 0 0,0
é - 1,904 0 0 0 se e 0 0,0
ê - 0,225 0 0 0 0 0 0
ë - 0,000 0 0 0 0 0 0
ĝ - 0 0 0 0,69 0 0 0
ğ - 0 0 0 0 0 1,13 0
ĥ - 0 0 0 0,02 0 0 0
î - 0,045 0 0 0 0 0 0
ì - 0 0 0 0 se i 0 0
ï - 0,005 0 0 0 0 0 0
ı - 0 0 0 0 0 5,20* 0
ĵ - 0 0 0 0,12 0 0 0
ñ - 0 0 0,03 0 0 0 0
ò - 0 0 0 0 se o 0 0
ö - 0 0 0 0 0 0,87 1,5
ŝ - 0 0 0 0,38 0 0 0
ş - 0 0 0 0 0 1,94 0
ß - 0 0,31 0 0 0 0 0
ù - 0,058 0 0 0 se u 0 0
ŭ - 0 0 0 0,52 0 0 0
ü - 0 0 0 0 0 1,99 0

-*Se İ

Se även[redigera | redigera wikitext]

Referenser[redigera | redigera wikitext]

  1. ^ English letter frequencies
  2. ^ ”CorpusDeThomasTempé”. http://gpl.insa-lyon.fr/Dvorak-Fr/CorpusDeThomasTemp%C3%A9. Läst 15 juni 2007. 
  3. ^ Albrecht Beutelspacher, Kryptologie, 7. Aufl., Wiesbaden: Vieweg Verlagsgesellschaft, 2005, ISBN 3-8348-0014-7, p.10
  4. ^ Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
  5. ^ ”La Oftecoj de la Esperantaj Literoj”. http://lingvakritiko.com/2007/09/13/literoftecoj-kaj-tabelvortoftecoj/. Läst 14 september 2007. 
  6. ^ Simon Singh, Codici e Segreti, 1999, RCS, ISBN 88-17-12539-3
  7. ^ Singh, Simon; Brogren Margareta (1999). Kodboken: konsten att skapa sekretess - från det gamla Egypten till kvantkryptering. Stockholm: Norstedt. Libris 8345451. ISBN 91-1-300708-4 (inb.) 

Externa länkar[redigera | redigera wikitext]