Bokstavsfrekvens

Från Wikipedia
Hoppa till: navigering, sök

Bokstavsfrekvens innebär hur ofta olika bokstäver förekommer i skriven text, vilket studeras flitigt inom kryptografins frekvensanalys. Frekvensfördelningen är inte given för ett visst språk, eftersom alla författare skriver något olika. Linotype-maskiner sorterade bokstävernas frekvens som etaoin shrdlu cmfwyp vbgkqj xz baserat på erfarenhet och sed hos användarna. Likaså kodar modern internationell morsekod de vanligaste bokstäverna till de kortaste symbolerna. Liknande idéer används i moderna datakompressionstekniker såsom Huffmankodning.

Nyare analyser visar att bokstavsfrekvenser, liksom ordfrekvenser, tenderar att variera, både vad gäller författare och ämne. Man kan inte skriva en uppsats om Xenon utan att använda bokstaven X ofta, och olika författare har vanor som kan återspeglas i deras användning av bokstäver, bigram, trigram, ordfrekvenser, ordlängder och meningslängder. Frekvenserna för dessa enheter kan räknas ut för specifika författare, och användas för att bevisa eller motbevisa författarskap till texter.

Noggranna genomsnittliga bokstavsfrekvenser kan bara fås fram genom att analysera ett stort antal representativa texter. Med tillgängligheten i moderna datorer och stora textsamlingar, görs sådana beräkningar lätt.

Relativa bokstavsfrekvenser i olika språk[redigera | redigera wikitext]

Bokstav Engelska [1] Franska [2] Tyska [3] Spanska [4] Portugisiska [5] Esperanto [6] Italienska [7] Turkiska [8] Svenska [9] Polska [10] Nederländska [11] Danska [12] Isländska [13] Finska [14] Tjeckiska
% % % % % % % % % % % % % % %
a 8,167 7,636 6,516 11,525 14,634 12,117 11,745 12,920 9,383 10,503 7,486 6,025 10,110 12,217 8,421
b 1,492 0,901 1,886 2,215 1,043 0,980 0,927 2,844 1,535 1,740 1,584 2,000 1,043 0,281 0,822
c 2,782 3,260 2,732 4,019 3,882 0,776 4,501 1,463 1,486 3,895 1,242 0,565 0 0,281 0,740
d 4,253 3,669 5,076 5,510 4,992 3,044 3,736 5,206 4,702 3,725 5,933 5,858 1,575 1,043 3,475
e 12,702 14,715 16,396 12,681 11,570 8,995 11,792 9,912 10,149 7,352 17,324 15,453 6,418 7,968 7,562
f 2,228 1,066 1,656 0,692 1,023 1,037 1,153 0,461 2,027 0,143 0,805 2,406 3,013 0,194 0,084
g 2,015 0,866 3,009 1,768 1,303 1,171 1,644 1,253 2,862 1,731 3,403 4,077 4,241 0,392 0,092
h 6,094 0,737 4,577 0,703 0,781 0,384 0,636 1,212 2,090 1,015 2,380 1,621 1,871 1,851 1,356
i 6,966 7,529 6,550 6,247 6,186 10,012 10,143 9,600* 5,817 8,328 6,499 6,000 7,578 10,817 6,073
j 0,153 0,613 0,268 0,443 0,397 3,501 0,011 0,034 0,614 1,836 1,461 0,730 1,144 2,042 1,433
k 0,772 0,049 1,417 0,011 0,015 4,163 0,009 5,683 3,140 2,753 2,248 3,395 3,314 4,973 2,894
l 4,025 5,456 3,437 4,967 2,779 6,145 6,510 5,922 5,275 2,564 3,568 5,229 4,532 5,761 3,802
m 2,406 2,968 2,534 3,157 4,738 2,994 2,512 3,752 3,471 2,515 2,213 3,237 4,041 3,202 2,446
n 6,749 7,095 9,776 6,712 4,046 7,955 6,883 7,987 8,542 6,237 10,032 7,240 7,711 8,826 6,468
o 7,507 5,598 2,594 8,683 9,735 8,779 9,832 2,976 4,482 6,667 6,063 4,636 2,166 5,614 6,695
p 1,929 2,521 0,670 2,510 2,523 2,755 3,056 0,886 1,839 2,445 1,370 1,756 0,789 1,842 1,906
q 0,095 1,362 0,018 0,877 1,204 0 0,505 0 0,020 0 0,009 0,007 0 0,013 0,001
r 5,987 6,693 7,003 6,871 6,530 5,914 6,367 7,722 8,431 5,243 6,411 8,956 8,581 2,872 4,799
s 6,327 7,948 7,273 7,977 6,805 6,092 4,981 3,014 6,590 5,224 5,733 5,805 5,630 7,862 5,212
t 9,056 7,244 6,154 4,632 4,736 5,276 5,623 3,314 7,691 2,475 6,923 6,862 4,953 8,750 5,727
u 2,758 6,311 4,166 2,927 3,634 3,183 3,011 3,235 1,919 2,062 2,192 1,979 4,562 5,008 2,160
v 0,978 1,838 0,846 1,138 1,575 1,904 2,097 0,959 2,415 0,012 1,854 2,332 2,437 2,250 5,344
w 2,360 0,074 1,921 0,017 0,037 0 0,033 0 0,142 5,813 1,821 0,069 0 0,094 0,016
x 0,150 0,427 0,034 0,215 0,253 0 0,003 0 0,159 0,004 0,036 0,028 0,046 0,031 0,027
y 1,974 0,128 0,039 1,008 0,006 0 0,020 3,336 0,708 3,206 0,035 0,698 0,900 1,745 1,043
z 0,074 0,326 1,134 0,517 0,470 0,494 1,181 1,500 0,070 4,852 1,374 0,034 0 0,051 1,503
à 0 0,486 0 0 0,072 0 0,635 0 0 0 0 0 0 0 0
â 0 0,051 0 0 0,562 0 0 0 0 0 0 0 0 0 0
á 0 0 0 0,502 0,118 0 0 0 0 0 0 0 1,799 0 0,867
å 0 0 0 0 0 0 0 0 1,338 0 0 1,190 0 0,003 0
ä 0 0 0,447 0 0 0 0 0 1,797 0 0 0 0 3,577 0
ã 0 0 0 0 0,733 0 0 0 0 0 0 0 0 0 0
ą 0 0 0 0 0 0 0 0 0 0,699 0 0 0 0 0
æ 0 0 0 0 0 0 0 0 0 0 0 0,872 0,867 0 0
œ 0 0,018 0 0 0 0 0 0 0 0 0 0 0 0 0
ç 0 0,085 0 0 0,530 0 0 1,156 0 0 0 0 0 0 0
ĉ 0 0 0 0 0 0,657 0 0 0 0 0 0 0 0 0
ć 0 0 0 0 0 0 0 0 0 0,743 0 0 0 0 0
č 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,462
ď 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,015
ð 0 0 0 0 0 0 0 0 0 0 0 0 4,393 0 0
è 0 0,271 0 0 0 0 0,263 0 0 0 0 0 0 0 0
é 0 1,504 0 0,433 0,337 0 0 0 0 0 0 0 0,647 0 0,633
ê 0 0,225 0 0 0,450 0 0 0 0 0 0 0 0 0 0
ë 0 0,001 0 0 0 0 0 0 0 0 0 0 0 0 0
ę 0 0 0 0 0 0 0 0 0 1,035 0 0 0 0 0
ě 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1,222
ĝ 0 0 0 0 0 0,691 0 0 0 0 0 0 0 0 0
ğ 0 0 0 0 0 0 0 1,125 0 0 0 0 0 0 0
ĥ 0 0 0 0 0 0,022 0 0 0 0 0 0 0 0 0
î 0 0,045 0 0 0 0 0 0 0 0 0 0 0 0 0
ì 0 0 0 0 0 0 0,030 0 0 0 0 0 0 0 0
í 0 0 0 0,725 0,132 0 0 0 0 0 0 0 1,570 0 1,643
ï 0 0,005 0 0 0 0 0 0 0 0 0 0 0 0 0
ı 0 0 0 0 0 0 0 5,114* 0 0 0 0 0 0 0
ĵ 0 0 0 0 0 0,055 0 0 0 0 0 0 0 0 0
ł 0 0 0 0 0 0 0 0 0 2,109 0 0 0 0 0
ñ 0 0 0 0,311 0 0 0 0 0 0 0 0 0 0 0
ń 0 0 0 0 0 0 0 0 0 0,362 0 0 0 0 0
ň 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,007
ò 0 0 0 0 0 0 0,002 0 0 0 0 0 0 0 0
ö 0 0 0,573 0 0 0 0 0,777 1,305 0 0 0 0,777 0,444 0
ô 0 0,023 0 0 0,635 0 0 0 0 0 0 0 0 0 0
ó 0 0 0 0,827 0,296 0 0 0 0 1,141 0 0 0,994 0 0,024
ø 0 0 0 0 0 0 0 0 0 0 0 0,939 0 0 0
ř 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,380
ŝ 0 0 0 0 0 0,385 0 0 0 0 0 0 0 0 0
ş 0 0 0 0 0 0 0 1,780 0 0 0 0 0 0 0
ś 0 0 0 0 0 0 0 0 0 0,814 0 0 0 0 0
š 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,688
ß 0 0 0,307 0 0 0 0 0 0 0 0 0 0 0 0
ť 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,006
þ 0 0 0 0 0 0 0 0 0 0 0 0 1,455 0 0
ù 0 0,058 0 0 0 0 0,166 0 0 0 0 0 0 0 0
ú 0 0 0 0,168 0,207 0 0 0 0 0 0 0 0,613 0 0,045
ŭ 0 0 0 0 0 0,520 0 0 0 0 0 0 0 0 0
ü 0 0 0,995 0,012 0,026 0 0 1,854 0 0 0 0 0 0 0
ů 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,204
ý 0 0 0 0 0 0 0 0 0 0 0 0 0,228 0 0,995
ź 0 0 0 0 0 0 0 0 0 0,078 0 0 0 0 0
ż 0 0 0 0 0 0 0 0 0 0,706 0 0 0 0 0
ž 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,721

* – se İ

Se även[redigera | redigera wikitext]

Referenser[redigera | redigera wikitext]

  1. ^ English letter frequencies
  2. ^ ”CorpusDeThomasTempé”. http://gpl.insa-lyon.fr/Dvorak-Fr/CorpusDeThomasTemp%C3%A9. Läst 2007-06-15. 
  3. ^ Beutelspacher, Albrecht (2005). Kryptologie (7). Wiesbaden: Vieweg. sid. 10. ISBN 3-8348-0014-7. 
  4. ^ Pratt, Fletcher (1942). Secret and Urgent: the Story of Codes and Ciphers. Garden City, N.Y.: Blue Ribbon Books. sid. 254–5. OCLC 795065. 
  5. ^ ”Frequência da ocorrência de letras no Português”. http://www.numaboa.com/criptografia/criptoanalise/310-Frequencia-no-Portugues. Läst 2009-06-16. 
  6. ^ ”La Oftecoj de la Esperantaj Literoj”. http://lingvakritiko.com/2007/09/13/literoftecoj-kaj-tabelvortoftecoj/. Läst 2007-09-14. 
  7. ^ Singh, Simon; Galli, Stefano (1999) (på Italian). Codici e Segreti. Milano: Rizzoli. ISBN 978-8-817-86213-4. OCLC 535461359. 
  8. ^ Serengil, S.I., Akin, M. "Attacking Turkish Texts Encrypted by Homophonic Cipher" Proceedings of the 10th WSEAS International Conference on Electronics, Hardware, Wireless and Optical Communications, pp.123-126, Cambridge, UK, February 20-22, 2011.
  9. ^ ”Practical Cryptography”. http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/swedish-letter-frequencies/. Läst 2013-10-30. 
  10. ^ Wstęp do kryptologii, counting [space] 17.2%, [dot point] 0.9%, [comma] 0.9% and [semicolon] 0.5%
  11. ^ ”Letterfrequenties”. Genootschap OnzeTaal. http://www.onzetaal.nl/advies/letterfreq.php. Läst 2009-05-17. 
  12. ^ ”Practical Cryptography”. http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/danish-letter-frequencies/. Läst 2013-10-24. 
  13. ^ ”Practical Cryptography”. http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/icelandic-letter-frequencies/. Läst 2013-10-24. 
  14. ^ ”Practical Cryptography”. http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/finnish-letter-frequencies/. Läst 2013-10-24.