Bokstavsfrekvens

Från Wikipedia

Bokstavsfrekvens innebär hur ofta olika bokstäver förekommer i skriven text, vilket studeras flitigt inom kryptografins frekvensanalys. Frekvensfördelningen är inte given för ett visst språk, eftersom alla författare skriver något olika. Linotype-maskiner sorterade bokstävernas frekvens som etaoin shrdlu cmfwyp vbgkqj xz baserat på erfarenhet och sed hos användarna. Likaså kodar modern internationell morsekod de vanligaste bokstäverna till de kortaste symbolerna. Liknande idéer används i moderna datakompressionstekniker såsom Huffmankodning.

Nyare analyser visar att bokstavsfrekvenser, liksom ordfrekvenser, tenderar att variera, både vad gäller författare och ämne. Man kan inte skriva en uppsats om Xenon utan att använda bokstaven X ofta, och olika författare har vanor som kan återspeglas i deras användning av bokstäver, bigram, trigram, ordfrekvenser, ordlängder och meningslängder. Frekvenserna för dessa enheter kan räknas ut för specifika författare, och användas för att bevisa eller motbevisa författarskap till texter.

Noggranna genomsnittliga bokstavsfrekvenser kan bara fås fram genom att analysera ett stort antal representativa texter. Med tillgängligheten i moderna datorer och stora textsamlingar, görs sådana beräkningar lätt.

Relativa bokstavsfrekvenser i olika språk[redigera | redigera wikitext]

Bokstav Svenska [1] Engelska [2] Franska [3] Tyska [4] Spanska [5] Portugisiska [6] Esperanto [7] Italienska [8] Turkiska [9] Polska [10] Nederländska [11] Danska [12] Isländska [13] Finska [14] Tjeckiska
% % % % % % % % % % % % % % %
a 8,167 7,636 6,516 12,525 14,634 12,117 11,745 11,920 9,383 8,91 7,486 6,025 10,110 12,217 6,2
b 1,492 0,901 1,886 1,415 1,043 0,980 0,927 2,844 1,535 1,42 1,584 2,000 1,043 0,281 2
c 2,782 3,260 3,062 4,679 3,882 0,776 4,501 1,463 1,486 3,96 1,242 0,565 0 0,281 1,6
d 4,253 3,669 5,076 5,810 4,992 3,044 3,736 4,706 4,702 3,73 5,933 5,858 1,575 1,043 3,3
e 12,702 14,715 17,396 13,681 11,570 8,995 11,792 8,912 10,149 7,69 18,924 15,453 6,418 7,968 7,6
f 2,228 1,066 1,656 0,692 1,023 1,037 1,153 0,461 2,027 0,143 0,805 2,406 3,013 0,194 0,092
g 2,015 0,866 3,009 1,018 1,303 1,171 1,644 1,253 2,862 1,47 3,403 4,077 4,241 0,392 0,084
h 6,094 0,737 4,577 0,703 0,781 0,384 0,636 1,212 2,090 1,2 2,380 1,621 1,871 1,851 1,35
i 6,966 7,529 7,550 6,247 6,186 10,012 10,143 8,600* 5,817 8,21 6,499 6,000 7,578 10,817 4,35
j 0,153 0,613 0,268 0,443 0,397 3,501 0,011 0,034 0,614 2,28 1,461 0,730 1,144 2,042 2,2
k 0,772 0,049 1,217 0,011 0,015 4,163 0,009 4,683 3,140 3,4 2,248 3,395 3,314 4,973 3,6
l 4,025 5,456 3,437 4,967 2,779 6,145 6,510 5,922 5,275 2,1 3,568 5,229 4,532 5,761 3,8
m 2,406 2,968 2,534 3,157 4,738 2,994 2,512 3,752 3,471 2,8 2,213 3,237 4,041 3,202 3,2
n 6,749 7,095 9,776 6,712 4,446 7,955 6,883 7,987 8,542 5,5 10,032 7,240 7,711 8,826 6,5
o 7,507 5,598 2,514 8,683 9,735 8,779 9,832 2,476 4,482 7,96 6,063 4,636 2,166 5,614 8,7
p 1,929 2,521 0,670 2,510 2,523 2,755 3,056 0,886 1,839 3,13 1,370 1,756 0,789 1,842 3,4
q 0,095 1,362 0,018 0,877 1,204 0 0,505 0 0,020 0 0,009 0,007 0 0,013 0,001
r 5,987 6,693 7,003 6,871 6,530 5,914 6,367 7,722 8,431 4,69 6,411 8,956 8,581 2,872 3,6
s 6,327 7,948 7,273 7,977 6,805 6,092 4,981 3,014 6,590 4,35 3,733 5,805 5,630 7,862 4,5
t 9,056 7,244 6,154 4,632 4,336 5,276 5,623 3,314 7,691 3,98 6,923 6,862 4,953 8,750 5,8
u 2,758 6,311 4,166 3,627 4,634 3,183 3,011 3,235 1,919 2,16 2,192 1,979 4,562 5,008 2,7
v 0,978 1,838 0,846 1,138 1,575 1,904 2,097 0,959 2,415 0,012 2,854 2,332 2,437 2,250 4,7
w 2,360 0,074 1,921 0,017 0,037 0 0,033 0 0,142 4,65 1,821 0,069 0 0,094 0,016
x 0,150 0,427 0,034 0,215 0,253 0 0,003 0 0,159 0,004 0,036 0,028 0,046 0,031 0,027
y 1,974 0,128 0,039 1,008 0,006 0 0,020 3,336 0,708 3,73 0,035 0,698 0,900 1,745 1,9
z 0,074 0,326 1,134 0,517 0,470 0,494 1,181 1,500 0,070 5,64 1,374 0,034 0 0,051 2,1
à 0 0,486 0 0 0,072 0 0,635 0 0 0 0 0 0 0 0
â 0 0,051 0 0 0,562 0 0 0 0 0 0 0 0 0 0
á 0 0 0 0,502 0,118 0 0 0 0 0 0 0 1,799 0 2,4
å 0 0 0 0 0 0 0 0 1,338 0 0 1,190 0 0,003 0
ä 0 0 0,447 0 0 0 0 0 1,797 0 0 0 0 3,577 0
ã 0 0 0 0 0,733 0 0 0 0 0 0 0 0 0 0
ą 0 0 0 0 0 0 0 0 0 0,699 0 0 0 0 0
æ 0 0 0 0 0 0 0 0 0 0 0 0,872 0,867 0 0
œ 0 0,018 0 0 0 0 0 0 0 0 0 0 0 0 0
ç 0 0,085 0 0 0,530 0 0 1,156 0 0 0 0 0 0 0
ĉ 0 0 0 0 0 0,657 0 0 0 0 0 0 0 0 0
ć 0 0 0 0 0 0 0 0 0 0,743 0 0 0 0 0
č 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
ď 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,015
ð 0 0 0 0 0 0 0 0 0 0 0 0 4,393 0 0
è 0 0,271 0 0 0 0 0,263 0 0 0 0 0 0 0 0
é 0 1,504 0 0,433 0,337 0 0 0 0 0 0 0 0,647 0 1,2
ê 0 0,225 0 0 0,450 0 0 0 0 0 0 0 0 0 0
ë 0 0,001 0 0 0 0 0 0 0 0 0 0 0 0 0
ę 0 0 0 0 0 0 0 0 0 1,035 0 0 0 0 0
ě 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1,6
ĝ 0 0 0 0 0 0,691 0 0 0 0 0 0 0 0 0
ğ 0 0 0 0 0 0 0 1,125 0 0 0 0 0 0 0
ĥ 0 0 0 0 0 0,022 0 0 0 0 0 0 0 0 0
î 0 0,045 0 0 0 0 0 0 0 0 0 0 0 0 0
ì 0 0 0 0 0 0 0,030 0 0 0 0 0 0 0 0
í 0 0 0 0,725 0,132 0 0 0 0 0 0 0 1,570 0 3,4
ï 0 0,005 0 0 0 0 0 0 0 0 0 0 0 0 0
ı 0 0 0 0 0 0 0 5,114* 0 0 0 0 0 0 0
ĵ 0 0 0 0 0 0,055 0 0 0 0 0 0 0 0 0
ł 0 0 0 0 0 0 0 0 0 2,109 0 0 0 0 0
ñ 0 0 0 0,311 0 0 0 0 0 0 0 0 0 0 0
ń 0 0 0 0 0 0 0 0 0 0,362 0 0 0 0 0
ň 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,007
ò 0 0 0 0 0 0 0,002 0 0 0 0 0 0 0 0
ö 0 0 0,573 0 0 0 0 0,777 1,305 0 0 0 0,777 0,444 0
ô 0 0,023 0 0 0,635 0 0 0 0 0 0 0 0 0 0
ó 0 0 0 0,827 0,296 0 0 0 0 1,141 0 0 0,994 0 0,024
ø 0 0 0 0 0 0 0 0 0 0 0 0,939 0 0 0
ř 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1,1
ŝ 0 0 0 0 0 0,385 0 0 0 0 0 0 0 0 0
ş 0 0 0 0 0 0 0 1,780 0 0 0 0 0 0 0
ś 0 0 0 0 0 0 0 0 0 0,814 0 0 0 0 0
š 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,8
ß 0 0 0,307 0 0 0 0 0 0 0 0 0 0 0 0
ť 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,006
þ 0 0 0 0 0 0 0 0 0 0 0 0 1,455 0 0
ù 0 0,058 0 0 0 0 0,166 0 0 0 0 0 0 0 0
ú 0 0 0 0,168 0,207 0 0 0 0 0 0 0 0,613 0 0,045
ŭ 0 0 0 0 0 0,520 0 0 0 0 0 0 0 0 0
ü 0 0 0,995 0,012 0,026 0 0 1,854 0 0 0 0 0 0 0
ů 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,204
ý 0 0 0 0 0 0 0 0 0 0 0 0 0,228 0 0,995
ź 0 0 0 0 0 0 0 0 0 0,078 0 0 0 0 0
ż 0 0 0 0 0 0 0 0 0 0,706 0 0 0 0 0
ž 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1

* – se İ

Se även[redigera | redigera wikitext]

Referenser[redigera | redigera wikitext]

  1. ^ ”Practical Cryptography”. Arkiverad från originalet den 1 november 2013. https://web.archive.org/web/20131101205915/http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/swedish-letter-frequencies/. Läst 30 oktober 2013. 
  2. ^ English letter frequencies Arkiverad 8 juli 2008 hämtat från the Wayback Machine.
  3. ^ ”CorpusDeThomasTempé”. Arkiverad från originalet den 30 september 2007. https://web.archive.org/web/20070930194046/http://gpl.insa-lyon.fr/Dvorak-Fr/CorpusDeThomasTemp%C3%A9. Läst 15 juni 2007. 
  4. ^ Beutelspacher, Albrecht (2005). Kryptologie (7). Wiesbaden: Vieweg. sid. 10. ISBN 3-8348-0014-7 
  5. ^ Pratt, Fletcher (1942). Secret and Urgent: the Story of Codes and Ciphers. Garden City, N.Y.: Blue Ribbon Books. sid. 254–5. OCLC 795065 
  6. ^ ”Frequência da ocorrência de letras no Português”. Arkiverad från originalet den 3 augusti 2009. https://web.archive.org/web/20090803182254/http://www.numaboa.com/criptografia/criptoanalise/310-Frequencia-no-Portugues. Läst 16 juni 2009. 
  7. ^ ”La Oftecoj de la Esperantaj Literoj”. http://lingvakritiko.com/2007/09/13/literoftecoj-kaj-tabelvortoftecoj/. Läst 14 september 2007. 
  8. ^ Singh, Simon; Galli, Stefano (1999) (på italienska). Codici e Segreti. Milano: Rizzoli. ISBN 978-8-817-86213-4. OCLC 535461359 
  9. ^ Sefik Ilkin Serengil, Murat Akin. "Attacking Turkish Texts Encrypted by Homophonic Cipher Arkiverad 4 mars 2016 hämtat från the Wayback Machine." Proceedings of the 10th WSEAS International Conference on Electronics, Hardware, Wireless and Optical Communications, pp.123-126, Cambridge, UK, February 20-22, 2011.
  10. ^ Wstęp do kryptologii, counting [space] 17.2%, [dot point] 0.9%, [comma] 0.9% and [semicolon] 0.5%
  11. ^ ”Letterfrequenties”. Genootschap OnzeTaal. http://www.onzetaal.nl/advies/letterfreq.php. Läst 17 maj 2009. 
  12. ^ ”Practical Cryptography”. http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/danish-letter-frequencies/. Läst 24 oktober 2013. 
  13. ^ ”Practical Cryptography”. Arkiverad från originalet den 10 september 2013. https://web.archive.org/web/20130910090659/http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/icelandic-letter-frequencies/. Läst 24 oktober 2013. 
  14. ^ ”Practical Cryptography”. Arkiverad från originalet den 29 oktober 2013. https://web.archive.org/web/20131029192340/http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/finnish-letter-frequencies/. Läst 24 oktober 2013.