Frekvence črk
Frekvenca črk je značilnost besedila, ki se pogosto uporablja pri analizi besedil in še posebno v kriptografiji. Jezik se spreminja, pa tudi vsak avtor piše nekoliko drugače, zato je običajno mogoča le statistična analiza. Frekvenca črk je torej odvisna od jezika besedila, avtorja, opisane teme pa tudi časovnega obdobja. Frekvenca črk, dvojčkov, trojčkov in n-teric črk (bolj točno, znakov) lahko pokaže na značilnosti besedila in potrdi ali ovrže avtorstvo neznanega besedila, ki pa mora biti dovolj dolgo. V kriptografiji frekvence črk pomagajo pri razbijanju posameznih šifer.
Frekvence črk so pomembne tudi v prenosni tehniki, ko skušamo zakodirati sporočilo tako, da zavzame čim manj prostora pri prenosu (ali shranjevanju). Značilen primer je Morsejev kod, kjer se najpogostejši E kodira z enim znakom (glej tudi Huffmanov kod).
Razpored oz. pogostnost črk igra pomembno tudi pri besednih igrah kot sta scrabble in boogle. Pogostejše črke se pojavijo večkrat in so vredne manj točk in obratno. Prvi stavni stroji Linotype so uporabljali razpored etaoin shrdlu cmfwyp vbgkqj xz, ki naj bi ustrezal frekvenci črk v angleščini. Kasnejše analize so pokazale nekaj manjših sprememb v vrstnem redu črk. Danes, ko so na voljo velike količine besedil v digitalni obliki, je analiza precej enostavnejša.
Relativne frekvence črk v slovenščini
[uredi | uredi kodo]V slovenščini je prve analize na relativno majhnem in zato nereprezentativnem vzorcu v 60. letih opravil prof. Gyergyek.[1]. Kasneje je podobno preštevalno analizo opravil dr. Denis Poniž.[2] V okviru korpusnega jezikoslovja pa je rezultate preštevanja frekvenc črk za reprezentativni vzorec leposlovnih besedil objavil Primož Jakopin v svoji doktorski disertaciji Zgornja meja entropije pri leposlovnih besedilih v slovenskem jeziku.[3]
Razpredelnica (Opomba: S klikom na ikono v razpredelnici jo lahko razvrstite glede na izbrani stolpec)
črka | relativna frekvenca v slo. leposlovju | |
---|---|---|
e | 10,707 % | |
a | 10,466 % | |
o | 9,084 % | |
i | 9,042 % | |
n | 6,328 % | |
l | 5,266 % | |
s | 5,053 % | |
r | 5,010 % | |
j | 4,675 % | |
t | 4,329 % | |
v | 3,764 % | |
k | 3,704 % | |
d | 3,390 % | |
p | 3,374 % | |
m | 3,305 % | |
z | 2,103 % | |
b | 1,939 % | |
u | 1,879 % | |
g | 1,638 % | |
č | 1,483 % | |
h | 1,047 % | |
š | 0,996 % | |
c | 0,662 % | |
ž | 0,646 % | |
f | 0,110 % |
Vir: P. Jakopin, doktorska disertacija[3]
Relativne frekvence črk v drugih jezikih
[uredi | uredi kodo]E T A O I N S H R D L C U M W F G Y P B V K J X Q Z
E N I S R A T D H U L C G M O B W F K Z P V J Y X Q
E A O S R N I D L C T U M P B G V Y Q H F Z J X W K
E S A I T N R U L O D C P M É V Q F B G H J À X Y È Ê Z W Ç Ù K Î Œ Ï Ë
O E A N T I V L S R D K U P Í M C H Á Z Y J B Ř Ě É Č Ž Ý Š Ů G F Ú Ň W Ď Ó X Ť (Q) (časopis, 2500 besed)
A I E O N Z W S C R Y T K D P M J U L Ł G B H Ą Ę Ó Ź Ś Ć Ń F Ż X V (Q) (časopis, 11.000 besed)
О Е А И Н Т С В Л Р К Д М П У Ы Я Г Б З Ч Й Х Ж Ш Ю Ц Щ Э Ф Ё (Solženicin, 86.000 besed)
О Е А И Н Т С Р В Л К М Д П У Ы Я Г З Б Ч Й Ж Х Ю Ш Ц Щ Э Ф Ё (časopis 25.000 besed)
A O E S N I T R V L K D M C U P Z Y H J G F B (Q W X) (Mistrik 1985, 200.000 besed brez naglasnih znamenj)
A I E O N L R S T K U M D P J V G B F C Ĝ Ĉ Z Ŭ H Ŝ Ĵ Ĥ (David G. Simpson, 2007, 21 647 000 črk)
Spodnja slika prikazuje porazdelitve frekvenc 26 najbolj razširjenih latiničnih črk in treh šumnikov v slovenščini, 10-ih drugih indoevropskih jezikih in esperantu. Vsi ti jeziki rabijo podobno 25+ znakovno abecedo.
Sklici
[uredi | uredi kodo]Viri
[uredi | uredi kodo]- Jamnik, Rajko (1964), Elementi teorije informacije, Knjižnica Sigma, zv. 10, Ljubljana: Mladinska knjiga, COBISS 10396421
- Poniž, Denis (1974), Slovenski jezik - literatura - računalniki, Maribor: Obzorja, COBISS 4326656
- Jakopin, Primož (1999). Zgornja meja entropije pri leposlovnih besedilih v slovenskem jeziku (doktorska disertacija). Ljubljana: Univerza v Ljubljani, Fakulteta za elektrotehniko. COBISS 12801837. Arhivirano iz prvotnega spletišča dne 5. septembra 2006. Pridobljeno 10. avgusta 2006.
Zunanje povezave
[uredi | uredi kodo]- Primož Jakopin, Statistični opis Arhivirano 2006-10-01 na Wayback Machine.
- https://www.bckelk.org.uk/words/etaoin.html Frekvence črk v drugih jezikih