Da Wikipedia, l'enciclopedia
libera.
Le indagini quantitative sui testi si servono
spesso di qualche forma di analisi delle
frequenze.
Possono essere interessanti le analisi delle
frequenze di caratteri, di parole, di gruppi di
parole che si possono assegnare a lemmi o
significati definiti; queste analisi possono
riguardare un singolo testo (da un frammento
epigrafico, a un'opera come la
Divina commedia), un intero corpus
letterario o un opportuno campione di un
linguaggio specialistico o di un'intera lingua.
In particolare un primo metodo che si adotta
in attività di
crittanalisi si basa sul fatto che in ogni
lingua la frequenza di uso di ogni lettera è
piuttosto determinata; questo è vero in modo
rigoroso solo per testi lunghi, ma spesso testi
anche corti hanno frequenze non molto diverse da
quelle previste.
Vediamo come riferimento le frequenze delle
lettere più comuni di due lingue:
| Italiano |
Inglese |
| E |
11,79 |
E |
12,31 |
| A |
11,74 |
T |
9,59 |
| I |
11,28 |
A |
8,05 |
| O |
9,83 |
O |
7,94 |
| N |
6,88 |
N |
7,19 |
Si può notare quanto le prime lettere di
queste lingue siano presenti in quantità molto
maggiore delle altre, ad esempio da un testo in
cui un certo simbolo appare oltre il 12% delle
volte si può facilmente intuire che quel simbolo
corrisponde alla lettera E (in inglese la
distanza della E dalle altre lettere è ancora
più marcata).