语言学
在信息理论是最有帮助的设计更有效率电信系统,它也激励语言研究的相对频率的单词,单词的长度,和阅读的速度。
最著名的公式为研究相对词频率是美国语言学家提出的乔治Zipf在选择研究语言的相对频率的原则(1932)。Zipf定律指出,一个词的相对频率成反比的。,第二个最频繁的词只有一半经常使用最频繁的词,和100只使用最频繁的单词是100是最常见的词。
与前面讨论的编码思想一致,最常用的词往往是最短的。不确定有多少这种现象是由于“最小努力原则”,但使用最短的序列最常见的单词肯定促进更大沟通效率。
信息理论提供了一种方法来衡量冗余在一个给定的符号表征或效率语言。例如,如果英语字母发生以同样的规律(忽略区分大写和小写字母),预期的熵平均样本英语文本的日志2(26),大约是4.7。表英语文本中的人物的相对频率显示了一个熵4.08,这并不是一个好的价值英语因为它夸大了概率等组合质量保证。科学家们研究了8个字符序列用英语和想出一个图2.35的平均熵英语。因为这只是4.7的一半价值,据说英语相对熵的50%和50%的冗余。
冗余50%意味着大约一半的字母在一个句子省略了和消息还是reconstructable。冗余是极大的兴趣的问题纵横字谜游戏创造者。例如,如果冗余是0%,所以每一个字符序列是一个词,然后就没有建设困难因为任何字符序列的一种纵横字谜设计师想用可接受。随着冗余增加,创建一个纵横字谜的难度也增加了。香农显示50%的冗余是构建二维的上限填字游戏,33%的上限是构建三维填字游戏。
香农还观察到,当时间序列,如段落、章节,和整个书籍,被认为是,熵的减少和英语变得更加可预测的。他认为时间序列和得出结论,英语是大约一熵位每个字符。这表明在长文本消息的几乎所有可以猜到随机样本从20到25%。
各种研究已经试图想出一个信息处理率为人类。一些研究集中在确定阅读速度的问题。这样的研究表明,阅读速度似乎是独立的——是,人们对相同数量的比特过程是否读英语或汉语。注意,尽管汉字需要更多的比特的大约10000个常用汉字比英文字母表示存在,相比之下,26个英文字母也包含更多的信息。因此,总的来说,阅读率具有可比性。
算法信息理论
在1960年代,美国数学家格里高利Chaitin,俄罗斯数学家安德烈柯尔莫哥洛夫和美国工程师雷蒙德Solomonoff开始制定和发布的客观测量内在一个信息的复杂性。研究科学家Chaitin IBM开发了最大的作品和抛光点子整理到一份正式的理论被称为算法信息理论(AIT)。的算法在河中的小岛来自消息的复杂性定义为最短的长度算法,或循序渐进的过程,其繁殖。