本书试图编写成简明易懂的信息论教材。正如爱因斯坦所说:“凡事应该尽可能使其简单到不能再简单为止。”虽然我们没有深入考证过该引语的来源(据说最初是在餐后的幸运蛋卷中所夹的纸条上发现的),但我们自始至终都将这种观点贯穿到本书的写作中。信息论中的确有这样一些关键的思想和技巧,一旦掌握了它们,不仅能够使信息论的主题显得简明,而且会在处理新问题时提供重要的直觉。
本书来自已经使用了十多年的信息论讲义,原讲义是面向信息专业高年级本科生和一年级研究生两学期用的教材。本书打算作为通信理论、计算机科学和统计专业学生学习信息论的教材。
信息论中有两个简明要点。第一,熵和互信息这样的概念是为了回答基本问题而产生的。例如,熵是随机变量的最小描述复杂度,互信息是度量在噪声背景下的通信速率。另外,我们后面还会提到,互信息相当于已知边信息条件下财富双倍率的增长。第二,回答信息论理论问题的答案具有自然代数的结构。例如熵具有链式法则,因而相关联的相对熵和互信息也有相应的链式法则。因为有了它们,才使得数据压缩和通信工程中的问题得到深入的解释。我们都有这样的感受,当某人研究某个问题时,往往历经大量的代数运算推理得到了结果,但此时没有真正了解问题的全貌。最终是通过反复观察结果,才对整个问题有完整、明确的认识。所以,对一个问题的全面理解,不是靠推理,而是靠对结果的观察。要更具体地说明这一点,物理学中的牛顿三大定律和薛定谔波动方程也许是最合适不过的例子。谁曾预见过薛定谔波动方程后来会有如此令人敬畏的哲学解释呢?
在本书中,我们常会在着眼于问题之前,先了解一下答案的性质。比如第2章中,我们首先定义了熵、相对熵和互信息,然后研究它们之间的关系,再对这些关系做一些解释,由此揭示如何融会贯通地使用各式各样的方法去解决实际问题。同理,我们顺便探讨热力学第二定律的含义。熵总是增加的吗?答案既肯定也否定。这种或然结果会令专家感兴趣,但初学者或许认为这是必然的而不会深入考虑。
在实际教学中,教师往往会对教材加入一些自己的见解。事实上,寻找无人知道的证明或者有所创新的结果是一件很愉快的事情。如果有人将新的思想和已经证明的内容在课堂上讲解给学生,那么不仅学生会积极反馈“对,对,对”,而且也会大大地提升教授该课程的乐趣。我们正是这样从研究本教材的许多新想法中获得乐趣。
本书中加入大量新素材,例如,关于信息论与博弈的关系;热力学第二定律的普遍性的讨论,包括它在马尔可夫链中,在信道容量定理的联合典型性的证明过程中,在赫夫曼码的竞争最优性中,以及在关于最大熵谱密度估计的伯格(Burg)定理的证明过程中的应用。Kolmogorov复杂度这一章也是本书的独到之处。而将Fisher信息、互信息与Brunn-Minkowski不等式和熵幂不等式联系在一起,也是我们引以为自豪之处。令我们感到惊讶的是,关于行列式不等式的许多经典结论,当利用信息论知识后会很容易得到证明。
自从香农的奠基性论文面世以来,尽管信息论已有了相当大的发展,但我们还是要努力强调它的相关性。虽然香农创立信息论时是受到通信理论中的问题启发的,然而我们认为信息论是一门独立的学科,可应用于通信理论和统计学中。
我们之所以将信息论作为一个学科领域从通信理论、概率论和统计学的背景中独立出来,是因为已经明显不可能从这些学科中获得难以理解的关于信息的概念。
由于本书中绝大多数结论是以定理和证明的形式给出的,所以我们期望通过对这些定理的巧妙证明能说明这些结论的完美性。一般来讲,我们在介绍问题之前先描述问题的解的性质,而这些很有趣的性质会使接下来的证明顺理成章。
使用不等式链、中间不加任何文字、最后直接加以解释,是我们在表述方式上的一项创新。当读者学习我们所给的证明过程达到一定数量时,希望他或她在没有任何解释下就能理解其中的大部分步骤,并得到所需的解释。这些不等式链好比是模拟测试题,读者可以通过它们确认自己是否已掌握证明那些重要定理的必备知识。这些证明过程的自然流程是如此引人注目,以致于我们轻视了写作技巧中的某条重要原则。由于没有空话,因而突出了思路的逻辑性与主题思想。我们希望当读者阅读完本书后,能够与我们共同分享我们所推崇的,具有优美、简洁、自然风格的信息论。
本书广泛使用弱典型序列的方法,此概念可以追溯到香农1948年的创造性工作,而它真正得到发展是在20世纪70年代初期。其中的主要思想就是所谓的渐近均分性(AEP),或许可以粗略地说成“几乎一切事情都差不多是等可能的”。
第2章是本书正式内容的开始,阐述了熵、相对熵和互信息之间的基本代数关系,同时对热力学第二定律和充分统计量也进行了讨论。渐近均分性是第3章重中之重的内容,这也导致我们将随机过程和数据压缩的熵率分别放在第4章和第5章中论述。第6章介绍博弈,并将数据压缩的对偶性和财富的增长率推向深入。
第7章探讨Kolmogorov复杂度的基本思想,它是对信息论进行理性思考的基础。我们的目标是寻找最普遍、最简短的描述,而不是在平均意义下的次佳描述。的确存在这样的普遍性概念可以用来描述目标的复杂度。该章也论述了神奇数W,它可揭示数学上的不少奥秘,是图灵机(Turing machine)停止运转的概率的推广。
第8章论述信道容量定理,这是信息论的基本定理。第9章叙述微分熵的必备知识,它们是将早期容量定理推广到连续噪声信道的基础。重要的高斯信道容量问题在第10章中论述。
第12章阐述信息论和统计学之间的关系。早在20世纪50年代,库尔贝克(Kullback)就首次对此进行了研究,此后相对被忽视。由于率失真理论比无噪声数据压缩理论需要更多的背景知识,因而将其放置在本书较后的第13章。
网络信息理论是个大的主题,安排在第14章,主要研究的是在噪声和干扰存在的情形下同时可达的信息流。有许多新的思想在网络信息理论中开始活跃起来,其主要新要素有干扰和反馈。第15章讲述股票市场,这是第6章所讨论的博弈的推广,也再次表明了信息论和博弈之间的紧密联系。
第16章讲述信息论中的有关不等式,我们借此一隅把散布于全书中的有趣不等式重新收拢在一个新的框架中,并且再加上一些关于随机抽取子集熵率的有趣的新不等式。集合求和的容量的Brunn-Minkowski不等式、独立随机变量之和的有效方差的熵幂不等式以及Fisher信息不等式之间的美妙关系也在这章中得到详尽的阐述。
本书力求推理严密,因此对数学的要求相当高,要求读者至少学过一学期的概率论课程且成绩优秀,大致为本科高年级或研究生水平。尽管如此,我们还是努力避免使用测度论,因为了解它仅仅对第15章中遍历过程的AEP证明起到简化作用。这符合我们的观点,那就是信息论基础与信息论技巧不同,后者才需要将所有推广都写进去。
本书每一章均以总结各章关键结论的方式结束。所提出的要点以方程形式表述,没有写出其限制条件。总结要点之后,我们列出一系列习题,接着以简短的历史回顾方式讲述了主要结论的来龙去脉。本书末尾的参考文献包括该领域中的许多关键性论文,以及参阅其他书目和相关主题的概述性文章的索引。
本书的主体是第2、3、4、5、8、9、10、12、13、14章,它们自成体系,读懂了它们就可以对信息论有很好的理解。但在我们看来,第7章的Kolmogorov复杂度是深入理解信息论的必备知识,余下的几章包括博弈和不等式,目的是使主题更加连贯和完美。
. 任何教程都有它的第一讲,目的是给出其主要思想的简短预览和概述。本书的第1章就是为这个目的而设置的。
致谢
我们真诚感谢所有参与完成本书的人们,尤其是Toby Berger、Masoud Salehi、Alon Orlitsky、Jim Mazo和Andrew Barron对本书的各版草稿给予时细致评述,这对我们最终的内容取舍起了指导性的作用。还要感谢我们手写稿的第一位读者Bob Gallager,以及他对出版本书的支持,而且很高兴在本书中引用了他的12个问题。也感谢Aaron Wyner和Ziv赠送了关于Lempel-Ziv算法收敛性的新证明。还要感谢Norman Abramson、Ed van der Meulen、Jack Salz和Raymond Yeung给予我们许多建议。
一些重要的访问学者和专家同事也给予了许多帮助,他们有Amir Dembo、Paul Algoet、Hirosuke Yamamoto、Ben Kawabata、Makoto Shimizu和Yoichiro Watanabe。John Gill在教学中使用了本书,从他的建议中我们获益匪浅。当我们计划编写一本面向广泛读者的信息论专著时,Abbas El Gamal在几年前就已经开始帮助写作此书,其贡献是不可估量的。还要感谢在本书成形阶段研究信息论方向的博士生们,他们是Laura Ekroot、Will Equitz、Don Kimber、Mitchell Trott、Andrew Nobel、Jim Roche、Erik Ordentlich、Elza Erkip和Vittorio Castelli。Mitchell Oslick、Chien-Wen Tseng和Michael Morrell是其中提出问题和建议最为主动的学生。Marc Goldberg和Anil Kaul帮助我们制作了其中的一些图形。最后,我们还要感谢Kirsten Goodell和Kathy Adams在原稿准备过程中提供的支持和帮助。
Joy Thomas也要感谢Peter Franaszek、Steve Lavenberg、Fred Jelinek、David Nahamoo和Lalit Bahl在完成本书的最后阶段给予的鼓励和支持。
Tom Cover
Joy Thomas
1991年6月于Palo Alto