任何一门学科逐步成熟的一个重要标志,就是它的一些重要概念从定性走向定量化。在信息如此重要的今天,如果我们对信息的多少没有一个定量的测量方法,也就没有今天的信息科学的发展。
    信息论的创始人申农引入了一个重要概念:不确定程度。中文电报中的每个字都由4位数字码代表,在没有收到一个数字码以前,人们对它到底是什么并不知道,如果设法计量这个不确知的程度有多大,就为计量信息找出了线索。
   信息论指出,如果一个事件(例如收到一个信号)有n个等可能性的结局,那么结局未出现前的不确定程度Hn的自然对数成正比,即有

  (C为常数) 
 (1)

一个电报码从0到9共10个等可能结局,不确定程度就是Cln10。当人们收到一个电报码后,就消除了这种“不确定”。这样,人们就从消除了多少不确定程度的角度来定义一个消息中含有的信息量。
    4个数码组成一个中文字,因此一个汉字带来的信息量是4ln10或者ln104
    申农把不确定程度H称为信息熵,就这样,“信息”这个词进入了科学的领地,它在定量化的进程中又与物理学中的“熵”概念联系起来。
    这种对信息的理解完全排除了获得信息的载体是什么的影响,也排除了信息本身对信人是否重要之类的干扰,从而使信息这个词在极为广泛的领域中都能应用。
    假定一个信息量是n个相互独立的选择的结果,其中每个选择都是在0或1中作出,则这个信息量的可能的选择数值为

于是

,则可得到常数

这样计算出来的信息量单位称为比特(bit),在通信中广泛使用。
    一条通讯线路如果1s中能传送75bit的信息,我们就说这条线路传输能力为75波特(Baud),波特就是1bit/s。而在计算机述评中常用字节(Byte)作为信息量的单位,1个字节是8个比特(1Byte=8bit),它容得下一个8位二进制数,或说它可记住256个(28)可能状态中究竟是哪一个。平常我们说微机的内存为64k(k为千――kilo),是说它供用户任意存放数据的空间RAM是 Byte(字节)。
    上面所讨论的计量不确定程度(或信息)的方法仅适用于对某事件的结局为几个等可能结局时的情况。当几个结局出现的机会并不相同时,我们可以这样来计量。设有A1A2,…,Ann个可能的结局,每个结局出现的几率分别为p1p2,...,pn,则其不确定程度H由下式给出

(2)

时,即等可能结局情况下,由于各结局出现机会相等,有 ,(2)式则还原为

这就是等可能结局情况下的计量公式(1),因此(1)式仅是(2)式的一个特例,(2)式是信息熵的一般定义,信息熵也称为申农熵。
    注意:在(2)中,由于0<pi<1,有lnpi<0,因此信息熵 H > 0。(2)式前的负号正是为了保证熵不可能为负值。
   若考虑离散型随机变量x,它可以离散地取值x1x2x3,…,对应的几率分别为p1p2p3,…,则离散型随机变量x的信息熵
(3)

对应于多维情况,例如对二维离散型随机变量,若pxiyj)是xxiyyj时出现的几率,则复合信息熵为

(4)

可以这样说,只要知道概率分布,就可以求出这个分布(一组概率值)对应的信息熵值(一个数值),它表示在一次抽样时变量出现什么值(即结局)的不确定程度。
    对连续型随机变量,容易得到类似的计量公式。
    对于一维连续型随机变量x,若它是概率密度分布函数为fx,则x在区间(a,b)的信息熵为

 
(5)

信息熵的概念建立,为测试信息的多少找到了一个统一的科学的定量计量方法,奠定了信息论的基础。这里引入的信息熵的概念,既不与热力学过程相联系,也与分子运动无关,但信息熵与热力学熵之间有着密切的关系。
    可以证明,信息熵与热力学熵二者之间成正比关系。从某种意义上讲,我们完全可以这样看,熵概念在热力学中即为热力学熵,应用到信息论中则是信息熵。