信息论中的基本概念

  |   0 评论   |   1,898 浏览

信息

Information,是反映(映射)事件的内容。

凡是在一种情况下能减少不确定性的任何事物都叫信息。

信息是物质存在的一种方式、形态或运动形态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件中的不定性减少。

信息量

信息量是对信息的度量,就跟时间的度量是秒一样

当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢?

多少信息用信息量来衡量,我们接受到的信息量跟具体发生的事件有关

原则

  • 信息的大小跟随机事件的概率有关

  • 某事件发生的概率小,则该事件的信息量大。

    • 如华盛顿发生地震

  • 越大概率的事情发生了产生的信息量越小

    • 如太阳从东边升起来了(肯定发生嘛,没什么信息量)

  • 两个事件的信息量可以相加,并且两个独立事件的联合信息量应该是他们各自信息量的和,假定X和Y的信息量分别为h(X)和h(Y),则二者同时发生的信息量应该为h(XY)=h(X)+h(Y)。

  • 信息量应当是非负的,必然发生的信息量为0

自信息(self-information)

有时候也叫做不确定性,是与概率空间中的单一事件或离散随机变量的值相关的信息量的量度。

一个随机产生的事件所包含的自信息数量,只与事件发生的机率相关。当某个事件(随机变量)的一个不可能的结果出现时,我们就认为它提供了大量的信息。相反地,当观察到一个经常出现的结果时,我们就认为它具有或提供少量的信息

一个极其偏畸的硬币,每一次抛掷总是正面朝上。任何一次硬币抛掷的结果都是可以完全预测的,这样的话我们就永远不会对某次结果感到惊奇,也就意味着我们从这个实验中得到的信息是 0。换言之,它的自信息是 0

如果硬币的偏畸程度稍微小一些,这样的话,尽管看到正面朝上的概率超过了 50%,每次抛掷还会有一些信息。因此,它的自信息大于 0。如果硬币的偏畸程度是导致反面朝上的结果,我们得到的自信息还是 0

在使用一个没有偏畸的硬币做实验时,每次抛掷得到正面朝上和反面朝上的概率都是 50%,我们会得到最大的意外性,因为在这种情况下硬币抛掷的结果的可预测性是最小的

推导

  1. 如果我们有俩个不相关的事件x和y,那么我们观察到的俩个事件同时发生时获得的信息应该等于观察到的事件各自发生时获得的信息之和,即:h(x,y) = h(x) + h(y)

  2. 由于x,y是俩个不相关的事件,那么满足联合概率p(x,y) = p(x)*p(y)

  3. 因为只有对数形式的真数相乘之后,能够对应对数的相加形式

  4. 我们很容易看出h(x)一定与p(x)的对数有关

定义

定义随机变量X的概率分布为p(x),则其对应的自信息h(x)为

19.png

图像如下

20.jpg

熵(Entropy)

韦恩图

7.png

信息熵(Information Entropy)

熵(英语:entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵、香农熵、平均自信息量。

这里,“消息”代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)来自信源的另一个特征是样本的概率分布。

熵的单位通常为比特,但也用Sh、nat、Hart计量,取决于定义用到对数的底。

信息量度量的是一个事件发生之后所带来的信息量,而熵则是在结果出来之前对可能产生的信息量的数学期望

信息熵衡量了系统的不确定性,而我们要消除这个不确定性,所要付出的【最小努力】(猜题次数、编码长度等)的大小就是信息熵

概率质量函数

21.jpg


两点分布的熵H(X)(即期望自信息)

22.png

以比特度量,与之相对的是硬币的公正度Pr(X=1).

注意图的最大值取决于分布;在这里,要传达一个公正的抛硬币结果至多需要1比特,但要传达一个公正的抛骰子结果至多需要log2(6)比特。

均匀分布的信息熵

以离散分布为例:假定某离散分布可取N个值,概率都是1/N,计算该概率分布的熵

概率分布律23.png

计算熵24.png

当一个变量X服从均匀分布时,它所包含的信息熵是最大的

0 <= H(X) <= ln|X|

交叉熵(Cross Entropy)

用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小

计算公式

pk 表示真实分布,qk 表示非真实分布

1.jpg

交叉熵越低,这个策略就越好,最低的交叉熵也就是使用了真实分布所计算出来的信息熵,因为此时 p= qk ,交叉熵 = 信息熵

相对熵(Relative Entropy)

又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain)。

用来衡量两个取值为正的函数或概率分布之间的差异

假设我们想知道某个策略和最优策略之间的差异,我们就可以用相对熵来衡量这两者之间的差异

计算公式

设p(x)、 q(x)是X中取值的两个离散的概率分布,则p对q的相对熵是

相对熵 = 信息熵 - 交叉熵

联合熵(Joint Entropy)

若X,Y是两个随机变量,则(X,Y)是二维随机变量,简写为XY

二维随机变量(X,Y)的联合概率分布记为p(X,Y),即p(X,Y)=p{X=x, Y=y}

根据信息熵的定义,可得联合熵H(X, Y)

3.png

它反应了二维随机变量(X,Y)的取值的不确定性

条件熵(Conditional Entropy)

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性

计算公式

如果H(Y|X=x)为变数Y在变数X取特定值x条件下的熵,那么H (Y|X)就是H (Y|X=x)在X取遍所有可能的x后取平均的结果。

给定随机变量X与Y,定义域分别为X与Y,在给定X条件下Y的条件熵定义为:

image.png

另一种计算方法

H(Y|X)=H(X,Y) – H(X)

(X,Y)发生所包含的熵,减去X单独发生包含的熵:在X发生的前提下, Y发生“新”带来的熵

该式子定义为X发生前提下, Y的熵

互信息(Mutual Information

指的是两个随机变量之间的相关程度

两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵

计算公式

设p(x,y)是X和Y的联合概率分布函数,而p(x)和p(y)分别是X和Y的边缘概率分布函数。

5.png

推导过程

I(X,Y)=H(X)+H(Y)-H(X,Y)

6.png

确定随机变量X的值后,另一个随机变量Y不确定性的削弱程度

互信息取值最小为0,意味着给定一个随机变量对确定一另一个随机变量没有关系

最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随机变量的不确定性

假设X,Y完全无关,H(X) = H(X|Y) , 那么I(X;Y) = 0

假设X,Y完全相关,H(X|Y) =0, 那么I(X;Y) = H(X)

条件熵越大,互信息越小,条件熵越小,互信息越大。

Gini Index

p(j|t)是分类j在指定节点中的比例

计算

image.png

读后有收获可以支付宝请作者喝咖啡