摘要

统计学里有很多描述变量间相关性的方法,大部分都要求随机变量必须服从某一或某些概率分布,要么就是满足一定的假设。互信息是基于熵来测量随机变量间的相关性的,它不需要随机变量满足任何特定分布亦或者是特殊的前提假设。一些研究中,冗余也已经作为一种类似于互信息的方法用以评价变量间的相互关系。对冗余和互信息的概念进行深入研究,并使之用以多维的分类数据。研究发现,在几种独立对数线性模型下,分类数据的互信息和冗余可以表示为广义似然比的函数。广义似然比对样本容量是非常敏感的,但是分类数据的互信息和冗余却并不取决于样本容量而是取决于单元概率。因此互信息和冗余可以用作评价分类数据间的相关关系,既不需要特殊的前提假设...