有监督解耦与信息压缩相结合,上交新型信息瓶颈算法实现良好的泛化、鲁棒性能

信息瓶颈是一种从源数据中提取出与任务目标有关信息的方法,一般通过优化权衡压缩项和预测项的 IB Lagrangian 来实现。现有文献已经指出 IB Lagrangian 存在的一些问题,比如期望的压缩水平与控制权衡的 Lagrangian 乘子之间没有因果关联,因此对于 IB Lagrangian 来说需要多次尝试优化来实现期望目标。

研究者在文中具体分析了 IB Lagrangian 中存在的权衡问题,表明随着压缩程度增大,预测性能严格减小。为了克服这些问题,研究者一方面期望在不损害预测性能的前提下能够实现最大化压缩,简称为「最大化压缩」;另一方面期望无需多次尝试优化,即模型能够一致地实现最大化压缩。

为此,研究者首先考察了最大化压缩实现时对应的量化条件,之后对优化目标给出了最大化压缩一致性的性质定义,即只要优化目标满足该性质就能够一致地实现最大化压缩。在此基础上,研究者给出自己的方案设计。与现有的 IB Lagrangian 不同,研究者 从有监督解耦的角度来实现信息压缩,这是因为他们认为信息压缩与有监督解耦本质上是同一回事 :在有监督解耦任务中,需要将源数据中与给定标签有关的信息和其它信息分开,如给定图像的类别标签,将图像信息解耦为类别有关的和类别无关的信息;而类似地,在信息压缩任务中,要将源数据中与给定标签无关的信息丢弃从而实现压缩,同样需要区分出与给定标签有关的信息和与给定标签无关的信息。

基于此,研究者将有监督解耦与信息压缩相联系,提出了 基于解耦的信息瓶颈算法 。研究者给出了一些结论,同时在多个数据集上验证了这些结论,并验证了所提方法在包括信息压缩等多个评估指标上的性能。本文已被 AAAI 2021 会议接收。

论文地址:https://arxiv.org/pdf/2012.07372.pdf

IB Lagrangian 中压缩项与预测项的权衡

研究者分析了 IB Lagrangian 中存在的压缩项与预测项之间的权衡问题。形式如下:

具体来说,本文的结论表明 IB Lagrangian 最优解对应的预测性能是随着压缩程度的增大而严格下降的。

最大化压缩一致性、方法设计

为了实现一致的最大化压缩,研究者首先给出了最大化压缩对应的量化条件。首先考虑了 I(X;Y) = H(Y)的情形,应用互信息的基本性质及信息处理不等式,可以得到

接着给出了关于优化目标的最大化压缩一致性的性质定义:

即任意优化目标,只要满足这一性质,就会一致地实现最大化压缩,即上述量化条件。在此基础上给出了本文方法的优化目标函数

具体来说,研究者通过最大化 I(X;S;Y)来约束 (S;Y) 能够表示出 X 的全部信息,则可知 S 至少包含了 X 中与 Y 无关的信息;通过最大化 I(T;Y)来约束 T 能够无损地预测出 Y,则可知至少 T 包含了 X 中与 Y 有关的信息。在此基础上通过最小化 I(S;T)来约束 S 与 T 中的信息互不交叠,从而精确地约束 T 保留与 Y 有关的信息而 S 保留与 Y 无关的信息。可以证明,研究者的优化目标满足最大化压缩一致性,即

对于方案的工程实现,现有的文献提供了直接可用的方法。对于最大化 T(T;Y)和 I(X;S;Y)来说,可以采用变分逼近;而对于最小化 I(S;T)来说,可以采用 Density-Ratio Trick 并以对抗方式进行训练。

研究者的方案与信息压缩和有监督解耦两个领域有关。对于信息压缩的有关方法,大多采用了优化 IB Lagrangian 的形式,因此根据上述结论,它们的压缩项和预测项权衡无法避免,从而在信息压缩的同时带来预测性能的损失;而与有监督解耦的有关方法相比,如前所述,本文方法能够确保 T 和 S 分别精确地保留与 Y 有关和无关的信息,而它们在信息量控制方面没有保证。

实验结果

本文的主要目标是克服 IB Lagrangian 中的权衡问题,因此首先验证所提方法在 IB 平面(横轴代表 I(X;T),纵轴代表 I(T;Y))上的表现行为。结果如下图所示:

通过上图可以看出,本文方法能够 在压缩信息的同时避免对预测性能的影响,最大化压缩的量化条件得以较好地逼近 ;而在 IB Lagrangian 的优化中,预测性能会随着压缩程度加大而下降。除此之外,参照信息压缩方法相关文献中的其它评估指标,本文方法在泛化能力、鲁棒性以及离群样本检测方面也表现良好。

本文方法额外带来的收获是能够进行有监督地解耦。通过可视化结果,本文方法可以较好地展示出解耦效果。

总结

总的来说,为了克服优化 IB Lagrangian 的信息压缩方法中存在的压缩项与预测项的权衡问题,研究者从有监督解耦的角度实现了信息压缩的方法,并提出了基于有监督解耦的信息瓶颈算法。研究者给出了一些结论并进行了实验验证,同时在最大化压缩、泛化能力、鲁棒性、离群样本检测、有监督解耦等方面对方法进行评估,得到了良好的实验效果。

机器之心
我还没有学会写个人说明!
上一篇

就是这个妖孽,拯救了中国直男的坏品位

你也可能喜欢

评论已经被关闭。

插入图片