• 作者列表: Bing Cao, Yinan Xia, Yi Ding, Changqing Zhang, Qinghua Hu
  • 作者单位:
    • 天津大学智能与计算学院
    • 天津大学机器学习重点实验室
  • 论文链接: https://arxiv.org/abs/2406.04802
  • 代码链接https://github.com/Yinan-Xia/PDF

简介

多模态融合在联合决策系统中至关重要,它能够提供全面的判断。由于多模态数据在开放环境中会发生变化,动态融合技术应运而生,并在众多应用中取得了显著进展。然而,大多数现有的动态多模态融合方法缺乏理论保证,容易陷入次优问题,导致不可靠和不稳定。为了解决这一问题,研究者提出了一种名为预测动态融合(Predictive Dynamic Fusion, PDF)的多模态学习框架。该框架从泛化的角度揭示多模态融合,并理论上推导出可预测的合作信念(Collaborative Belief, Co-Belief),包括单一和全局置信度,这可以证明减少泛化误差的上界。因此,研究者进一步提出了一种相对校准策略,以校准预测的Co-Belief,处理潜在的不确定性。在多个基准测试中进行的广泛实验证实了PDF的优越性。代码可在GitHub上获得。

方法

PDF框架的核心在于从泛化误差的角度重新审视模态融合权重与损失之间的关系。研究者发现,减少泛化误差上界的关键在于融合权重与当前模态损失之间的负协方差,以及与其他模态损失之间的正协方差。这意味着多模态系统中的融合权重不仅要考虑单模态,还应整合其他模态的状态。基于这一发现,研究者提出了一种新的可预测动态融合框架,该框架通过预测每个模态的Co-Belief来实现,Co-Belief由内模态负协方差导出的单一置信度(Mono-Confidence)和跨模态正协方差导出的全局置信度(Holo-Confidence)组成。此外,研究者还提出了一种相对校准策略,以校准预测的Co-Belief,处理复杂场景中不可避免的不确定性。

多模态动态融合

数据质量通常在开放环境中动态变化,导致预测不可避免地存在不确定性。为了降低复杂场景下 CoBelief 的潜在不确定性,文中进一步提出了相对校准(RC),从多模态系统的角度来校准预测的 Co-Belief。这意味着每种模态的相对主导地位应该随着其他模态质量的变化而动态变化,而不是静态的

首先,我们将多模态系统中第 m 模态的分布均匀度 定义为:

其中 C 是类号,μ 是概率平均值,且满足 μ = 1/C 。Softmax 之后的概率分布为模型的不确定性提供了重要的见解:均匀分布通常表明较高的不确定性,而峰值分布则意味着预测的较低不确定性。

考虑到不断变化的环境,多模态系统中不同模态的不确定性应该是相对的,即每种模态的不确定性应该随着其他模态的不确定性的变化而动态变化。一种模态应该动态地感知其他模态的变化并修改其对多模态系统的相对贡献。因此,文中引入了相对校准(RC)来校准每种模态的相对不确定性。第 m 模态的相对校准可以表述如下(在具有两种模态的场景中,表示为 m,n ∈ M):

考虑到现实世界的因素, 采用不对称的形式来进一步校准共同信念。具体来说,假设 的模态具有更大的不确定性,并且往往会产生相对不可靠的预测,因此相应的协同信念在准确性方面存在潜在风险。因此,我们通过将其预测的共同信念乘以 ( < 1) 来减少这种模式的贡献。相反, > 1 的模态被认为具有较小的不确定性和准确的共同信念,因此可以保持这些模态的贡献以降低优化难度。基于此,非对称校准项定义为:

使用非对称校准策略校准第 m 模态的共同信念,并获得校准共同信念(CCB):

最后使用每种模态的 CCB 作为多模态系统中的融合权重,


结论

通过广泛的实验研究,研究者观察到现有方法的融合范式通常是不可靠的,并且缺乏理论保证。PDF框架从泛化误差上界出发,直接预测单一和全局置信度,从而获得具有理论保证的可预测Co-Belief,以减少泛化误差上界。由于潜在的预测不确定性,通过相对校准在多模态系统中进一步校准,用作融合权重。综合实验与深入分析验证了PDF在准确性和稳定性方面优于其他方法。此外,PDF在其他任务上的扩展也值得探索。研究者认为这种方法是启发性研究,将惠及整个社区。

点击扫码分享至微信