0%

Multimodal Machine Learning: A Survey and Taxonomy

IEEE transactions on pattern analysis and machine intelligence, 2018,引用3890

多模态的五大核心挑战

表示(Representation)

  • 目标:将异构数据(如图像、文本、音频)转换为统一或协调的表示形式。

  • 方法:

    • 联合表示(Joint):将多模态数据映射到同一空间(如神经网络、深度玻尔兹曼机)。

    • 协调表示(Coordinated):不同模态独立映射,但通过相似性约束(如距离最小化、相关性最大化)协调。

      image-20250226133825056
  • 应用:语音识别、情感分析、跨模态检索。

翻译(Translation)

  • 目标:将一种模态的信息转换为另一种模态(如图像生成描述、文本生成图像)。

  • 方法:

    • 基于示例(Example-based):通过检索或组合现有示例生成结果。
    • 生成式(Generative):使用编码器-解码器框架(如RNN、LSTM、注意力机制)生成新内容。
  • 挑战:评估困难(如主观性、多正确答案),常用BLEU、ROUGE等指标。

对齐(Alignment)

  • 目标:找到不同模态子元素间的对应关系(如视频帧与文本描述的对齐)。

  • 方法:

    • 显式对齐:动态时间规整(DTW)、图模型(HMM、CRF)。
    • 隐式对齐:注意力机制(Attention)、神经网络隐式学习对齐。
  • 应用:视频-文本对齐、视觉问答(VQA)。

融合(Fusion)

  • 目标:整合多模态信息进行预测(如情感识别结合语音和面部表情)。

  • 方法:

    • 模型无关:早期融合(特征拼接)、晚期融合(决策加权)、混合融合。
    • 基于模型:多核学习(MKL)、图模型(CRF)、神经网络(LSTM、多模态RNN)。
  • 挑战:处理噪声、模态缺失、时序不一致性。

协同学习(Co-learning)

  • 目标:利用资源丰富的模态辅助资源稀缺的模态学习。

  • 方法:

    • 并行数据:协同训练(Co-training)、迁移学习。
  • 非并行数据:零样本学习(ZSL)、概念嵌入(Conceptual Grounding)。

    • 混合数据:通过中间模态桥接(如多语言图像描述)。
  • 应用:跨模态检索、少样本学习。