实测 20 款多模态模型，情感理解能力仍有巨大短板

张开发

• 2026/4/17 21:17:54 • 15 分钟阅读

分享文章

来源人工智能前沿讲习本文约2000字建议阅读5分钟本文介绍了 MME-Emotion 评测基准用于全面衡量多模态大模型情感智能。近年来多模态大模型Multimodal Large Language Models, MLLMs正在迅速改变人工智能的能力边界。从图像理解到视频分析从语音对话到复杂推理大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答这些模型真的能够理解人类情绪吗在真实世界中人类的情绪往往通过多个模态共同表达。例如一个人可能通过面部表情传递紧张情绪同时语音语调也在变化而语言内容可能只提供部分线索。对于人工智能系统而言仅依赖单一信息来源往往难以准确判断情绪状态。因此情感智能Emotional Intelligence逐渐成为衡量多模态大模型能力的重要指标之一。然而目前学界仍然缺乏一个系统性的评测框架来衡量多模态大模型的情感智能水平。已有情感数据集通常规模较小场景覆盖有限而且大多只关注情绪分类准确率。模型是否真正理解情绪产生的原因以及能否在不同场景中稳定工作往往没有得到充分评估。为了解决这一问题来自香港中文大学和阿里通义实验室的团队共同提出了 MME-Emotion一个面向多模态大模型情感智能的综合评测基准。该工作已被 ICLR 2026 接收。论文标题MME-Emotion: A Holistic Evaluation Benchmark For Emotional Intelligence in Multimodal Large Language Models项目主页https://mme-emotion.github.io论文代码https://github.com/FunAudioLLM/MME-Emotion论文数据https://huggingface.co/datasets/Karl28/MME-EmotionMME-Emotion 是目前规模最大的多模态情感智能评测基准之一包含约 6500 段视频片段及对应问答数据覆盖 27 类真实场景并设计了 8 类不同情感任务。相比传统数据集这一基准强调真实环境中的多模态信息融合能力使模型必须同时理解视觉、语音和语言信息。这些任务包括实验室环境情绪识别、真实场景情绪识别、噪声条件下情绪识别、细粒度情绪识别、多标签情绪识别、情感倾向分析、细粒度情感分析以及意图识别等多个方向。不同任务之间保持相对均衡的数据分布使评测结果更加稳定可靠。与以往工作相比MME-Emotion 的一个重要特点是同时评测情绪识别能力和情绪推理能力。在许多已有数据集中只要模型预测正确的情绪标签即可获得高分但这种评测方式无法区分「猜对答案」和「真正理解情绪」的差别。例如在一个视频中如果人物表现出恐惧情绪模型不仅需要给出 “恐惧” 这一标签还需要能够指出支撑这一判断的线索例如面部表情变化、语音颤抖或者语速变化等。只有在这种情况下我们才认为模型具备一定程度的情感理解能力。为此MME-Emotion 提出了一套统一的评测指标体系包括情绪识别得分Recognition Score、推理得分Reasoning Score以及综合思维链得分Chain-of-Thought Score。其中识别得分用于衡量情绪预测准确率推理得分用于衡量模型推理过程的合理性而综合得分则同时反映识别能力与推理能力。为了支持大规模自动评测研究团队设计了一套基于多智能体系统的评测流程。系统首先获取模型对问题的回答然后自动提取回答中的关键推理步骤并结合视频帧信息和语音线索进行评分。这种方法避免了传统评测中大量人工标注推理过程的成本问题。为了验证自动评测的可靠性研究团队还邀请了多位专家对部分样本进行了人工评测。结果表明自动评分与人工评分之间具有较高一致性说明这一评测方法在实际使用中具有较好的稳定性。在 MME-Emotion 基准上研究团队评测了 20 个当前主流多模态大模型包括多个开源模型以及闭源模型如 GPT-4o、Gemini 系列以及 Qwen 系列模型。实验结果显示即使是当前最先进的模型在情感智能方面仍然存在明显不足。表现最好的模型情绪识别得分不到 40%综合思维链得分也只有约 56%。从整体平均结果来看各模型在情绪识别任务上的表现仍然处于较低水平。这些结果说明多模态大模型虽然在视觉理解和语言推理方面取得了显著进展但情感理解仍然是一个具有挑战性的方向。进一步分析发现目前模型在情感任务中主要存在几类典型问题。首先是细粒度视觉理解能力不足。在许多错误案例中模型难以区分相似情绪例如恐惧与惊讶之间的差别。这类错误通常源于对面部表情和细微动作变化理解不足。其次是多模态信息融合能力有限。一些模型在仅使用视觉信息时表现尚可但当需要同时结合语音和视觉信息时反而出现性能下降。这说明当前模型在处理多模态情感线索时仍然存在困难。此外研究还发现模型推理能力与情绪识别能力之间存在明显相关性。通常来说能够给出更完整推理过程的模型其整体情感智能表现也更好。这一现象表明推动模型进行更深入的推理可能是提升情感智能的一条重要路径。整体来看MME-Emotion 提供了一个更加全面的评测框架使研究者能够系统分析多模态大模型在情感理解方面的能力边界。研究团队认为未来多模态情感智能的发展可能依赖几个关键方向包括更高精度的视觉细节建模、更有效的语音与视觉信息融合方法以及能够解释情绪产生原因的推理机制。随着多模态大模型不断发展情感智能有望成为人工智能系统的重要能力之一。在教育、人机交互和医疗辅助等应用场景中能够理解人类情绪的智能系统将具有重要价值。MME-Emotion 的发布为这一研究方向提供了统一评测标准也为后续模型改进提供了清晰的参考基线。作者介绍章帆香港中文大学计算机科学与工程系博士生导师为 Pheng-Ann Heng 教授。主要研究方向为多模态大模型与 Agent 系统关注多模态理解、推理能力评测以及面向复杂任务的智能体工作流设计。近年来在 ICLR、CVPR、NeurIPS 等国际会议发表多篇论文相关研究工作涵盖多模态大模型评测基准构建、后训练以及深度研究型智能体Deep Research Agents。目前致力于探索多模态 Agent 系统在复杂真实任务中的能力边界与应用潜力。编辑于腾凯校对林亦霖关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

实测 20 款多模态模型，情感理解能力仍有巨大短板

最新文章

别再乱调了！伺服三环（电流/速度/位置）增益调整的保姆级顺序与避坑指南

K210小白避坑指南：从MaixHub下载YOLO模型到成功加载的完整流程（附固件选择表）

HappyHorse火了，阿里AI商业化在即，优酷能否为内容生态“打辅助”？

CFturbo 2024保姆级教程：从流量扬程到三维叶轮，手把手搞定离心泵水力设计

微信小程序开发week3

终极跨平台漫画阅读神器：nhentai-cross完整使用指南

推荐文章

龙虾白嫖指南，请查收~勘

AI Agent在金融科技领域的应用实践：风控、投顾与合规

Unity3D动画插件DoTween进阶应用与性能优化指南

超表面贝塞尔光束生成系统代码功能深度解析

【5G系列】深入解析NAS层UAC：Access Identity与Access Category的获取机制

Spring with AI (): 搜索扩展——向量数据库与RAG(下)肺

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

上海全屋定制工厂机构排名

别再只会用HAL_Delay了！深入理解STM32G474定时器，实现精准多任务调度

Python的complex系统演进

SAP预留与锁料功能深度对比：如何选择最适合你的物料控制方案

使用 LangGraph 构建状态化 Agent Harness

CnOpenData A股上市公司股权激励公告数据

数字政府智慧政务信息安全等级保护（三级）建设项目设计方案：安全防护体系设计整体架构、安全建设规划与方案、项目实施与管理

CAN数据帧详解

热点事件借势：社会新闻驱动测试创新

用51单片机+蜂鸣器复刻《小星星》完整教程（附源码与乐谱数据解析）

Cursor免费升级Pro终极指南：三步实现无限制AI编程

3个实战技巧：彻底解决Calibre中文路径乱码问题