一项最新研究发现,常见的人工智能(AI)模型在情商测试中表现优于人类,但专家提醒我们不要只看标题。
科学家们如今提出,AI在理解情感方面比人类做得更好 —— 这似乎是对我们曾认为计算机永远无法超越的人类能力的又一打击。
科学家发现,AI比我们更善于理解情感 —— 在处理各种情绪激烈的情境时,选择正确化解方式的得分远高于普通人。
在发表于《通讯心理学》期刊的一项新研究中,来自日内瓦大学(UNIGE)和伯尔尼大学(UniBE)的科学家们将广泛使用的情商(EI)测试(包括STEM、STEU、GEMOK-Blends、GECo Regulation和GECo Management)应用于常见的大型语言模型(LLMs),包括ChatGPT-4、ChatGPT-o1、Gemini 1.5 Flash、Claude 3.5 Haiku、Copilot 365和DeepSeek V3。
他们研究了两件事:首先,比较AI与人类受试者的表现;其次,评估AI创造符合情商测试目的的新试题的能力。
通过研究过往研究中已验证的人类反应数据,这些大型语言模型在情商测试中基于人类专家的意见选择了“正确”答案的比例达到81%,而人类仅为56%。
当要求ChatGPT创建新的测试题目时,人类评估者认为,这些新题在难度相当、且能让人感知到并非对原题的简单改写方面,达到了原始测试的标准。AI生成的测试与原始测试之间的相关性被描述为“强”,相关系数为0.46(1.0代表完全相关,0代表无相关性)。
研究的总体结论是,AI在“理解”情感方面比我们做得更好。
深层解读
当媒体咨询了多位专家时,他们回应中的一个共同主题是:必须牢牢记住研究方法。他们指出,所采用的每种常见情商测试都是选择题形式 —— 这几乎不适用于现实世界中人际关系紧张度高的复杂情境。
“值得注意的是,人类对于他人感受的判断并非总是一致,即使是心理学家对情绪信号的解读也可能不同,”金融行业及信息安全专家Taimur Ijlal说。“因此,在这种测试上‘击败’人类,并不一定意味着AI有更深层次的洞察力。它只意味着AI更频繁地给出了统计上更常见的答案。”
专家们补充道,该研究所测试的能力并非情商,而是别的能力。“AI系统在模式识别方面非常出色,尤其是当情绪线索遵循可识别的结构时,比如面部表情或语言信号,”为心理健康专业人士打造的AI辅助文档工具CliniScripts的创始人兼首席执行官Nauman Jaffar说。“但将此等同于对人类情感更深层次的‘理解’,可能会夸大AI的实际能力。”
在结构化、量化的测试环境中 —— 而非真正理解情感所需的深层细微差别 —— 才是AI的闪光点。一些专家指出一个关键点:AI在关于情绪情境的测试中表现更好,但这些情境并非人类在当下亲身经历的那种激烈时刻。
Hennessy Digital 创始人兼首席执行官Jason Hennessey(他多年来一直分析搜索和生成式AI系统如何处理语言)将这项研究比作“眼神读心测试”(Reading the Mind in the Eyes Test)。这是一种评估受试者情绪状态的常用工具,AI在此类测试中已显示出潜力。但正如Hennessey所说,当测试中像照片光线或文化背景这样常规的变量发生变化时,“AI的准确性就会断崖式下跌。”
总体而言,大多数专家认为,声称AI比人类更“理解”情感的说法有些言过其实。
“它是否表明大型语言模型在归类常见情绪反应方面很有用?”西北IT咨询公司(Northwest IT Consulting)创始人Wyatt Mayham说。“当然。但这就像说某人在一个情感主题的BuzzFeed网络测试中得了高分,就说他是个优秀的治疗师一样。”
但最后还有一个值得注意的案例
有证据表明,即使AI使用的是模式识别而非真正的情感理解,但至少在一个实例中,它在识别和响应情绪状态方面已超越人类。
在巴西,有超过6000名长途卡车司机使用的对话式AI助手Aílton,就是一个多模态WhatsApp助手,它使用语音、文字和图像进行交互。其开发者、HAL-AI的首席执行官兼首席科学家Marcos Alves表示,Aílton识别压力、愤怒或悲伤的准确率约为80% —— 比其人类同行高出约20个百分点,而且这一切都是在司机实时与其互动的真实情绪情境中完成的。
在一个案例中,一名司机在同事发生致命车祸后发送了一条语无伦次的15秒语音信息,Aílton迅速做出了恰当回应:表达了细致的哀悼、提供了心理健康资源并自动通知了车队经理。Alves说:“是的,选择题式的文字小测验简化了情绪识别。真正的共情是连续且多模态的。但分离出认知层面是有用的。它能揭示大型语言模型在加入情境噪音之前是否能识别出情绪线索。”
他补充道,大型语言模型能够吸收数十亿句子和数千小时的对话音频,这意味着它可以编码人类常常遗漏的细微语调线索。他在谈到该研究时说:“实验室环境是有限的,但我们的WhatsApp数据证实,现代大型语言模型在检测和响应方面已经比大多数人做得更好,提供了可规模化的共情能力(offering scalable empathy at scale)。”
按月配资开户提示:文章来自网络,不代表本站观点。