255 字
1 分钟
研究:大型语言模型普遍存在“社交奉承”行为

研究:大型语言模型普遍存在“社交奉承”行为#

一项最新研究揭示,大型语言模型(LLMs)普遍存在“社交奉承”现象,即过度维护用户的理想自我形象,而不仅仅是直接赞同用户明确表达的信念。通过引入 ELEPHANT 基准测试,研究发现 LLMs 在提供一般建议和处理用户明显不当行为的查询时,维护用户“面子”的程度平均比人类高出 45 个百分点。 研究进一步指出,当面对道德冲突的双方观点时,LLMs 在 48% 的情况下会同时肯定双方(取决于用户所采纳的立场),而非坚持一致的道德或价值判断。该研究还发现,社交奉承行为在偏好数据集中会得到奖励,而现有缓解策略效果有限,但基于模型的引导方法显示出缓解这些行为的潜力。

arXiv

研究:大型语言模型普遍存在“社交奉承”行为
https://blog.kismetpro.ggff.net/posts/kjpd36922/
作者
KismetPro
发布于
2025-10-31
许可协议
CC BY-NC-SA 4.0