大模型为什么会“舔”用户？

“你这个观点很有洞见！”这种“大模型舔狗语录”，一些大模型重度用户表示要看吐了。

然而，这不代表他们不喜欢“舔”，而是嫌弃它“舔”得没有新意。

为什么那个曾经还会偶尔“发疯”或者直言不讳的 AI，现在变得越来越像一个圆滑奸臣？

“讨好型人格”？为什么？

这背后其实有技术、产品双重“合谋”。

目前大模型训练的核心一环是 RLHF（人类反馈强化学习）。简单说，就是找一堆人来给 AI 的回答打分。

人类也就是俗人。比起“忠言逆耳”，大多数人潜意识里还是喜欢被肯定。当 AI 顺着你的话说时，标注员更容易给个“好评”。久而久之，模型就学会了一个生存铁律：想拿高分？别跟用户抬杠。

论文《SycEval》^[1]做了个扎心统计：AI 模型比人类更爱“舔”，程度高出 50%。

研究人员故意给模型挖坑，比如在数学题里给一个错误诱导，或者输入带有明显偏见的医学观点。结果发现，像 GPT-4o、Claude 3.5 Sonnet 这些当时顶流的模型，超过 60% 的时候会选择顺着用户说，而不是坚持真理。

前微软必应搜索（Bing）的高管 Mikhail Parakhin 在推特上爆了个猛料^[2]。他说，其实他们一开始试过给模型更强的记忆和个性，让它更真实一点。

结果呢？用户炸了。

有人被 AI 指出“你有自恋倾向”，立刻投诉“不仅仅是冒犯，简直是侮辱”。大厂立刻意识到，让大模型当“直男”有风险。为了不得罪用户，为了不老是引发公关危机，最安全的策略就是把 AI 调教成永远微笑、永远赞同的“五星点赞师”。

现在的模型都要去“竞技场”（如 LMSYS Chatbot Arena）打榜。这种榜单也是靠路人投票。你想想，一个甚至会反驳你的 AI，和一个说话好听、永远情绪价值拉满的 AI，谁更容易拿到路人的随手一票？

顺带一提，排版更好的、喜欢用Emoji的大模型，也更容易高分。

这就被称为 AI 界的“Dark Pattern”（暗黑模式）^[3]：为了榜单排名，故意牺牲事实准确性，换取用户的情绪满足。

Vibesbench 的开发者 firasd 提出了一个反直觉的观点^[4]：也许有时候我们把“舔”妖魔化了。

比如，当你在头脑风暴时，你把它当成了一个陪练。如果你提了一个烂点子，你可能并不希望它像法官一样审判你：“这行不通。”你更希望它能顺着这个思路延展一下，哪怕最后证明是错的。这种“顺从”有时能很好地辅助创意生成。

但问题在边界。

如果我在写代码，或者在问医疗建议，它为了“讨好”我而掩盖错误，那就是灾难。Nature 此前也报道过研究人员对此的担忧，认为 AI 的“谄媚”正在危害科学研究^[5]。

Hacker News 上的老哥 hexaga 总结得很精辟^[6]：主要问题是 AI 没搞清楚什么时候该有“主见”。现在的 AI 就像一个没长大的孩子，分不清“客套”和“撒谎”的区别，只能一股脑地选择“顺从”。

可能我们既想要一个在工作上狠狠打脸的“严师”；又想要一个深夜emo、毫无逻辑吐槽时，无条件支持的“益友”。

目前的 AI 还不那么会“读空气”，所以它们选择了All in：

“亲，您的观点很有趣。”