大模型为什么会“舔”用户?
“你这个观点很有洞见!”这种“大模型舔狗语录”,一些大模型重度用户表示要看吐了。
然而,这不代表他们不喜欢“舔”,而是嫌弃它“舔”得没有新意。
为什么那个曾经还会偶尔“发疯”或者直言不讳的 AI,现在变得越来越像一个圆滑奸臣?
“讨好型人格”?为什么?
这背后其实有技术、产品双重“合谋”。
都是“点赞”惹的祸
目前大模型训练的核心一环是 RLHF(人类反馈强化学习)。简单说,就是找一堆人来给 AI 的回答打分。
人类也就是俗人。比起“忠言逆耳”,大多数人潜意识里还是喜欢被肯定。当 AI 顺着你的话说时,标注员更容易给个“好评”。久而久之,模型就学会了一个生存铁律:想拿高分?别跟用户抬杠。
论文《SycEval》[1]做了个扎心统计:AI 模型比人类更爱“舔”,程度高出 50%。
研究人员故意给模型挖坑,比如在数学题里给一个错误诱导,或者输入带有明显偏见的医学观点。结果发现,像 GPT-4o、Claude 3.5 Sonnet 这些当时顶流的模型,超过 60% 的时候会选择顺着用户说,而不是坚持真理。
也是被用户“骂”怕了
前微软必应搜索(Bing)的高管 Mikhail Parakhin 在推特上爆了个猛料[2]。他说,其实他们一开始试过给模型更强的记忆和个性,让它更真实一点。
结果呢?用户炸了。
有人被 AI 指出“你有自恋倾向”,立刻投诉“不仅仅是冒犯,简直是侮辱”。大厂立刻意识到,让大模型当“直男”有风险。为了不得罪用户,为了不老是引发公关危机,最安全的策略就是把 AI 调教成永远微笑、永远赞同的“五星点赞师”。
为了打榜
现在的模型都要去“竞技场”(如 LMSYS Chatbot Arena)打榜。这种榜单也是靠路人投票。你想想,一个甚至会反驳你的 AI,和一个说话好听、永远情绪价值拉满的 AI,谁更容易拿到路人的随手一票?
顺带一提,排版更好的、喜欢用Emoji的大模型,也更容易高分。
这就被称为 AI 界的“Dark Pattern”(暗黑模式)[3]:为了榜单排名,故意牺牲事实准确性,换取用户的情绪满足。
“舔”就不好了吗?
Vibesbench 的开发者 firasd 提出了一个反直觉的观点[4]:也许有时候我们把“舔”妖魔化了。
比如,当你在头脑风暴时,你把它当成了一个陪练。如果你提了一个烂点子,你可能并不希望它像法官一样审判你:“这行不通。”你更希望它能顺着这个思路延展一下,哪怕最后证明是错的。这种“顺从”有时能很好地辅助创意生成。
但问题在边界。
如果我在写代码,或者在问医疗建议,它为了“讨好”我而掩盖错误,那就是灾难。Nature 此前也报道过研究人员对此的担忧,认为 AI 的“谄媚”正在危害科学研究[5]。
Hacker News 上的老哥 hexaga 总结得很精辟[6]:主要问题是 AI 没搞清楚什么时候该有“主见”。现在的 AI 就像一个没长大的孩子,分不清“客套”和“撒谎”的区别,只能一股脑地选择“顺从”。
到底要什么?
可能我们既想要一个在工作上狠狠打脸的“严师”;又想要一个深夜emo、毫无逻辑吐槽时,无条件支持的“益友”。
目前的 AI 还不那么会“读空气”,所以它们选择了All in:
“亲,您的观点很有趣。”
SycEval: Evaluating LLM Sycophancy. https://arxiv.org/html/2502.08177v4 ↩︎
Mikhail Parakhin's tweet on Bing Chat personality. https://x.com/MParakhin/status/1916533763560911169 ↩︎
Sycophancy is the first LLM "dark pattern". https://www.seangoedecke.com/ai-sycophancy/ ↩︎
AI Sycophancy Panic. https://github.com/firasd/vibesbench/blob/main/docs/ai-sycophancy-panic.md ↩︎
AI chatbots are sycophants — researchers say it’s harming science. https://www.nature.com/articles/d41586-025-03390-0 ↩︎
AI sycophancy panic | Hacker News. https://news.ycombinator.com/item?id=46488396 ↩︎