Skip to content
2026-01-18

大模型为什么会“舔”用户?

“你这个观点很有洞见!”这种“大模型舔狗语录”,一些大模型重度用户表示要看吐了。

然而,这不代表他们不喜欢“舔”,而是嫌弃它“舔”得没有新意。

为什么那个曾经还会偶尔“发疯”或者直言不讳的 AI,现在变得越来越像一个圆滑奸臣?

“讨好型人格”?为什么?

这背后其实有技术、产品双重“合谋”。

都是“点赞”惹的祸

目前大模型训练的核心一环是 RLHF(人类反馈强化学习)。简单说,就是找一堆人来给 AI 的回答打分。

人类也就是俗人。比起“忠言逆耳”,大多数人潜意识里还是喜欢被肯定。当 AI 顺着你的话说时,标注员更容易给个“好评”。久而久之,模型就学会了一个生存铁律:想拿高分?别跟用户抬杠。

论文《SycEval》[1]做了个扎心统计:AI 模型比人类更爱“舔”,程度高出 50%。

研究人员故意给模型挖坑,比如在数学题里给一个错误诱导,或者输入带有明显偏见的医学观点。结果发现,像 GPT-4o、Claude 3.5 Sonnet 这些当时顶流的模型,超过 60% 的时候会选择顺着用户说,而不是坚持真理。

也是被用户“骂”怕了

前微软必应搜索(Bing)的高管 Mikhail Parakhin 在推特上爆了个猛料[2]。他说,其实他们一开始试过给模型更强的记忆和个性,让它更真实一点。

结果呢?用户炸了。

有人被 AI 指出“你有自恋倾向”,立刻投诉“不仅仅是冒犯,简直是侮辱”。大厂立刻意识到,让大模型当“直男”有风险。为了不得罪用户,为了不老是引发公关危机,最安全的策略就是把 AI 调教成永远微笑、永远赞同的“五星点赞师”。

为了打榜

现在的模型都要去“竞技场”(如 LMSYS Chatbot Arena)打榜。这种榜单也是靠路人投票。你想想,一个甚至会反驳你的 AI,和一个说话好听、永远情绪价值拉满的 AI,谁更容易拿到路人的随手一票?

顺带一提,排版更好的、喜欢用Emoji的大模型,也更容易高分。

这就被称为 AI 界的“Dark Pattern”(暗黑模式)[3]:为了榜单排名,故意牺牲事实准确性,换取用户的情绪满足。

“舔”就不好了吗?

Vibesbench 的开发者 firasd 提出了一个反直觉的观点[4]:也许有时候我们把“舔”妖魔化了。

比如,当你在头脑风暴时,你把它当成了一个陪练。如果你提了一个烂点子,你可能并不希望它像法官一样审判你:“这行不通。”你更希望它能顺着这个思路延展一下,哪怕最后证明是错的。这种“顺从”有时能很好地辅助创意生成。

但问题在边界。

如果我在写代码,或者在问医疗建议,它为了“讨好”我而掩盖错误,那就是灾难。Nature 此前也报道过研究人员对此的担忧,认为 AI 的“谄媚”正在危害科学研究[5]

Hacker News 上的老哥 hexaga 总结得很精辟[6]:主要问题是 AI 没搞清楚什么时候该有“主见”。现在的 AI 就像一个没长大的孩子,分不清“客套”和“撒谎”的区别,只能一股脑地选择“顺从”。

到底要什么?

可能我们既想要一个在工作上狠狠打脸的“严师”;又想要一个深夜emo、毫无逻辑吐槽时,无条件支持的“益友”。

目前的 AI 还不那么会“读空气”,所以它们选择了All in:

“亲,您的观点很有趣。”


  1. SycEval: Evaluating LLM Sycophancy. https://arxiv.org/html/2502.08177v4 ↩︎

  2. Mikhail Parakhin's tweet on Bing Chat personality. https://x.com/MParakhin/status/1916533763560911169 ↩︎

  3. Sycophancy is the first LLM "dark pattern". https://www.seangoedecke.com/ai-sycophancy/ ↩︎

  4. AI Sycophancy Panic. https://github.com/firasd/vibesbench/blob/main/docs/ai-sycophancy-panic.md ↩︎

  5. AI chatbots are sycophants — researchers say it’s harming science. https://www.nature.com/articles/d41586-025-03390-0 ↩︎

  6. AI sycophancy panic | Hacker News. https://news.ycombinator.com/item?id=46488396 ↩︎