「AI能做」半月刊2026年5月 · 下刊

长期乐观

人们总是高估科技的短期效益,却低估其长期影响 —— 罗伊·阿玛拉

我们总是高估未来一两年的变化,低估未来十年的变化 —— 比尔·盖茨

模型在用

  • 推特自动翻译推文,全量放开。短期看负面声音比较大,更多内容会被其他国家的人看到。

tombkeeper: 马斯克建起了巴别塔

谷歌I/O大会,乏善可陈,乱作一团。北京时间5月20日。
  • 历代Gemini Flash价格。Flash的9美元百万词元输出,算是Pro价了(12美元);
  • 界面全面模仿OpenAI系,爆款应用NotebookLM,没有实质改善,感觉没有产品经理领头做事;
  • Gemini网页更新更是没有解决重点问题,问完问题还是得挂着。不像别家问完直接退都没事。还会有一系列附件问题,还不如去用AIStudio
  • Google Antigravity 2.0 一塌糊涂,原先的Antigravity从IDE变成Codex app那种Agent应用,要用IDE得在下载一个Antigravity IDE,用户得自行解决历史项目丢失的问题。Gemini Cli重构、改名叫Antigravity Cli。
AI绘图、AI检测、视频
  • ChatGPT可以生成系列套图,不过直接画连续关键帧可能还不太行;
  • ChatGPT生图水印检测,官方链接,介绍
  • 罗伯特·麦基《故事》的引言有八段「是……,而不是……」的排比,我第一反应是这样可能会被鉴定为AI写作。试了下某工具,得出疑似的结论(图一)。这书快三十岁了;
  • 腾讯朱雀大模型检测工具,出了个“小游戏”,让你判断图片是否AI生成。我做了100%正确,你也试试吧;
  • 川普发了条AI 视频,内容是他把 斯蒂芬·科尔伯特 扔绿色大垃圾桶里,然后开始跳舞。科尔伯特在 The Late Show 长期讽刺川普,而昨天这个节目因为长期亏损被取消,据说每年亏几千万美元。从赚钱角度看,确实是垃圾。

短期乐观,阵痛回调

公司回调

外国公司陆续发现,继续推广大模型,性价比降低,且需要一种投入产出比衡量方式。

  • Amazon:先推动AI,甚至设榜单;发现榜单会诱导员工刷 token 后,又停掉。出现生产事故后,禁止初级程序员自行提交AI代码,需要高级程序员审核;
  • Uber COO Andrew Macdonald 在 Rapid Response 采访中说,很难关联 AI token 使用量和“对消费者有用的功能数量”;
  • Microsoft 取消员工Claude Code额度,迁移到Copilot CLI、Foundry、自家工程体系里;
  • OpenClaw更新、实验消耗了大量token,但大伙在转向更靠谱的产品,比如hermes。

当然,乐观的也有:

  • Fiverr CEO 告诉 BI:不会招聘不使用 AI 的候选人;他还在给员工的公开信中说 AI 会影响所有岗位;
  • 对冲基金 Third Point 的 Dan Loeb 说,只有开始用 AI 才能真正学会,员工会分享 AI 用法,有些人会让 agent 跑一整夜、消耗大量 token。

还有更有趣的例子,Coinbase CEO 去年五月要求工程师快速 onboard AI coding tools;BI 报道他解雇了部分没有合理理由拒绝使用 AI 的员工,并提出提升 AI 生成代码比例目标。今年五月,宣布裁员约14%,原因是市场下行、成本压力跟AI带来工作方式的改变。提出“扁平化”、“一人团队”等概念。

看它实际收益,2026 年 Q1,Coinbase 总收入 14 亿美元,净亏损 3.941 亿美元。而前两年盈利。当然,跌的主要因素是加密货币的行情不好,跟AI关系不太大。

至于公开数据,消耗十倍token,PR合并数只增加一倍,而且代码撤回率比基准高16%

总而言之,智能作坊从手工业迈向工业生产,显然可以效率提升,但这种效率提升要跟业务相结合。或许可以参考现有工业的例子。

工厂为什么不全自动化?

追求“全自动化”的人。可以看看工厂实际运行情况。

食品工厂可能比较多人工一点。比方说卤蛋,找了个视频,随机截六张图,四张有人的身影。

有人会说,这是因为规定要有员工。那还可以想想更现实的问题:如果产品销量下降怎么办?产线能不能换成做别的?

如果是“全自动化”,相关有效措施会少多少?

没有销量,全自动做出产品,是全自动亏钱。

现在内存价格畸高,厂商确不扩产产线,也有类似考虑。

软件其实也类似。比方说,这个UI自动化框架好像不错,主要是做黑盒测试的自动化。MaaXYZ/MaaFramework。项目头像也一看就很有技术力。用的(古典)AI识别界面元素。

找了个成型项目试了试(类似游戏脚本),限定分辨率,流程上有个按钮识别不了,就直接中断。遇到意外情况(比如月卡框突然弹出)也直接中断。

如果引入大模型呢?不比测试人员便宜,时间跟成本上都是。准确率也不高。

最要命的是,测试要测的,往往是“变化”的地方,而自动化相比人工,缺点就是应对变化的能力。

本来是改程序,加上人工测试,现在是改程序,改自动化程序,再人工测试自动化程序。

不是有AI做吗?

“不是有AI做吗”,如果你认真读了上文,那么很可能会笑出来。你可能还会想“什么外行领导”。

为了向外行说明问题,可以考虑引入更具体的案例。比方说,“AI做”这事儿,有点像“扫地机器人拖地”,也有点像“想要无框门”。

像扫地机器人

扫地机器人,我看了很多宣传,完全没有提维护成本。虽然说是“机器人”,现在其实是“自动驾驶玩具车”+“圆盘吸尘器”+“车站”,“车站”要么接水管,要么放水箱——水箱你得倒污水吧?

你去找扫地机器人的图来看,玩具车像能自清洁的样子吗,像能清洁车站的样子吗?这都是要日常维护的地方。

如果家里不够平整,玩具车会很鸡肋,很容易开不到某片区域。或者杂物较多,清洁的时候也要人去收拾,或者玩具车吃点纸、破布、蚊帐(应该没有随地扔袜子的吧)。

这里不是批评扫地机器人完全没有用,而是它有不少不适用的场景,但提到的网友很少,或者传播不开来(找到图二,点赞为0)。

“不是有AI做吗”,也类似,直接忽略维护成本,也不考虑是否符合适用条件。

像无框门

图二也是AI生成的,非常理想的无框门。日后门稍微变形一点,就会有无穷无尽的烦恼。会有无穷的维护成本。

但烦恼在施工中的时候就会出现。装修件“低公差容忍”、安装困难。施工导致墙体开裂也不奇怪。

有的「随“机”编程」(Vibe Coding)玩具项目,全站图片直接base64包到网页,用户一开网站就全部下载图片;有的不喜欢用数据库,用json存、甚至有服务端用sqlite(非cloudflare魔改)。这些就是增加维护成本的典型。

“无框门”是种隐喻。为了某种不太重要的愿望,做了错误选择。同理还有技术选型、需求管理。

要真值得做

如果一个人无所事事,随便用AI做点东西,也值得鼓励。但一个有很多事的团队,就不要用“AI不是能做吗”加塞需求了。

AI降低代码编写成本,但没降低判断、沟通、验收、维护成本。

面对“不是有AI做吗”,反问四句“它真重要吗?适合用 AI 做吗?做完谁验收?出问题谁维护?”

总之,要真值得做。这个得回归到产品经理基本功。

不知长期在哪

编程的争议,不止AI

AI编程的工程应用,现阶段还不算完善,还有一定争议,但趋势无可阻挡。

流行的编程语言,没有一个不是吵吵嚷嚷过来的。

就连汇编都有争论,当时说汇编器浪费机器资源,还不如手写机器码快。这在当时是正确的,但在“未来”是可笑的。

有缺点完全不是事儿。能不能解决痛点,能不能被当时的受众接受,可能才算关键问题。甚至说,就算现在没什么用,“未来”有用,也非常值得关注。

随机未来

对了,有人老说大模型“随机”,随“机”编程(Vibe Coding)不可靠。这对企业来说完全不是缺点——交给员工做,可能是更“随机”的过程。

如果自己是不那么“随机”的员工,批评现在随“机”编程,有道理且正确的。

但在“未来”也是可笑的。

现在的问题是,这个“未来”几时来。

其实,没有人知道。但有足够多管理者相信可以实施AI编程的情况下,肯定能推行,但可能会有比较尴尬的局面。

再下一段“未来”,可能有两种分支。关键点是,随“机”编程能否及时开辟一片新的需求。

需求晦明

新需求有一点苗头。非程序员(设计师、财务等)也开始用Claude Code、Codex来处理工作,享受“自定义程序”、甚至“租了一位程序员”的待遇。

如果你想“主题阅读”、整理资料,也能用Codex整。

但这些新需求,貌似会被大模型厂商自己吃掉。

其他人的“未来”在哪,又是一个问题。

不过,没有人吵要不要用驼峰命名法了,更别提要不要只用汇编写代码。

尾声:应对下雨,准备丰收

就算在中国南方,很难判断半年后那一天会不会下雨,但一月内会下雨,几乎是必然。

应对下雨,是中国南方必须考虑的问题。

收获也是。

AI会带来雨,也会带来丰收。

· 完 ·