长期乐观 | AI能做.XYZ

人们总是高估科技的短期效益，却低估其长期影响 —— 罗伊·阿玛拉
我们总是高估未来一两年的变化，低估未来十年的变化 —— 比尔·盖茨

模型在用

推特自动翻译推文，全量放开。短期看负面声音比较大，更多内容会被其他国家的人看到。

tombkeeper: 马斯克建起了巴别塔。

让Codex装开发环境，体验还不错。

谷歌I/O大会，乏善可陈，乱作一团。北京时间5月20日。

历代Gemini Flash价格。Flash的9美元百万词元输出，算是Pro价了（12美元）；
界面全面模仿OpenAI系，爆款应用NotebookLM，没有实质改善，感觉没有产品经理领头做事；
Gemini网页更新更是没有解决重点问题，问完问题还是得挂着。不像别家问完直接退都没事。还会有一系列附件问题，还不如去用AIStudio；
Google Antigravity 2.0 一塌糊涂，原先的Antigravity从IDE变成Codex app那种Agent应用，要用IDE得在下载一个Antigravity IDE，用户得自行解决历史项目丢失的问题。Gemini Cli重构、改名叫Antigravity Cli。

AI绘图、AI检测、视频

ChatGPT可以生成系列套图，不过直接画连续关键帧可能还不太行；
ChatGPT生图水印检测，官方链接，介绍；
罗伯特·麦基《故事》的引言有八段「是……，而不是……」的排比，我第一反应是这样可能会被鉴定为AI写作。试了下某工具，得出疑似的结论（图一）。这书快三十岁了；
腾讯朱雀大模型检测工具，出了个“小游戏”，让你判断图片是否AI生成。我做了100%正确，你也试试吧；
川普发了条AI 视频，内容是他把斯蒂芬·科尔伯特扔绿色大垃圾桶里，然后开始跳舞。科尔伯特在 The Late Show 长期讽刺川普，而昨天这个节目因为长期亏损被取消，据说每年亏几千万美元。从赚钱角度看，确实是垃圾。

短期乐观，阵痛回调

公司回调

外国公司陆续发现，继续推广大模型，性价比降低，且需要一种投入产出比衡量方式。

Amazon：先推动AI，甚至设榜单；发现榜单会诱导员工刷 token 后，又停掉。出现生产事故后，禁止初级程序员自行提交AI代码，需要高级程序员审核；
Uber COO Andrew Macdonald 在 Rapid Response 采访中说，很难关联 AI token 使用量和“对消费者有用的功能数量”；
Microsoft 取消员工Claude Code额度，迁移到Copilot CLI、Foundry、自家工程体系里；
OpenClaw更新、实验消耗了大量token，但大伙在转向更靠谱的产品，比如hermes。

当然，乐观的也有：

Fiverr CEO 告诉 BI：不会招聘不使用 AI 的候选人；他还在给员工的公开信中说 AI 会影响所有岗位；
对冲基金 Third Point 的 Dan Loeb 说，只有开始用 AI 才能真正学会，员工会分享 AI 用法，有些人会让 agent 跑一整夜、消耗大量 token。

还有更有趣的例子，Coinbase CEO 去年五月要求工程师快速 onboard AI coding tools；BI 报道他解雇了部分没有合理理由拒绝使用 AI 的员工，并提出提升 AI 生成代码比例目标。今年五月，宣布裁员约14%，原因是市场下行、成本压力跟AI带来工作方式的改变。提出“扁平化”、“一人团队”等概念。

看它实际收益，2026 年 Q1，Coinbase 总收入 14 亿美元，净亏损 3.941 亿美元。而前两年盈利。当然，跌的主要因素是加密货币的行情不好，跟AI关系不太大。

至于公开数据，消耗十倍token，PR合并数只增加一倍，而且代码撤回率比基准高16%。

总而言之，智能作坊从手工业迈向工业生产，显然可以效率提升，但这种效率提升要跟业务相结合。或许可以参考现有工业的例子。

工厂为什么不全自动化？

追求“全自动化”的人。可以看看工厂实际运行情况。

食品工厂可能比较多人工一点。比方说卤蛋，找了个视频，随机截六张图，四张有人的身影。

有人会说，这是因为规定要有员工。那还可以想想更现实的问题：如果产品销量下降怎么办？产线能不能换成做别的？

如果是“全自动化”，相关有效措施会少多少？

没有销量，全自动做出产品，是全自动亏钱。

现在内存价格畸高，厂商确不扩产产线，也有类似考虑。

软件其实也类似。比方说，这个UI自动化框架好像不错，主要是做黑盒测试的自动化。MaaXYZ/MaaFramework。项目头像也一看就很有技术力。用的（古典）AI识别界面元素。

找了个成型项目试了试（类似游戏脚本），限定分辨率，流程上有个按钮识别不了，就直接中断。遇到意外情况（比如月卡框突然弹出）也直接中断。

如果引入大模型呢？不比测试人员便宜，时间跟成本上都是。准确率也不高。

最要命的是，测试要测的，往往是“变化”的地方，而自动化相比人工，缺点就是应对变化的能力。

本来是改程序，加上人工测试，现在是改程序，改自动化程序，再人工测试自动化程序。

不是有AI做吗？

“不是有AI做吗”，如果你认真读了上文，那么很可能会笑出来。你可能还会想“什么外行领导”。

为了向外行说明问题，可以考虑引入更具体的案例。比方说，“AI做”这事儿，有点像“扫地机器人拖地”，也有点像“想要无框门”。

像扫地机器人

扫地机器人，我看了很多宣传，完全没有提维护成本。虽然说是“机器人”，现在其实是“自动驾驶玩具车”+“圆盘吸尘器”+“车站”，“车站”要么接水管，要么放水箱——水箱你得倒污水吧？

你去找扫地机器人的图来看，玩具车像能自清洁的样子吗，像能清洁车站的样子吗？这都是要日常维护的地方。

如果家里不够平整，玩具车会很鸡肋，很容易开不到某片区域。或者杂物较多，清洁的时候也要人去收拾，或者玩具车吃点纸、破布、蚊帐（应该没有随地扔袜子的吧）。

这里不是批评扫地机器人完全没有用，而是它有不少不适用的场景，但提到的网友很少，或者传播不开来（找到图二，点赞为0）。

“不是有AI做吗”，也类似，直接忽略维护成本，也不考虑是否符合适用条件。

像无框门

图二也是AI生成的，非常理想的无框门。日后门稍微变形一点，就会有无穷无尽的烦恼。会有无穷的维护成本。

但烦恼在施工中的时候就会出现。装修件“低公差容忍”、安装困难。施工导致墙体开裂也不奇怪。

有的「随“机”编程」（Vibe Coding）玩具项目，全站图片直接base64包到网页，用户一开网站就全部下载图片；有的不喜欢用数据库，用json存、甚至有服务端用sqlite（非cloudflare魔改）。这些就是增加维护成本的典型。

“无框门”是种隐喻。为了某种不太重要的愿望，做了错误选择。同理还有技术选型、需求管理。

要真值得做

如果一个人无所事事，随便用AI做点东西，也值得鼓励。但一个有很多事的团队，就不要用“AI不是能做吗”加塞需求了。

AI降低代码编写成本，但没降低判断、沟通、验收、维护成本。

面对“不是有AI做吗”，反问四句“它真重要吗？适合用 AI 做吗？做完谁验收？出问题谁维护？”

总之，要真值得做。这个得回归到产品经理基本功。

不知长期在哪

编程的争议，不止AI

AI编程的工程应用，现阶段还不算完善，还有一定争议，但趋势无可阻挡。

流行的编程语言，没有一个不是吵吵嚷嚷过来的。

就连汇编都有争论，当时说汇编器浪费机器资源，还不如手写机器码快。这在当时是正确的，但在“未来”是可笑的。

有缺点完全不是事儿。能不能解决痛点，能不能被当时的受众接受，可能才算关键问题。甚至说，就算现在没什么用，“未来”有用，也非常值得关注。

随机未来

对了，有人老说大模型“随机”，随“机”编程（Vibe Coding）不可靠。这对企业来说完全不是缺点——交给员工做，可能是更“随机”的过程。

如果自己是不那么“随机”的员工，批评现在随“机”编程，有道理且正确的。

但在“未来”也是可笑的。

现在的问题是，这个“未来”几时来。

其实，没有人知道。但有足够多管理者相信可以实施AI编程的情况下，肯定能推行，但可能会有比较尴尬的局面。

再下一段“未来”，可能有两种分支。关键点是，随“机”编程能否及时开辟一片新的需求。

需求晦明

新需求有一点苗头。非程序员（设计师、财务等）也开始用Claude Code、Codex来处理工作，享受“自定义程序”、甚至“租了一位程序员”的待遇。

如果你想“主题阅读”、整理资料，也能用Codex整。

但这些新需求，貌似会被大模型厂商自己吃掉。

其他人的“未来”在哪，又是一个问题。

不过，没有人吵要不要用驼峰命名法了，更别提要不要只用汇编写代码。

尾声：应对下雨，准备丰收

就算在中国南方，很难判断半年后那一天会不会下雨，但一月内会下雨，几乎是必然。

应对下雨，是中国南方必须考虑的问题。

收获也是。

AI会带来雨，也会带来丰收。

模型在用 ​

短期乐观，阵痛回调 ​

公司回调 ​

工厂为什么不全自动化？ ​

不是有AI做吗？ ​

像扫地机器人 ​

像无框门 ​

要真值得做 ​

不知长期在哪 ​

编程的争议，不止AI ​

随机未来 ​

需求晦明 ​

尾声：应对下雨，准备丰收 ​

目录