半年结刊

模型在用

Agent评估结果参考 CursorBench 3.1 或大模型竞技场

Cursor的大模型闭源Agent编码评估CursorBench 3.1。跟网友感觉差不多的部分：

Claude Fable 5 总体最强；
GPT-5.5 xHigh略优于Claude Fable 5 low；
Opus 4.7、4.8一般。

Cursor称测试重心在真实编码任务，通常指令含糊、短 prompt、多文件、多步骤，需要 agent 自己读代码、搜代码、跑命令、理解上下文。但目前仅集中在单次 session 能完成的任务。

6 月下半月值得看的模型与产品更新

6 月 16 日，Z.AI 发布 GLM-5.2。开放权重，MIT协议，主打 1M token 上下文、长程任务、代码和 agent 能力。但再上述CursorBench 3.1的测评中，价格跟表现上，还跟GPT5.5 middle有明显差距。
6 月 16 日，xAI 的 Grok Imagine Video 1.5 在 API 中正式 GA，强调视频、音频、语音同步、运动和物理一致性，也强调更快生成速度。
6 月 24 日，OpenAI 与 Broadcom 公布推理芯片 Jalapeño。
6 月 26 日，OpenAI 预发布 GPT-5.6 Sol/Terra/Luna，但公布需要经过政府审查，具体先给可信伙伴小范围使用。它的 Preview System Card 把 Sol/Terra/Luna 在网络安全、生化风险上列入 High capability。

OpenAI 发布 LifeSciBench，强调生命科学任务不能只看事实问答，而要看证据处理、实验设计、转化判断、科学沟通。这个方向跟代码评测很像：真正难的是“在含糊现实里做判断”，不是背题。
数数的数据集可以留意。现在越来越多评测不再是通用问答，而是各行业自己做“能不能干活”的数据集。
Codex限额缺陷持续，五小时限额很快消耗，近期多次直接重置额度（而不是给手动重置次数）

再谈“智能就是压缩”

几年前总有网友说大模型就是压缩^[1]、函数拟合、词语接龙……好像领悟了什么真谛，好像一句话就能让别人“大模型观止”，甚至否定大模型的意义。

类比一下，一头大象喜欢吃东西，是个吃货，但吃货就是大象全部特征吗？

这头大象有爱吃的特征，大模型有压缩的特性，但随便挑一个吃货，不太可能就是这头大象，随便挑一个具有压缩特征的东西，估计也不会是大模型。

比方说，有一串数据，0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, ...，下面都属于“压缩”：

A总结出F(0) = 0 F(1) = 1 F(n) = F(n-1) + F(n-2) （其中 n ≥ 2），得出“斐波那契数列”；
B把通项公式算了出来；
C写出了几种不同程序，其中有一种是用空间换时间；
D把源数据压缩了一下。

如果从现象看出本质，也是一种压缩，那我不清楚，为什么“只是一种压缩”，算一种批评。

评判它的价值，不能仅限于“原理”，甚至不能仅限于“技术”。

为什么人们不去用成熟已久的压缩包，反而去用ChatGPT？

人的智能，会不会也有压缩、拟合的特性？会不会也不止于此？

最近实验的AI用途

扫描式PDF或图片OCR转word

只看单张图片识别能力，谷歌的模型独一档。甚至小模型中，也是谷歌的最强。但具体应用可不止识别这一步，实践下载Gemini系受Agent拖累。需要额外写程序稳定成果。

图片表格转Word表格初步试验

传统OCR完败。不予记录。

开源本地模型专注于Markdown、也局限于Markdown，复杂表格转Word丢失部分Markdown没有的格式、样式。其中，MinerU桌面软件识别清晰，小语种也对（顺带一提没有做去除重复图片的处理）；飞桨 OCR VL-1.6更差一些（百度飞桨 aistudio.baidu.com/paddleocr 选 VL-1.6，选表格Prompt）；

在线大模型在良率上完胜。ChatGPT 应用中选 GPT5.5(High)，得到这组选手中简直完美的结果。字是对的，样式也是对的，甚至阿拉伯文从右往左都考虑到了，都不放原图，因为它跟原图几乎一样（....这些点的数量有差别...）。Gemini虽然一般图像识别要好，但是输出的Word样式总有对不上的地方，整体表现稍差。

复杂表格 OCR 转 Word 效果对比

可能的手动优化点：转成xlsx格式（Excel），在复制到Word，可能更好。

让Codex识别一整本PDF

拿codex (5.5 Low）做OCR好像比较贵、比较久，一本四百页左右的正常篇幅书籍，花了9个多小时，一个20美金账号周额约度70%

比“传统”OCR好的地方在识别精度很高，保留常见格式（含数学公式、配图），而且这书偶尔有其他小语种，也识别成功了。

「总用量：10,729,700 tokens，耗时约 9 小时 51 分钟。」

还能调用GPT Image 2高清重绘插图。

缺点是费钱、不稳定。

调研日本平假名跟中国草书的关系

我最近在记日语平假名与片假名，目的是重新验证认知心理学课本上的记忆技巧。技巧都有共同点：尽可能关联自己已经深入记忆的学识。

注意到平假名有点中文味，一查发现跟草书有渊源，你可以看下表：

平假名、片假名与草书来源对照表

草书图来源于“汉典书法”网，“日本”那列草书来源于 cid.ninjal.ac.jp/kana/list

上面六个词，有四张草书图，我选了王羲之。虽然不是一模一样，但已经非常相近。

更有趣的是怀素的草体「於」字：

怀素草书「於」字

你在看看日文お的手写体，就更圆润了一些而已。

日文平假名「お」手写体

让ChatGPT调查（指令是「平假名的借鉴来源考据」），把调查结果简要绘制成下图。

平假名和片假名字形来源示意图

GPT写了很多严谨的套话，但比较重要的只是一段：

平假名的字形来源是汉字草书，更准确地说，是“万叶假名”的草书化、简化结果
……
汉字 → 表音用汉字，即万叶假名 → 草书化、连写、简化 → 平假名
比如「安」本来是汉字，但在表音系统里可借来记「あ / a/」；后来「安」的草书形越写越简，才成了「あ」。这里借的是音和字形材料，不是借“安”的意思。国立国语研究所的变体假名表也直接按“平仮名 / 字母”列出，例如「あ」有「安、惡、愛、阿」等字母，「い」有「以、伊、意、移」等，说明早期并非一个音只对应一个写法。
……
ChatGPT

让它汇总成一个表格：

平假名	来源汉字	平假名	来源汉字	平假名	来源汉字
あ	安	い	以	う	宇
え	衣	お	於	か	加
き	幾	く	久	け	計
こ	己	さ	左	し	之
す	寸	せ	世	そ	曽
た	太	ち	知	つ	川
て	天	と	止	な	奈
に	仁	ぬ	奴	ね	祢
の	乃	は	波	ひ	比
ふ	不	へ	部	ほ	保
ま	末	み	美	む	武
め	女	も	毛	や	也
ゆ	由	よ	与	ら	良
り	利	る	留	れ	礼
ろ	呂	わ	和	を	遠
ん	无	ゐ	为	ゑ	恵

其中最让我百思不得其解的是「部」跟「へ」，一看日本人搜集的草体「部」：

连怀素都没那么离谱。

草书「部」字的不同写法示例

言归正传，ChatGPT这次考据，初步看来相当准确，表达也很严谨。

「防止Codex废SSD」？用GPT 5.5查证技巧传闻

今天刷到网友说Codex废SSD，大概是高频写入日志，还给出临时修复方案。让GPT5.5查了一下，一分钟总结出更靠谱的结论。

OpenAI openai/codex 仓库 issue #17320 就有人提到这个方案，看来该网友是转发：

sqlite3 ~/.codex/logs_2.sqlite \
'CREATE TRIGGER IF NOT EXISTS block_log_inserts
BEFORE INSERT ON logs
BEGIN
  SELECT RAISE(IGNORE);
END;'

如果改成Windows Powershell版本，则是：

sqlite3.exe "$env:USERPROFILE\.codex\logs_2.sqlite" "CREATE TRIGGER IF NOT EXISTS block_log_inserts
BEFORE INSERT ON logs
BEGIN
  SELECT RAISE(IGNORE);
END;"

如果Windows上没有SQLite命令，可以考虑：

winget install SQLite.SQLite

如果想撤掉这个方案，把引号中的SQL命令替换成：

DROP TRIGGER IF EXISTS block_log_inserts;

GPT还找到一个更全面的issue #28224，说在他那里，年化写入~640 TB日志，不过今天已经修复并发版（三小时前，0.142.0），起因居然是每个WebSocket 响应都会记录三项完整日志……

具体日志分布可以参考#28224哥们公布的：

metric	value
retained rows	681,774
estimated retained log content	1,035.6 MiB

level	estimated MiB	byte %
TRACE	732.5	70.7%
INFO	266.5	25.7%
DEBUG	30.6	3.0%
WARN	5.9	0.6%

target	level	estimated MiB
`codex_api::endpoint::responses_websocket`	TRACE	527.4
`codex_otel.log_only`	INFO	141.2
`codex_otel.trace_safe`	INFO	121.2
`log`	TRACE	97.4
`codex_client::transport`	TRACE	60.1
`codex_core::stream_events_utils`	DEBUG	27.5
`codex_api::sse::responses`	TRACE	19.1

我觉得把生产应用的日志级别调到WARNING以上就行了（怎么还有人犯这种级别的错误啊……）。

总之，Codex命令行直接更新到最新版本即可，Codex应用得等一下更新，或想办法手动更新，又或用改进版的触发器做临时方案：

CREATE TRIGGER codex_logs_only_keep_warning_above
BEFORE INSERT ON logs
WHEN NEW.level IN ('TRACE', 'DEBUG', 'INFO')
BEGIN
  SELECT RAISE(IGNORE);
END;

有了AI后，现在查issue比以前方便多了。可以说，没有AI，就不会有这篇文章

优化实验假设或方案

现在要一些未接触过平假音的中国人作为实验对象，验证认知心理学中的记忆技巧，是心理上的安慰（降低记忆阻力）。也就是H_0。

H_1就是，它们切切实实是加速记忆的。

H_0的猜想的相关推理是：

建立记忆。理想上是直接关联，比如a + 平假名 = あ，而不是经过一道草体字的安，这样会慢不少，且中间有两次犯错的机会。
有人可能提出可以后续”剪“掉，但是遗忘不受意识直接控制，需要额外时间。且可能存在一直依赖此路径的情况
只有直接建立关联特别难，类比爬墙，看起来爬不上，就搬一个梯子上去。但它事实上是能爬上去的，估计只是有畏难情绪

AI回答

你的 H₀ 方向有价值，但需要改写得更严谨一点：“心理安慰”不是严格统计学里的零假设，而是一个替代机制。建议拆成两层。

第一层测客观学习：

H₀-memory： 在学习时间、曝光次数、测试方式相同的情况下，字源/草书提示不比直接记「a→あ」更快、更准。 H₁-memory： 字源/草书提示能让人更快形成假名—读音映射，并在延迟测试中保持优势。

第二层测心理感受：

H₀-comfort： 字源/草书提示只让学习者觉得“有道理、没那么难”，但客观成绩、反应速度没有优势。更准确地说，这不是“无效”，而是只改善主观阻力，不改善记忆本身。

你现在的推理基本可以整理成：

直接目标是：

text

あ → a

字源提示实际多了一条中介路：

text

あ → 安的草写 → a

或者反过来：

text

a → 安 → あ

这条路如果只是临时脚手架，可能有用；但如果学习者一直依赖它，就会拖慢反应。关键词记忆法本来就是“两段链条”：先把外语声音连到关键词，再把关键词连到意义；Atkinson 的经典说明也把它写成 acoustic link + imagery link 两段链。这正好支持你的担心：中介链可能帮入门，但它不是最终目标。

实验最好不要只分“有技巧 / 没技巧”，而要至少四组：

组别	学习材料	用来检验
A 直接组	あ = a，只练直接对应	基线
B 字源组	安 → あ → a，讲草书来源	字源提示是否真有用
C 安慰组	给“这组字符很容易学”等鼓励，但不给字源	分离心理安慰
D 等时加练组	不讲字源，但多给同等学习时间和练习	排除“只是多看了一会儿”

如果样本够，最好做被试内 + 项目轮换：同一个人学不同假名，但每个假名在不同人那里分到不同条件。这样能避免“あ本来就好记，ぬ本来就难记”这类项目差异。

关键指标不要只看准确率。至少测这几类：

达到标准所需时间：比如连续两轮达到 90% 正确，需要几分钟、几次练习。
即时正确率：刚学完就测。
延迟保持：24 小时、7 天后再测。关键词记忆法研究里，有些结果显示即时测试有优势，但延迟后优势会消失，甚至反转；Thomas 和 Wang 的论文摘要就提醒，标准关键词法的即时收益可能很快消散。(imagesrvr.epnet.com)
反应时：看到「あ」按 a，用毫秒级记录。这个最重要。因为“能答对但慢”，很可能说明还在绕中介路径。
迁移阅读：不要只测单字，还要测「そうか」「あおい」这种短串。真正学会的人能顺滑读串；靠故事硬想的人会卡。
主观负担：让被试评分：“难不难”“有没有信心”“是不是觉得有线索”。这用来验证心理安慰机制。

判据可以这样定：

如果 B 字源组 学习更快、延迟更好、反应时不慢、短词阅读也更好，那支持 H₁：技巧确实加速记忆。

如果 B 字源组 主观上觉得更简单，但准确率、延迟保持、反应时和 A/D 差不多，那支持你的 H₀-comfort：主要是降低畏难情绪。

如果 B 字源组 即时准确率高，但反应时慢、7 天后掉得多、短词阅读卡，那说明它更像“梯子”：初期能爬上去，但没真正变成直接通路。

还有一个关键点：别把“p > 0.05”当作支持 H₀。你要证明“没什么实际差别”，应该提前设一个最小有意义差异，比如：

text

准确率差 < 5%
反应时差 < 100 ms
达到标准时间差 < 10%

然后做等效检验或贝叶斯模型。否则只能说“没发现差异”，不能说“差异不存在”。

我会把你的核心假设改成这句话：

字源记忆法可能降低初学者面对陌生符号的畏难感，但它未必能加速形成“假名—读音”的直接映射；若它制造了稳定中介路径，反而可能拖慢自动化。

这个说法比“记忆技巧只是心理安慰”更稳，因为它允许三种结果：真有用、只安慰、初期有用但后期拖慢。心理学实验最怕二分，尤其记忆策略经常有“即时收益”和“长期代价”的错位。Roediger 和 Karpicke 的提取练习研究也显示，反复学习可能在 5 分钟测试更好，但延迟 2 天或 1 周后，提取练习保留更多；所以你这里也必须做延迟测试，不能只看当天成绩。(journals.sagepub.com)

用Gemini 谈开源

提供续写思路：可以从很多角度看待「开源」。分发、宣传、“公益”……

你在“公益”二字上加了引号，这个细节非常棒——它说明你已经敏锐地察觉到：当下的开源，早就不纯粹是极客们“为爱发电”的乌托邦了。

顺着你开的头，我们可以把“开源”这块棱镜进一步旋转，折射出以下 5 个更具解构感的视角：

视角一：商业与博弈 ——「免费的商业弹药」

核心观点：开源不是慈善，而是最高级的商业降维打击。
续写思路：
把竞争对手的利润区变成免费区：最经典的例子是 Google 开源 Android，本质是为了狙击苹果和微软的移动操作系统，把“系统”免费化，从而保住自己“搜索引擎/广告”的核心利润。
“养鱼式”营销：先通过开源建立开发者生态和标准，等所有人都习惯了你的 API 和生态后，推出收费的 Enterprise（企业版）或 Cloud（托管服务）完成收割。
白嫖与反白嫖的战争：大厂（如亚马逊 AWS）直接拿小型开源项目的成果封装成云服务赚钱，逼得 Redis、MongoDB 等开源鼻祖纷纷修改开源协议“捍卫主权”。

视角二：社会学与心理学 ——「新时代的声誉经济」

核心观点：驱使开发者开源的货币不是美元，而是“存在感”与“杠杆”。
续写思路：
数字赛博简历：在今天，GitHub 的 Star 数、绿色的 Commit 贡献墙，就是程序员在人才市场上的硬通货。开源是个人品牌的全球化放大器。
赛博封建制：开源社区看似平等，实则拥有极强的阶级性。林纳斯（Linus Torvalds）式的“终身仁慈独裁者”（BDL）掌握着代码的生杀大权，核心贡献者拥有绝对话语权，边缘提交者只能做拾遗补缺的“数字佃农”。

视角三：劳动关系与危机 ——「万亿高塔底下的数字佃农」

核心观点：现代互联网的万亿市值，建立在无数业余爱好者无薪维护的“承重墙”上。
续写思路：
公地悲剧与精神耗竭：2021 年震惊全球的 Log4j 漏洞，让全世界发现支撑着全球金融、政府网络的底层组件，居然是一个人在利用业余时间、领着微薄赞助免费维护的。
情绪反噬：当用户把开源作者当成“免费客服”，稍有 Bug 就疯狂开 Issue 甚至辱骂时，开源精神会演变成严重的职业倦怠（Burnout），最终导致作者“删库跑路”或蓄意投毒（如 faker.js 事件）。

视角四：地缘政治 ——「无国界的理想，遇上有国界的物理层」

核心观点：“技术无国界”是开源诞生的童话，但在地缘博弈面前，开源极其脆弱。
续写思路：
开源协议的政治边界：GitHub 曾经根据美国制裁法案，无预警封禁伊朗、叙利亚等国开发者的账号。
避险性迁移：为了规避潜在的地缘政治审查，芯片架构开源组织 RISC-V 专门将总部从美国迁到了瑞士。开源正在变成大国科技博弈中，用来“规避制裁”或“建立备胎生态”的战略缓冲区。

视角五：软件哲学 ——「对抗死亡的唯一方式」

核心观点：闭源软件的终点是公司破产，而开源软件的终点是“永生”。
续写思路：
代码的基因交流：一家闭源商业公司倒闭了，它写的几千万行代码就会在硬盘里彻底腐烂；但一家开源公司倒闭了，任何人都可以把它的代码 Fork（分叉） 出来，换个名字继续活着。开源是软件时代的“物种演化”。

结构串联建议（供参考）

你可以采用「剥洋葱式」的递进结构来写：

表层（浪漫主义）：从大家公认的“公益、共享、极客精神”切入；
中层（现实主义）：揭开你提到的“分发与宣传”，谈商业公司如何把它作为一种低成本的获客与研发手段；
底层（批判主义）：刺入“数字佃农与大厂白嫖”的劳动关系，以及地缘政治下开源的理想破灭；
尾声（新定义）：重新定义今天的开源——它不是天堂，也不是骗局，它是人类历史上规模最大的一场“分布式协作社会实验”。

顺着这些角度，你这篇文章最终是想写成一篇“极客乌托邦的挽歌”，还是“商业博弈论的科普”？

尾声

怎么还要人类来装环境？

Copilot Studio 培训卡在装环境环节

本周刊已经出了12期，持续半年。

我个人觉得已经在重复一些东西，就像有人想推起来的Loop Engineering。就是在Skill被消耗得差不多后，又想发明点“新东西”吸引大家注意。既视感太强了。

AI圈，或许真是个圈？

当然，我还是会写下去，就是不再以半个月为期发一段大杂烩——价值感越来越低。

我也渐渐找到应对这些一戳就破的泡泡的一种方案——不用太关注新闻，长时间关注“模型在用”，其他偶尔听听就好。甚至不用半个月看一次。

至于接下来写什么，目前是积累了一些主题，持续深化。应该还会将往期有价值的主体抽出来。还有一些，等做了再说。

我也试着发布过一些，其中行业调研，投资之类的比较受欢迎，但我还是会去多拓展一些视角，不囿于流行。

源头应该是 ChatGPT Is a Blurry JPEG of the Web ↩︎

平假名	来源汉字	平假名	来源汉字	平假名	来源汉字
あ	安	い	以	う	宇
え	衣	お	於	か	加
き	幾	く	久	け	計
こ	己	さ	左	し	之
す	寸	せ	世	そ	曽
た	太	ち	知	つ	川
て	天	と	止	な	奈
に	仁	ぬ	奴	ね	祢
の	乃	は	波	ひ	比
ふ	不	へ	部	ほ	保
ま	末	み	美	む	武
め	女	も	毛	や	也
ゆ	由	よ	与	ら	良
り	利	る	留	れ	礼
ろ	呂	わ	和	を	遠
ん	无	ゐ	为	ゑ	恵

平假名	来源汉字	平假名	来源汉字	平假名	来源汉字
あ	安	い	以	う	宇
え	衣	お	於	か	加
き	幾	く	久	け	計
こ	己	さ	左	し	之
す	寸	せ	世	そ	曽
た	太	ち	知	つ	川
て	天	と	止	な	奈
に	仁	ぬ	奴	ね	祢
の	乃	は	波	ひ	比
ふ	不	へ	部	ほ	保
ま	末	み	美	む	武
め	女	も	毛	や	也
ゆ	由	よ	与	ら	良
り	利	る	留	れ	礼
ろ	呂	わ	和	を	遠
ん	无	ゐ	为	ゑ	恵

模型在用 ​

再谈“智能就是压缩” ​

最近实验的AI用途 ​

扫描式PDF或图片OCR转word ​

图片表格转Word表格初步试验 ​

让Codex识别一整本PDF ​

调研日本平假名跟中国草书的关系 ​

「防止Codex废SSD」？ 用GPT 5.5查证技巧传闻 ​

优化实验假设或方案 ​

用Gemini 谈开源 ​

视角一：商业与博弈 ——「免费的商业弹药」 ​

视角二：社会学与心理学 ——「新时代的声誉经济」 ​

视角三：劳动关系与危机 ——「万亿高塔底下的数字佃农」 ​

视角四：地缘政治 ——「无国界的理想，遇上有国界的物理层」 ​

视角五：软件哲学 ——「对抗死亡的唯一方式」 ​

结构串联建议（供参考） ​

尾声 ​

怎么还要人类来装环境？ ​

半年结刊 ​

目录

模型在用

再谈“智能就是压缩”

最近实验的AI用途

扫描式PDF或图片OCR转word

图片表格转Word表格初步试验

让Codex识别一整本PDF

调研日本平假名跟中国草书的关系

「防止Codex废SSD」？用GPT 5.5查证技巧传闻

优化实验假设或方案

用Gemini 谈开源

视角一：商业与博弈 ——「免费的商业弹药」

视角二：社会学与心理学 ——「新时代的声誉经济」

视角三：劳动关系与危机 ——「万亿高塔底下的数字佃农」

视角四：地缘政治 ——「无国界的理想，遇上有国界的物理层」

视角五：软件哲学 ——「对抗死亡的唯一方式」

结构串联建议（供参考）

尾声

怎么还要人类来装环境？

半年结刊

平假名	来源汉字	平假名	来源汉字	平假名	来源汉字
あ	安	い	以	う	宇
え	衣	お	於	か	加
き	幾	く	久	け	計
こ	己	さ	左	し	之
す	寸	せ	世	そ	曽
た	太	ち	知	つ	川
て	天	と	止	な	奈
に	仁	ぬ	奴	ね	祢
の	乃	は	波	ひ	比
ふ	不	へ	部	ほ	保
ま	末	み	美	む	武
め	女	も	毛	や	也
ゆ	由	よ	与	ら	良
り	利	る	留	れ	礼
ろ	呂	わ	和	を	遠
ん	无	ゐ	为	ゑ	恵