什么是 ChatGPT

它能把知识压缩起来，并且加个聊天界面，供你交互。

有的人说 ChatGPT 是对全人类知识的有损压缩形式。

老实说，我没见过哪个压缩包能配一个搜索框的，更别说有个聊天界面了。

如果不考虑“交互界面”，ChatGPT 算有损压缩、人脑不也是？

它更像一张“数据互联网”，连接所有数据，让问题更接近方案

数据在不同“格式”间转化，越来越快，越来越符合细分需要。格式不只是图片格式、文本格式：

想为纸质书添加电子书摘，最早是要抄录，后来有了各种OCR付费软件、少量要折腾的免费OCR，再到现在，iOS系统自带本地OCR功能
有一部分人觉得视频、音频信息密度太低，一般不会通过看视频、听音频学习。但有些资料只在音视频有，怎么办？现在开源的Whisper可以做到把它们转为文字，还有人通过配合LLM，将长视频转化为高质量图文
文字生成图片，文字生成视频
甚至能缩短外部数据“进入人脑”，并且成为“人体数据”的“距离”
……

本节，无基础要求的部分结束

本节要求理解数学或编程中的“函数”概念（施工中）

理论部分

可视化：token化

大模型的“单词表”跟平常人的不太一样，比如我们人看 token 是一个词，但是大模型可能是看成 tok 跟 en 两个词。

为什么要这样划分？一个原因是，这样可以大幅度减少单词表的词汇量，原理是字节对编码（BPE）

OpenAI 官方开源的分词器是tiktoken，~~看来他们很喜欢tiktok~~。如果你想在线体验一番，这个工具，tiktokenizer 是一个好选择

工具：tiktokenizer

如果你想动手实现一个 GPT-2 的分词器，可以看看 Andrej Karpathy 的 Youtube 视频 Let's build the GPT Tokenizer

如果你了解其中原理，那么你很可能会懂得：

精力有限，不一定能完成，急的话，请参考：