pxpipe 将文本转为 PNG 以降低 Claude 成本

The Decoder·7月5日 02:11 UTC·作者 Matthias Bastian

关键信息

这一技巧依赖于 Anthropic 的图片计费方式：图片费用与像素尺寸相关，而不是与图片里包含多少文本相关。其主要代价是有损且更慢：像哈希这样的精确字符串可能会被识别错，模型也必须通过视觉输入处理，而不是直接读取文本。

资讯摘要

开源工具 pxpipe 通过把长文本输入渲染成 PNG 图片，来压缩 Claude Code 的上下文成本。它利用了 Anthropic 的计费方式：图片费用按像素尺寸计算，而不是按图片中包含多少文本内容计算。实际使用时，pxpipe 作为本地代理拦截请求，并把较大且静态的部分转换成图片，例如系统提示、工具文档和较旧的聊天历史。最近的消息和模型输出则仍然保持为普通文本，因此整体工作流看起来仍像正常对话。

文章称，密集排版的 PNG 大约可以做到每个图片 token 容纳 3.1 个字符，而文本大约是每个字符一个 token。示例中，大约 48,000 个字符的系统提示和工具文档被压缩到一张 PNG 页面里，成本从约 25,000 个 token 降到约 2,700 个。开发者 Steven Chong 表示，总体节省通常在 59% 到 70% 之间；在一个 Fable 5 演示中，会话费用从 42.21 美元降到了 6.06 美元。不过，这种做法是有损的，而且速度更慢，因为模型要先通过视觉编码器读取图片，像哈希这类精确字符串也可能被识别错。

资讯正文

开源工具 pxpipe 将文本隐藏在 PNG 中，以将 Claude Code 和 Fable 5 的 token 成本最多降低 70%

开源工具 pxpipe 将发往 Claude Code 的长文本输入转换为紧凑的 PNG，以降低 token 成本。

这一技巧之所以有效，是因为 Anthropic 对图像的计费方式。文本大致按每个字符 1 个 token 计算，而图像则根据像素尺寸收取固定数量的 token，不管其中包含多少文字。把代码或 JSON 这类密集内容渲染成图像后，每个图像 token 大约可以装下 3.1 个字符。

pxpipe 将这一思路落地为本地代理。它会拦截发往 Claude Code 的请求，并把体积庞大、静态不变的部分渲染成图像，包括系统提示、工具文档以及较早的聊天历史。最近消息和模型输出则仍按普通文本传递。下图展示了模型实际看到的内容：大约 48,000 个字符的系统提示和工具文档被压缩到一页密集排布的 PNG 上。若按文本计费，成本约为 25,000 个 token；按图像计费，则约为 2,700 个。

据开发者 Steven Chong 介绍，总体节省平均可达 59% 到 70%。在一次 Fable 5 演示中，单次会话成本从 42.21 美元降至 6.06 美元。如果这种略显另类的技巧流行起来，AI 公司可能会通过提高图像处理价格来回应。

代价是准确性和速度

这种方法也有缺点。它会丢失信息，像哈希值这样的精确字符串在从图像中读取时可能会变得乱码。处理速度也更慢，因为模型必须先通过视觉编码器处理渲染后的图像，而不是直接读取文本。

把文本作为压缩图像输入 AI 模型并不是一个新想法。Deepseek 构建了一套 OCR 系统，可将文本文档作为图像处理，并且根据其技术论文，在保留 97% 信息的同时，压缩率最高可达 10 倍。

来源与参考

收录于 2026-07-05