pxpipe 将文本转为 PNG 以降低 Claude 成本

The Decoder··作者 Matthias Bastian

关键信息

这一技巧依赖于 Anthropic 的图片计费方式:图片费用与像素尺寸相关,而不是与图片里包含多少文本相关。其主要代价是有损且更慢:像哈希这样的精确字符串可能会被识别错,模型也必须通过视觉输入处理,而不是直接读取文本。

资讯摘要

开源工具 pxpipe 通过把长文本输入渲染成 PNG 图片,来压缩 Claude Code 的上下文成本。它利用了 Anthropic 的计费方式:图片费用按像素尺寸计算,而不是按图片中包含多少文本内容计算。实际使用时,pxpipe 作为本地代理拦截请求,并把较大且静态的部分转换成图片,例如系统提示、工具文档和较旧的聊天历史。最近的消息和模型输出则仍然保持为普通文本,因此整体工作流看起来仍像正常对话。

文章称,密集排版的 PNG 大约可以做到每个图片 token 容纳 3.1 个字符,而文本大约是每个字符一个 token。示例中,大约 48,000 个字符的系统提示和工具文档被压缩到一张 PNG 页面里,成本从约 25,000 个 token 降到约 2,700 个。开发者 Steven Chong 表示,总体节省通常在 59% 到 70% 之间;在一个 Fable 5 演示中,会话费用从 42.21 美元降到了 6.06 美元。不过,这种做法是有损的,而且速度更慢,因为模型要先通过视觉编码器读取图片,像哈希这类精确字符串也可能被识别错。

pxpipe 将文本转为 PNG 以降低 Claude 成本

资讯正文

开源工具 pxpipe 将文本隐藏在 PNG 中,以将 Claude Code 和 Fable 5 的 token 成本最多降低 70%

开源工具 pxpipe 将发往 Claude Code 的长文本输入转换为紧凑的 PNG,以降低 token 成本。

这一技巧之所以有效,是因为 Anthropic 对图像的计费方式。文本大致按每个字符 1 个 token 计算,而图像则根据像素尺寸收取固定数量的 token,不管其中包含多少文字。把代码或 JSON 这类密集内容渲染成图像后,每个图像 token 大约可以装下 3.1 个字符。

pxpipe 将这一思路落地为本地代理。它会拦截发往 Claude Code 的请求,并把体积庞大、静态不变的部分渲染成图像,包括系统提示、工具文档以及较早的聊天历史。最近消息和模型输出则仍按普通文本传递。下图展示了模型实际看到的内容:大约 48,000 个字符的系统提示和工具文档被压缩到一页密集排布的 PNG 上。若按文本计费,成本约为 25,000 个 token;按图像计费,则约为 2,700 个。

据开发者 Steven Chong 介绍,总体节省平均可达 59% 到 70%。在一次 Fable 5 演示中,单次会话成本从 42.21 美元降至 6.06 美元。如果这种略显另类的技巧流行起来,AI 公司可能会通过提高图像处理价格来回应。

代价是准确性和速度

这种方法也有缺点。它会丢失信息,像哈希值这样的精确字符串在从图像中读取时可能会变得乱码。处理速度也更慢,因为模型必须先通过视觉编码器处理渲染后的图像,而不是直接读取文本。

把文本作为压缩图像输入 AI 模型并不是一个新想法。Deepseek 构建了一套 OCR 系统,可将文本文档作为图像处理,并且根据其技术论文,在保留 97% 信息的同时,压缩率最高可达 10 倍。

来源与参考

  1. 原始链接
  2. Open-source tool pxpipe hides text in PNGs to cut Claude Code and Fable 5 token costs up to 70%

收录于 2026-07-05