Ollama新增MLX支持,让Mac本地运行大模型更快

Ars Technica AI··作者 Samuel Axon

关键信息

该功能目前仅在Ollama 0.19(预览版)中可用,仅支持350亿参数的通义千问Qwen3.5模型,且要求Apple Silicon Mac至少配备32GB内存;同时利用M5系列神经加速器提升速度。

资讯摘要

Ollama是一款用于本地运行大型语言模型的工具,现已支持苹果开源的MLX框架和Nvidia的NVFP4压缩格式。这显著提升了搭载Apple Silicon芯片(如M1及以上)的Mac上的内存效率和性能。时机恰逢其时,因为本地模型的兴趣正在上升,受OpenClaw等项目推动。

尽管目前仅支持一个模型且需要较高硬件配置(至少32GB内存),但这是迈向实用本地推理的重要一步。它还利用了新款M5 GPU中的神经加速器以实现更快的token处理速度。虽然本地模型在基准测试中仍落后于云端模型,但已能满足某些无需付费订阅的任务需求。

Ollama新增MLX支持,让Mac本地运行大模型更快

资讯正文

Ollama为Mac本地运行大模型提速:MLX支持助力性能提升

Ollama是一个可在本地计算机上运行大型语言模型的运行时系统,现已引入对苹果开源机器学习框架MLX的支持。此外,Ollama表示其缓存性能已得到改进,并新增对Nvidia NVFP4格式的支持,该格式可用于模型压缩,从而在某些模型中实现更高效的内存使用。

这些更新结合在一起,有望显著提升搭载Apple Silicon芯片(M1及以上版本)的Mac性能——时机恰到好处,因为本地模型正开始在研究人员和爱好者社区之外获得前所未有的关注。

近期OpenClaw项目的爆火——该项目在GitHub上获得超过30万颗星标,因Moltbook等实验登上新闻头条,在中国尤其引发热议——让许多人开始尝试在自己的设备上运行模型。

随着开发者对Claude Code或ChatGPT Codex等工具的订阅费用和速率限制感到不满,本地代码模型的实验热度持续上升。(Ollama最近还扩展了对Visual Studio Code的集成支持。)

新支持功能目前处于预览阶段(Ollama 0.19版本),仅支持一个模型——阿里巴巴Qwen3.5的350亿参数版本。硬件要求对普通用户而言相当高。根据Ollama公告,用户不仅需要配备Apple Silicon芯片的Mac,还至少要拥有32GB内存。

此外,Ollama现在能利用苹果M5系列GPU中的新型神经加速器,这意味着全新Mac在每秒处理令牌数(tokens-per-second)和首次生成令牌所需时间方面都将获得额外优势。

本地模型在基准测试中仍落后于前沿模型,但我们已接近这样一个阶段:它们足以胜任一些原本用户可能愿意付费订阅的任务。当然,与云端服务相比,本地运行模型也带来了隐私上的优势;不过我们绝对不建议采用类似OpenClaw那样赋予模型深度访问系统权限的设置。主要障碍仍是部署难度(Ollama本质上是命令行工具,尽管已有其他界面可用)以及硬件能力,尤其是显存容量。

苹果的MLX提供了对苹果芯片内存的优化访问方式,这种内存由GPU和CPU共享——这不同于此前Ollama针对配备独立显卡的桌面电脑所采取的方法。虽然这并不能完全缩小云模型与本地模型之间的差距,但对现代Mac用户来说,这可能是迈向正确方向的重要一步。

Ollama尚未公布MLX支持何时将从预览阶段正式推出并扩展至更多模型。

来源与参考

  1. 原始链接
  2. Running local models on Macs gets faster with Ollama's MLX support

收录于 2026-04-02