Transformers V4 最新发布!浏览器也能跑 AI 模型了

张开发
2026/4/19 1:13:42 15 分钟阅读

分享文章

Transformers V4 最新发布!浏览器也能跑 AI 模型了
你有没有想过有一天打开一个网页里面跑着一个真正的 AI 模型实时回答你的问题、看懂你的图片、转写你的语音而且全程不需要连服务器、不会上传任何数据这件事现在已经成真了。Transformers.js v4 正式发布带来了一次彻底的底层重写。它把 WebGPU 运行时用 C 重新实现了一遍让 AI 模型在浏览器里跑得又快又稳。配合同步发布的几个在线 Demo你可以亲手体验在浏览器里运行 Qwen3.5、LFM2 视觉语言模型以及实时语音转写。浏览器跑 AI这事以前哪里卡住了说起在浏览器里跑模型很多人第一反应是这不是很早就有了吗有是有但以前的方案大多有一个共同问题速度太慢或者只能跑特别小的模型。原因在于浏览器的计算能力一直被 CPU 限制而 CPU 做矩阵运算实在是不擅长。WebGPU 是浏览器的新标准让网页能直接调用显卡算力。这和 WebGL 不同WebGPU 是专门为通用计算设计的不是单纯用来画图形。有了 WebGPU浏览器里的推理速度才真正起来了。Transformers.js v4 把 WebGPU 运行时从 JavaScript 改用 C 重写编译成 WASM 后在浏览器里执行。这一步不只是换了个语言底层的内存管理、算子实现都随之升级带来了实实在在的性能提升。v4 改了什么数字说话构建速度快了 10 倍。从 v3 的 2 秒缩短到 200ms开发者打包的等待时间大幅减少。包体积缩小了。整体平均缩小约 10%其中 transformers.web.js 这个针对浏览器的包直接减掉了 53%。BERT 类模型速度提升约 4 倍。用上了优化的 ONNX 算子之后文本分类、情感分析这类任务快了很多。支持了 20 多种新架构包括 Qwen3.5、DeepSeek-v3以及参数量超过 8B 的大模型。团队还测试了 GPT-OSS 20B 在 M4 Pro Max 上跑到了约 60 tokens/秒这个数字放在桌面端都不算差。除了性能数字这次更新还补齐了几个生产级别的 APIModelRegistry提供了对模型文件的精细控制可以查询哪些文件会被下载、哪些已经缓存在本地方便开发者做离线支持和更新检测。env.useWasmCache开启后模型第一次加载完就缓存在本地之后断网也能用。日志系统也重做了原来默认输出一大堆调试信息现在可以按等级配置不再满控制台刷屏。拿 Qwen3.5 举个例子WebML 社区发布了一个在线 Demo直接在浏览器里跑 Qwen3.5打开页面就能对话。第一次进去需要下载模型文件这个等一下是必要的模型本身不小。下载完之后推理完全在本地完成你断掉网络一样能继续对话。对话记录也不会发到任何服务器。这不只是一个技术展示它说明了一件事以前需要后端部署才能提供的 AI 能力现在可以直接打包进一个静态网页里。LiquidAI 的 LFM2-VL 是另一个 Demo展示的是视觉语言模型在浏览器里运行可以理解图片内容并回答问题。视觉模型的计算量比纯文字模型更大能在浏览器里流畅跑起来说明 WebGPU 的算力已经够用了。有什么实际用处对普通用户来说感知不会特别明显因为用户大多数时候不知道也不关心后端是怎么工作的。真正受影响的是开发者和产品决策。隐私敏感的场景变得可行了。医疗、法律、个人日记类产品如果 AI 能在本地跑数据就不需要离开设备。这对一部分用户来说是很强的差异化卖点。零后端成本的 AI 功能。一个静态网站不需要 GPU 服务器也能提供文本分析、语音转写、图片描述这类功能。对独立开发者来说省掉推理成本这笔账很划算。离线可用。网络不好的场景或者需要在内网里部署但不想专门起推理服务的场景本地模型是一个选项。好奇模型下载后存哪了打开 DevTools Application Cache Storage 就能看到模型文件都在这里跟 PWA 缓存资源用的是同一套机制。模型文件缓存在浏览器 Cache Storage 中当然现实情况也有局限。浏览器下载几百 MB 甚至几 GB 的模型文件对用户体验是个不小的挑战。用小模型可以减少下载量但模型能力也会对应打折扣。从 v3 升级要注意什么v4 是一个 major 版本和 v3 不完全兼容。如果你的项目已经在用 Transformers.js升级前需要看一下迁移说明。仓库结构也变了改成了 pnpm monorepo原来一个 8000 行的 models.js 被拆成了多个模块。Tokenizer 部分单独提取成了huggingface/tokenizers包gzip 后只有 8.8kB零依赖方便单独引入。Examples 示例代码也搬到了独立仓库原来的路径会失效。浏览器端 AI 这条路走了好几年每次进展都有点慢但这次的 v4 是一个明显的台阶。WebGPU 正在成为主流浏览器的标配模型量化技术也在持续进步端侧推理的天花板还没到。不一定每个产品都需要跑在浏览器里但多一个选项意味着能做的事情又多了一点。“体验地址Qwen3.5 浏览器版https://huggingface.co/spaces/webml-community/Qwen3.5-WebGPULFM2 视觉语言模型https://huggingface.co/spaces/LiquidAI/LFM2-VL-WebGPUTransformers.js v4 发布说明https://github.com/huggingface/transformers.js/releases/tag/4.0.0

更多文章