Transformers V4 最新发布！浏览器也能跑 AI 模型了

张开发

• 2026/4/19 1:13:42 • 15 分钟阅读

分享文章

你有没有想过有一天打开一个网页里面跑着一个真正的 AI 模型实时回答你的问题、看懂你的图片、转写你的语音而且全程不需要连服务器、不会上传任何数据这件事现在已经成真了。Transformers.js v4 正式发布带来了一次彻底的底层重写。它把 WebGPU 运行时用 C 重新实现了一遍让 AI 模型在浏览器里跑得又快又稳。配合同步发布的几个在线 Demo你可以亲手体验在浏览器里运行 Qwen3.5、LFM2 视觉语言模型以及实时语音转写。浏览器跑 AI这事以前哪里卡住了说起在浏览器里跑模型很多人第一反应是这不是很早就有了吗有是有但以前的方案大多有一个共同问题速度太慢或者只能跑特别小的模型。原因在于浏览器的计算能力一直被 CPU 限制而 CPU 做矩阵运算实在是不擅长。WebGPU 是浏览器的新标准让网页能直接调用显卡算力。这和 WebGL 不同WebGPU 是专门为通用计算设计的不是单纯用来画图形。有了 WebGPU浏览器里的推理速度才真正起来了。Transformers.js v4 把 WebGPU 运行时从 JavaScript 改用 C 重写编译成 WASM 后在浏览器里执行。这一步不只是换了个语言底层的内存管理、算子实现都随之升级带来了实实在在的性能提升。v4 改了什么数字说话构建速度快了 10 倍。从 v3 的 2 秒缩短到 200ms开发者打包的等待时间大幅减少。包体积缩小了。整体平均缩小约 10%其中 transformers.web.js 这个针对浏览器的包直接减掉了 53%。BERT 类模型速度提升约 4 倍。用上了优化的 ONNX 算子之后文本分类、情感分析这类任务快了很多。支持了 20 多种新架构包括 Qwen3.5、DeepSeek-v3以及参数量超过 8B 的大模型。团队还测试了 GPT-OSS 20B 在 M4 Pro Max 上跑到了约 60 tokens/秒这个数字放在桌面端都不算差。除了性能数字这次更新还补齐了几个生产级别的 APIModelRegistry提供了对模型文件的精细控制可以查询哪些文件会被下载、哪些已经缓存在本地方便开发者做离线支持和更新检测。env.useWasmCache开启后模型第一次加载完就缓存在本地之后断网也能用。日志系统也重做了原来默认输出一大堆调试信息现在可以按等级配置不再满控制台刷屏。拿 Qwen3.5 举个例子WebML 社区发布了一个在线 Demo直接在浏览器里跑 Qwen3.5打开页面就能对话。第一次进去需要下载模型文件这个等一下是必要的模型本身不小。下载完之后推理完全在本地完成你断掉网络一样能继续对话。对话记录也不会发到任何服务器。这不只是一个技术展示它说明了一件事以前需要后端部署才能提供的 AI 能力现在可以直接打包进一个静态网页里。LiquidAI 的 LFM2-VL 是另一个 Demo展示的是视觉语言模型在浏览器里运行可以理解图片内容并回答问题。视觉模型的计算量比纯文字模型更大能在浏览器里流畅跑起来说明 WebGPU 的算力已经够用了。有什么实际用处对普通用户来说感知不会特别明显因为用户大多数时候不知道也不关心后端是怎么工作的。真正受影响的是开发者和产品决策。隐私敏感的场景变得可行了。医疗、法律、个人日记类产品如果 AI 能在本地跑数据就不需要离开设备。这对一部分用户来说是很强的差异化卖点。零后端成本的 AI 功能。一个静态网站不需要 GPU 服务器也能提供文本分析、语音转写、图片描述这类功能。对独立开发者来说省掉推理成本这笔账很划算。离线可用。网络不好的场景或者需要在内网里部署但不想专门起推理服务的场景本地模型是一个选项。好奇模型下载后存哪了打开 DevTools Application Cache Storage 就能看到模型文件都在这里跟 PWA 缓存资源用的是同一套机制。模型文件缓存在浏览器 Cache Storage 中当然现实情况也有局限。浏览器下载几百 MB 甚至几 GB 的模型文件对用户体验是个不小的挑战。用小模型可以减少下载量但模型能力也会对应打折扣。从 v3 升级要注意什么v4 是一个 major 版本和 v3 不完全兼容。如果你的项目已经在用 Transformers.js升级前需要看一下迁移说明。仓库结构也变了改成了 pnpm monorepo原来一个 8000 行的 models.js 被拆成了多个模块。Tokenizer 部分单独提取成了huggingface/tokenizers包gzip 后只有 8.8kB零依赖方便单独引入。Examples 示例代码也搬到了独立仓库原来的路径会失效。浏览器端 AI 这条路走了好几年每次进展都有点慢但这次的 v4 是一个明显的台阶。WebGPU 正在成为主流浏览器的标配模型量化技术也在持续进步端侧推理的天花板还没到。不一定每个产品都需要跑在浏览器里但多一个选项意味着能做的事情又多了一点。“体验地址Qwen3.5 浏览器版https://huggingface.co/spaces/webml-community/Qwen3.5-WebGPULFM2 视觉语言模型https://huggingface.co/spaces/LiquidAI/LFM2-VL-WebGPUTransformers.js v4 发布说明https://github.com/huggingface/transformers.js/releases/tag/4.0.0

Transformers V4 最新发布！浏览器也能跑 AI 模型了

最新文章

Claude Code 桌面版上线翻车：Bug 多质量差，“100% AI 编写”落地堪忧

MySQL如何配置定时清理过期备份文件_find命令与保留周期策略

AGI≠超级智能？揭秘二者在认知架构、自主意识与递归自我改进上的7个关键断层

golang如何解析JSON数据_golang JSON解析方法详解

Godot 2D碰撞体实战：从FlappyBird看RigidBody2D与StaticBody2D的碰撞艺术

手把手教你用PyTorch从零搭建并调优MobileNetV3图像分类模型

推荐文章

【SAP Basis】从SU01出发：深度解析SAP用户类型与安全策略

3分钟掌握RPG Maker解密技巧：解锁游戏资源宝藏

终极编程语言图标库：50+高清开发标志一键获取

Colmap实战解析：从特征提取到鲁棒匹配的工程化实现

别再手动调音效了！用这5款Unity音频插件，让你的游戏音效瞬间‘活’起来

Ryujinx模拟器终极指南：免费在PC上畅玩Switch游戏的完整教程

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

告别Jupyter启动玄学：在PyCharm 2024.1中彻底解决‘Cannot assign requested address’报错

告别深度图依赖！手把手复现ECCV24高分模型MVSplat，用稀疏图片生成3D高斯场景

PHP如何处理多语言AI响应_国际化支持方法【说明】

OpenClaw+Qwen3-32B自动化写作：24G显存支撑的万字内容生成

别再死记公式了！用Python的NumPy和SciPy手把手带你玩转卷积运算（附实战代码）

LoRaWAN网关能传多远

开源ST-LINK V2硬件设计与调试器制作指南

SEO排名推广软件有哪些技巧

怎么优化MongoDB的软删除设计_布尔标记与删除时间戳

小红书虚拟电商避坑指南：如何整理原创资料不侵权（附实操模板）

从蛋白质对接看UniMol的黑科技：如何用距离预测头实现100倍加速？

不到2M的绿色解压缩神器7-ZIP,用过的都不想删掉