AI Infra Brief|实时模型与 AI 原生基础设施加速(2026.03.28)

张开发
2026/4/17 18:03:12 15 分钟阅读

分享文章

AI Infra Brief|实时模型与 AI 原生基础设施加速(2026.03.28)
欢迎关注「几米宋」的个人微信公众号。这是「AI Infra 简报」专栏每日分享最新的技术动态与深度解析。其中的链接因为公众号限制建议点击「阅读原文」在浏览器中打开阅读。2026 年 3 月 28 日实时多模态推理和 AI 原生平台加速发展安全合规工具向设计时内嵌演进。 核心速览 Google 发布 Gemini 3.1 Flash Live 实时多模态语音模型 SUSE 推出 AI 原生基础设施和 Liz 上下文感知 Agent☁️ Nebius AI Cloud 3.5 Aether 引入 Serverless AI Check Point 发布 AI 工厂安全蓝图覆盖四层架构 Topsort 推出 MCP 服务器连接零售媒体与 Agent 工作流 forgelm 和 agent-forensics 发布强化合规工具链 WriteBack-RAG 和 PackForcing 推动推理边界探索模型推理与优化 Google 发布 Gemini 3.1 Flash Live 实时多模态语音模型根据 Marktechpost 报道Google 发布 Gemini 3.1 Flash Live这是一个针对低延迟音频、视频和工具使用优化的实时多模态语音模型通过 Google AI Studio 的 Gemini Live API 提供服务。实时多模态能力是语音助手、实时翻译和互动 AI 应用的关键基础设施。Flash Live 的出现降低了延迟敏感场景的开发门槛。 PackForcing 在单张 H200 上实现高效长视频生成根据 arXiv 论文PackForcing 详细描述了一种 KV 缓存分区策略实现在单张 H200 GPU 上高效生成长视频。KV 缓存优化是长序列生成的核心瓶颈。PackForcing 的分区策略为资源受限环境下的长视频生成提供了可行路径。 PentaNet 探索五元量化根据 Reddit 讨论PentaNet 探索五元量化以增加每个权重的信息量同时保留零乘法器优势。量化是降低推理成本的关键技术。从二进制、三进制到五元信息密度提升带来性能与效率的权衡。⚡ Qwen 3.5 在 B200 上实现 110 万 tokens/秒根据 Reddit 讨论Qwen 3.5 在 96 张 B200 GPU 上使用 vLLM v0.18.0 实现 110 万 tokens/秒DP 优于 TP网关开销 35%。B200 作为最新 GPU 的性能基准为生产部署提供参考。并行策略和网关开销的对比是架构设计的关键输入。企业级 AI 部署 SUSE 推出 AI 原生基础设施和 Liz 上下文感知 Agent根据 Lets Data Science 报道SUSE 发布 AI 原生基础设施包括上下文感知 Agent Liz、MCP 集成和 NVIDIA MIG GPU 分区统一 AI、容器和虚拟机实现自动化运维。传统基础设施厂商向 AI 原生转型标志着 AI 工作负载成为企业标配。Liz 作为上下文感知 Agent 代表了运维自动化的新方向。☁️ Nebius AI Cloud 3.5 Aether 引入 Serverless AI根据 TradingView 报道Nebius 发布 AI Cloud 3.5 Aether增加 Serverless AI 用于即时工作负载支持 RTX PRO 6000 Blackwell Server Edition GPU增强数据传输服务。Serverless AI 去除基础设施管理负担适合突发性和不确定性的 AI 工作负载。Blackwell GPU 支持确保最新硬件可访问性。 Check Point 发布 AI 工厂安全蓝图覆盖四层架构根据 TradingView 报道Check Point 发布 AI 工厂安全蓝图跨越应用/LLM、边界、工作负载/容器和硬件四层集成 NVIDIA BlueField DPU符合 NIST AI RMF 和 Gartner AI TRiSM 标准。AI 工厂安全需要从硬件到应用的纵深防御。Check Point 的蓝图将 DPU 硬件安全和治理框架结合提供了合规路径。 Topsort 推出 MCP 服务器连接零售媒体与 Agent 工作流根据 Digital Journal 报道Topsort 发布 MCP 服务器连接零售媒体系统与 Agent 工作流用于分析、优化和自动执行。MCP (Model Context Protocol) 作为 Agent 系统互操作性标准正在垂直行业落地。零售媒体的自动化是 AI Agent 的典型应用场景。 Witbe 在 NAB 2026 展示 AI 原生测试监控基础设施根据 Content Technology 报道Witbe 在 NAB Show 2026 展示 AI 原生测试和监控基础设施用于实时 QA 自动化。AI 系统的可靠性需要专门的测试和监控工具。AI 原生测试基础设施反映了对 AI 工作负载质量保障的特殊需求。开源生态 forgelm v0.3.0 发布集成 EU AI Act 合规功能根据 PyPI 发布forgelm v0.3.0 是配置驱动的微调工具包包含安全评估、EU AI Act 合规功能和 QLoRA/DoRA 支持。监管合规成为 AI 工具的标配功能。forgelm 将合规内嵌到微调流程降低了法律风险。 agent-forensics v0.1.0 用于 Agent 决策取证根据 PyPI 发布agent-forensics v0.1.0 捕获 Agent 决策和工具调用以生成合规取证报告。Agent 的自主性带来可解释性和合规挑战。取证工具是 Agent 进入受监管行业的前提。 agent-actions v0.1.2 YAML 声明式工作流编排根据 PyPI 发布agent-actions v0.1.2 提供声明式 YAML 框架用于编排 LLM 工作流和批处理任务。YAML 声明式配置降低了 Agent 工作流的编写门槛促进非技术用户的采用。 philiprehberger-prompt-builder v0.2.0 类型安全提示模板根据 PyPI 发布philiprehberger-prompt-builder v0.2.0 提供类型安全的提示模板构建器。提示工程的工程化需要类型安全和可复用性。模板化是大规模生产的前提。 supervertaler v1.9.366 多 LLM 翻译工作台根据 PyPI 发布supervertaler v1.9.366 提供带术语表和翻译记忆的多 LLM 翻译工作台。翻译工作台结合 LLM 和传统 TM 技术体现了混合架构在垂直场景中的价值。研究与基准 WriteBack-RAG 提出可训练知识库组件根据 arXiv 论文WriteBack-RAG 提出可训练的知识库组件报告在多种 RAG 方法和基准上的平均增益。RAG 系统的知识库通常是静态检索。可训练组件通过端到端优化提升检索质量但增加了训练复杂度。 LoCoMo 基准审计揭示长期记忆评估可靠性问题根据 Reddit 讨论LoCoMo 基准审计显示 64% 的答案键错误引发对长期记忆评估可靠性的担忧。基准数据质量直接影响研究可信度。审计事件呼吁更严格的数据验证和基准治理。 Infra Insights本日核心趋势实时多模态成为新战场、AI 原生平台从云厂商扩展到传统基础设施商、合规工具链从附加功能转向设计时内嵌。Google Gemini 3.1 Flash Live 的发布标志着实时多模态推理从研究原型走向生产级 API语音、视频和工具使用的低延迟融合将催生新一波交互式 AI 应用。SUSE 和 Nebius 的动作显示 AI 原生基础设施建设不再局限于云厂商传统 Linux 厂商和新兴云服务商都在构建 AI 优先的平台MIG 分区和 Serverless 是共同的技术选择。Check Point 的安全蓝图和 forgelm、agent-forensics 的合规功能则揭示了另一个趋势随着 AI 进入受监管行业安全和合规不再是上线后的补充而是必须从设计阶段就内嵌的核心能力。WriteBack-RAG 和 PackForcing 体现了推理优化的两个方向算法创新可训练 KB、KV 缓存分区和硬件适配B200、H200两者结合才能实现实时性能和成本效率的平衡。原文链接https://ai-infra.jimmysong.io/zh/brief/2026-03-28/更多精彩内容 个人网站jimmysong.io Bilibilispace.bilibili.com/31004924如果这篇文章对你有帮助欢迎点赞、分享给更多朋友

更多文章