AI Infra Brief｜实时模型与 AI 原生基础设施加速（2026.03.28）

张开发

• 2026/4/17 18:03:12 • 15 分钟阅读

分享文章

AI Infra Brief｜实时模型与 AI 原生基础设施加速（2026.03.28）

欢迎关注「几米宋」的个人微信公众号。这是「AI Infra 简报」专栏每日分享最新的技术动态与深度解析。其中的链接因为公众号限制建议点击「阅读原文」在浏览器中打开阅读。2026 年 3 月 28 日实时多模态推理和 AI 原生平台加速发展安全合规工具向设计时内嵌演进。核心速览 Google 发布 Gemini 3.1 Flash Live 实时多模态语音模型 SUSE 推出 AI 原生基础设施和 Liz 上下文感知 Agent☁️ Nebius AI Cloud 3.5 Aether 引入 Serverless AI Check Point 发布 AI 工厂安全蓝图覆盖四层架构 Topsort 推出 MCP 服务器连接零售媒体与 Agent 工作流 forgelm 和 agent-forensics 发布强化合规工具链 WriteBack-RAG 和 PackForcing 推动推理边界探索模型推理与优化 Google 发布 Gemini 3.1 Flash Live 实时多模态语音模型根据 Marktechpost 报道Google 发布 Gemini 3.1 Flash Live这是一个针对低延迟音频、视频和工具使用优化的实时多模态语音模型通过 Google AI Studio 的 Gemini Live API 提供服务。实时多模态能力是语音助手、实时翻译和互动 AI 应用的关键基础设施。Flash Live 的出现降低了延迟敏感场景的开发门槛。 PackForcing 在单张 H200 上实现高效长视频生成根据 arXiv 论文PackForcing 详细描述了一种 KV 缓存分区策略实现在单张 H200 GPU 上高效生成长视频。KV 缓存优化是长序列生成的核心瓶颈。PackForcing 的分区策略为资源受限环境下的长视频生成提供了可行路径。 PentaNet 探索五元量化根据 Reddit 讨论PentaNet 探索五元量化以增加每个权重的信息量同时保留零乘法器优势。量化是降低推理成本的关键技术。从二进制、三进制到五元信息密度提升带来性能与效率的权衡。⚡ Qwen 3.5 在 B200 上实现 110 万 tokens/秒根据 Reddit 讨论Qwen 3.5 在 96 张 B200 GPU 上使用 vLLM v0.18.0 实现 110 万 tokens/秒DP 优于 TP网关开销 35%。B200 作为最新 GPU 的性能基准为生产部署提供参考。并行策略和网关开销的对比是架构设计的关键输入。企业级 AI 部署 SUSE 推出 AI 原生基础设施和 Liz 上下文感知 Agent根据 Lets Data Science 报道SUSE 发布 AI 原生基础设施包括上下文感知 Agent Liz、MCP 集成和 NVIDIA MIG GPU 分区统一 AI、容器和虚拟机实现自动化运维。传统基础设施厂商向 AI 原生转型标志着 AI 工作负载成为企业标配。Liz 作为上下文感知 Agent 代表了运维自动化的新方向。☁️ Nebius AI Cloud 3.5 Aether 引入 Serverless AI根据 TradingView 报道Nebius 发布 AI Cloud 3.5 Aether增加 Serverless AI 用于即时工作负载支持 RTX PRO 6000 Blackwell Server Edition GPU增强数据传输服务。Serverless AI 去除基础设施管理负担适合突发性和不确定性的 AI 工作负载。Blackwell GPU 支持确保最新硬件可访问性。 Check Point 发布 AI 工厂安全蓝图覆盖四层架构根据 TradingView 报道Check Point 发布 AI 工厂安全蓝图跨越应用/LLM、边界、工作负载/容器和硬件四层集成 NVIDIA BlueField DPU符合 NIST AI RMF 和 Gartner AI TRiSM 标准。AI 工厂安全需要从硬件到应用的纵深防御。Check Point 的蓝图将 DPU 硬件安全和治理框架结合提供了合规路径。 Topsort 推出 MCP 服务器连接零售媒体与 Agent 工作流根据 Digital Journal 报道Topsort 发布 MCP 服务器连接零售媒体系统与 Agent 工作流用于分析、优化和自动执行。MCP (Model Context Protocol) 作为 Agent 系统互操作性标准正在垂直行业落地。零售媒体的自动化是 AI Agent 的典型应用场景。 Witbe 在 NAB 2026 展示 AI 原生测试监控基础设施根据 Content Technology 报道Witbe 在 NAB Show 2026 展示 AI 原生测试和监控基础设施用于实时 QA 自动化。AI 系统的可靠性需要专门的测试和监控工具。AI 原生测试基础设施反映了对 AI 工作负载质量保障的特殊需求。开源生态 forgelm v0.3.0 发布集成 EU AI Act 合规功能根据 PyPI 发布forgelm v0.3.0 是配置驱动的微调工具包包含安全评估、EU AI Act 合规功能和 QLoRA/DoRA 支持。监管合规成为 AI 工具的标配功能。forgelm 将合规内嵌到微调流程降低了法律风险。 agent-forensics v0.1.0 用于 Agent 决策取证根据 PyPI 发布agent-forensics v0.1.0 捕获 Agent 决策和工具调用以生成合规取证报告。Agent 的自主性带来可解释性和合规挑战。取证工具是 Agent 进入受监管行业的前提。 agent-actions v0.1.2 YAML 声明式工作流编排根据 PyPI 发布agent-actions v0.1.2 提供声明式 YAML 框架用于编排 LLM 工作流和批处理任务。YAML 声明式配置降低了 Agent 工作流的编写门槛促进非技术用户的采用。 philiprehberger-prompt-builder v0.2.0 类型安全提示模板根据 PyPI 发布philiprehberger-prompt-builder v0.2.0 提供类型安全的提示模板构建器。提示工程的工程化需要类型安全和可复用性。模板化是大规模生产的前提。 supervertaler v1.9.366 多 LLM 翻译工作台根据 PyPI 发布supervertaler v1.9.366 提供带术语表和翻译记忆的多 LLM 翻译工作台。翻译工作台结合 LLM 和传统 TM 技术体现了混合架构在垂直场景中的价值。研究与基准 WriteBack-RAG 提出可训练知识库组件根据 arXiv 论文WriteBack-RAG 提出可训练的知识库组件报告在多种 RAG 方法和基准上的平均增益。RAG 系统的知识库通常是静态检索。可训练组件通过端到端优化提升检索质量但增加了训练复杂度。 LoCoMo 基准审计揭示长期记忆评估可靠性问题根据 Reddit 讨论LoCoMo 基准审计显示 64% 的答案键错误引发对长期记忆评估可靠性的担忧。基准数据质量直接影响研究可信度。审计事件呼吁更严格的数据验证和基准治理。 Infra Insights本日核心趋势实时多模态成为新战场、AI 原生平台从云厂商扩展到传统基础设施商、合规工具链从附加功能转向设计时内嵌。Google Gemini 3.1 Flash Live 的发布标志着实时多模态推理从研究原型走向生产级 API语音、视频和工具使用的低延迟融合将催生新一波交互式 AI 应用。SUSE 和 Nebius 的动作显示 AI 原生基础设施建设不再局限于云厂商传统 Linux 厂商和新兴云服务商都在构建 AI 优先的平台MIG 分区和 Serverless 是共同的技术选择。Check Point 的安全蓝图和 forgelm、agent-forensics 的合规功能则揭示了另一个趋势随着 AI 进入受监管行业安全和合规不再是上线后的补充而是必须从设计阶段就内嵌的核心能力。WriteBack-RAG 和 PackForcing 体现了推理优化的两个方向算法创新可训练 KB、KV 缓存分区和硬件适配B200、H200两者结合才能实现实时性能和成本效率的平衡。原文链接https://ai-infra.jimmysong.io/zh/brief/2026-03-28/更多精彩内容个人网站jimmysong.io Bilibilispace.bilibili.com/31004924如果这篇文章对你有帮助欢迎点赞、分享给更多朋友

更多文章

前端开发 2026/4/12 15:25:31

信创迁移实战：从CentOS7到TencentOS3.3，如何根治“时钟回拨”引发的ID生成故障

1. 从CentOS7到TencentOS3.3的迁移背景最近几年，随着技术环境的变化，很多企业都在进行操作系统迁移的工作。我们团队最近就遇到了一个典型案例：客户为了满足信创要求，把原本运行在CentOS 7.X上的系统迁移到了TencentOS 3.3。这个…

万用表实战：3分钟精准识别TVS二极管极性的黄金法则刚入行的硬件工程师小李最近遇到个头疼问题——在维修一块电源板时，替换TVS二极管后电路反而冒烟了。拆下一看，原来把器件装反了。这种场景在实验室和生产线几乎每天都在上演：面…

张开发

前端开发 2026/4/13 11:04:30

AI建站工具怎么选？2026最新选型标准与四大方案对比指南

打开搜索引擎，输入“AI建站工具”，结果可能有几十种。它们都说自己“智能”“简单”“强大”，但点进去一看，有的只是给传统模板加了点AI文案功能，有的则需要你手动配置复杂的逻辑。到底哪个才是真AI？哪个最…

张开发

AI Infra Brief｜实时模型与 AI 原生基础设施加速（2026.03.28）

最新文章

Python转Android应用终极指南：10分钟掌握python-for-android打包魔法

手把手教你用AllTrans EGM2008 Calculator：从数据准备到粗差检查的完整流程

Three.js小程序适配版终极指南：快速打造微信小程序3D交互体验

组态王MODBUS RTU通讯实战：从串口配置到数据绑定的完整流程

【计算机网络】实验9：深入解析RIP协议的路由更新与负载均衡机制

2026最权威的六大AI辅助论文平台推荐

推荐文章

龙虾白嫖指南，请查收~勘

AI Agent在金融科技领域的应用实践：风控、投顾与合规

Unity3D动画插件DoTween进阶应用与性能优化指南

超表面贝塞尔光束生成系统代码功能深度解析

【5G系列】深入解析NAS层UAC：Access Identity与Access Category的获取机制

Spring with AI (): 搜索扩展——向量数据库与RAG(下)肺

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

信创迁移实战：从CentOS7到TencentOS3.3，如何根治“时钟回拨”引发的ID生成故障

OpenCode版本升级教程：快速修复CVSS 10.0漏洞，保障开发安全

模电·深度解析分压式电流负反馈Q点稳定电路的设计与优化

突破加密壁垒：ArchivePasswordTestTool让压缩包密码恢复效率提升10倍的秘诀

ComfyUI-VideoHelperSuite工作流加载故障诊断指南

如何在Windows上直接安装Android应用：APK Installer终极指南

终极Visual Studio清理指南：如何彻底卸载VS并释放磁盘空间

终极指南：如何在Android上快速运行Node.js应用

小白也能懂的AI金融工具：AI股票分析师镜像从安装到使用全解析

达梦数据库空间索引实战：从踩坑到填坑的全过程记录

别再焊错了！用万用表快速判断TVS二极管正负极的保姆级教程（附实测图）

AI建站工具怎么选？2026最新选型标准与四大方案对比指南