Google用GKE Inference Gateway让Vertex AI延迟降35%
Google Cloud披露,Vertex AI在上线GKE Inference Gateway后,通过“负载感知路由+内容感知路由”把请求定向到更空闲的Pod,并尽量命中已有KV cache,减少重复计算,使首token延迟(TTFT)降低35%、缓存效率提升2倍。团队还用多目标权重调参(如3:5:2)缓解“热节点”,并在入口侧做准入与排队控制,将突发流量下的P95延迟再改善52%。
阅读原文Google Cloud披露,Vertex AI在上线GKE Inference Gateway后,通过“负载感知路由+内容感知路由”把请求定向到更空闲的Pod,并尽量命中已有KV cache,减少重复计算,使首token延迟(TTFT)降低35%、缓存效率提升2倍。团队还用多目标权重调参(如3:5:2)缓解“热节点”,并在入口侧做准入与排队控制,将突发流量下的P95延迟再改善52%。
阅读原文AWS宣布Bedrock支持Structured outputs,用受限解码(constrained decoding)让模型输出稳定满足JSON Schema,减少应用侧校验与重试逻辑。系统会把Schema编译成语法工件并缓存24小时,首次请求可能有额外开销,后续延迟更低;在工具调用中可启用strict模式,强制函数参数完全匹配输入Schema。AWS同时强调Schema需在对象层级显式设置additionalProperties:false,并仍需处理拒答与token上限等stopReason场景。
阅读原文CNBC统计称,Alphabet、Microsoft、Meta与Amazon在2026年的AI相关资本开支合计接近7000亿美元,主要投向高端芯片采购、数据中心扩建与网络升级,自由现金流因此明显承压。报道提到Amazon预计自由现金流将转为负值,区间为-170亿至-280亿美元;尽管短期财务指标走弱,多数分析师仍将AI视为长期战略投入。四家公司合计现金储备超过4200亿美元,具备继续融资与扩张的财务弹性,但市场焦点转向ROI兑现周期。
阅读原文路透援引消息称,私募股权机构Vista Equity Partners正领投AI芯片公司SambaNova Systems新一轮融资,金额超过3.5亿美元,反映投资者对AI赛道更趋“选择性下注”。报道指出,资金倾向流向具备明确技术优势与商业化路径的企业;SambaNova定位于面向AI工作负载的高性能芯片与系统,融资将用于继续推进研发与市场拓展。在宏观层面,这类交易也强化了“AI发展依赖资本密集投入”的行业特征。
阅读原文阿里技术介绍,通义实验室开源嵌入式向量数据库Zvec,定位“像SQLite一样可嵌入”,无需独立服务进程,面向本地/端侧RAG与边缘AI。Zvec基于Proxima引擎做多线程、SIMD与内存布局优化,在VectorDBBench的Cohere 10M数据集上检索吞吐超过8000 QPS,并提供CRUD与标量过滤、混合检索与内置reranker(含RRF等融合)。工程侧支持流式分块写入与mmap按需加载,并加入细粒度资源控制以降低端侧OOM风险。
阅读原文ModelScope社区介绍Ultralytics发布YOLO26家族,覆盖5种尺寸,强调端侧与实时场景的速度/精度平衡。YOLO26移除DFL并引入原生端到端NMS-free推理,减少后处理带来的延迟与集成复杂度;训练侧加入ProgLoss与STAL以提升收敛稳定性与小目标识别,并提出MuSGD优化器以增强不同规模训练的一致性。文中给出的指标是Nano版本在CPU推理场景最高可获得约43%的性能提升,面向IoT与机器人等低功耗部署。
阅读原文Hugging Face社区稿称,ModelBest开源MiniCPM-o 4.5(约9B参数),主打原生全双工多模态交互:模型在输出语音时仍可持续“看/听”外部流式输入,缓解传统“对讲机式”轮替对话的中断问题。其架构将多模态编码器与LLM主干端到端连接,并用时分复用机制把视频/音频/输出在毫秒级时间线上序列化统一建模;系统还支持以1Hz频率自主决定是否开口,实现更接近实时自由对话的交互形态,面向端侧与设备形态的语音助手应用。
阅读原文机器之心介绍上海AI Lab开源AgentDoG框架,目标是为具备工具调用与执行能力的AI智能体提供可解释的安全监测与风险追溯。其提出三维风险分类(风险来源Where、失效模式How、现实危害What),并对“推理—交互—执行”全轨迹进行诊断式守护,可定位间接提示注入、越权操作等具体失败模式。框架还配套自动化数据合成流程,基于覆盖超1万工具的工具库生成带标注轨迹,以提升对未知工具与多轮交互的泛化;同时提供归因模块,追踪决策受哪些历史信息驱动。
阅读原文llama.cpp在2月5日至6日连续发布多个版本更新,重点覆盖多后端推理优化与稳定性修复:Vulkan侧改进FA mask预处理以避免加载全零/全负无穷掩码,并修复GPU去重逻辑与非连续RoPE处理;Metal侧新增diag支持并优化CPU/GPU交错策略;CUDA侧提高图节点参数比较精度,同时将BoringSSL依赖更新至0.20260204.0。项目继续提供面向macOS、Linux、Windows与openEuler等平台的预编译二进制,覆盖CUDA、Vulkan、HIP、SYCL等硬件后端。
阅读原文PyTorch官网介绍其发布Helion——一个基于PyTorch的领域专用语言(DSL),用于简化高性能、可移植算子的内核开发,并集成自动调优能力,面向推荐系统、高性能计算与大模型推理等场景。官方同时展示在NVIDIA DGX Spark上对Llama 3.1-8B进行全量微调并本地运行的实践,用于说明在更小型硬件上进行模型实验与迭代的可行性。整体更新强调PyTorch在分布式训练、生产部署与生态工具链(如可解释性与图学习)上的持续扩展,以支撑从研究到工程落地的全流程。
阅读原文数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。