AI Daily Brief

2026年2月25日星期三

10 点要闻3 分钟阅读

今日要闻

Inception发布Mercury 2：扩散式推理LLM达1009 tokens/s

模型发布推理推理加速

Inception Labs 发布扩散式语言推理模型 Mercury 2，采用并行“去噪”生成而非逐token自回归，在 Nvidia Blackwell 上吞吐约1009 tokens/秒、端到端延迟约1.7秒。支持128K上下文、工具调用与JSON输出，并提供兼容OpenAI的API早期访问。定价为输入0.25美元/百万token、输出0.75美元/百万token，主打语音助手、搜索与实时代理循环等低延迟场景。

阅读原文

美防部施压Anthropic放宽Claude护栏，涉2亿美元合同

政策监管AI安全国防

多家媒体披露，美国国防部在与Anthropic的合作谈判中提出“任何合法用途”条款，若其不放宽Claude安全限制，可能终止约2亿美元合同，并威胁将其列为“供应链风险”。报道还称，美方可能援引《国防生产法》以强制获取技术使用权。争议焦点在于Anthropic拒绝支持致命性全自主武器与对美国公民的大规模监控等用途；同时有说法称Claude是少数能在机密网络运行的前沿模型之一。

阅读原文

桥水：四大科技巨头2026年AI投资或达6500亿美元

算力与数据中心投融资宏观

桥水基金分析称，Alphabet、亚马逊、Meta与微软2026年在AI相关基础设施上的合计投入预计约6500亿美元，高于2025年的4100亿美元。报告将增量支出归因于算力需求持续超过供给，并指出企业可能通过减少回购等方式腾挪资本开支。桥水同时提示下行风险：高强度投入会提高对外部融资与市场情绪的敏感度，且数据中心建设将推高部分地区电力与相关供应链压力；但也预计该投资对美国GDP增长贡献约100个基点。

阅读原文

Meta开源RCCLX：为AMD GPU推理通信提速，TTIT降10%

开源推理加速硬件生态

Meta 开源面向AMD平台的GPU通信库 RCCLX，并接入 Torchcomms 以实现与NVIDIA生态类似的通信后端能力。其Direct Data Access（DDA）算法让GPU可直接从peer rank加载内存，小消息allreduce延迟由O(N)降至O(1)，在解码阶段相对RCCL基线带来10%–50%加速，并在prefill获得10%–30%提升；同时引入FP8低精度collectives以降低大规模传输开销。Meta给出的MI300X测试显示TTIT降低约10%、总体吞吐提升约7%。

阅读原文

Cloudflare推出Vinext：用AI一周重构Next.js并原生跑Workers

开发者工具AI辅助工程Web框架

Cloudflare 发布 Vinext，将Next.js的API面直接实现在Vite之上，使应用可更原生地部署到Cloudflare Workers。作者称借助Claude与OpenCode在一周内生成并覆盖了约94%的API面，并利用既有测试套件校验行为一致性。Vinext提出“Traffic-aware Pre-Rendering”，在部署时基于Cloudflare流量分析仅预渲染高访问页面，避免构建时间随页面数线性增长。该案例也展示了AI辅助工程在大型框架重实现中的可行路径与边界条件。

阅读原文

Cerebras据报秘密递交IPO申请，OpenAI供算协议成推手

半导体IPO算力

多家媒体报道，AI芯片厂商 Cerebras Systems 已秘密递交IPO申请，并与潜在投资者会面，上市时间被指可能最早在2026年4月。报道认为，其IPO推进与近期获得的多年期算力供应协议有关，其中包括与OpenAI达成的重要合作，从而提升市场关注度。Cerebras以超大规模AI芯片与系统挑战GPU路线，客户包含多家大型机构；但报道也提及其可能面临对大客户依赖与供应链地缘风险等质疑。公司与监管文件细节尚未公开。

阅读原文

SambaNova获3.5亿美元融资，SN50加速器瞄准推理替代GPU

投融资AI芯片推理基础设施

SambaNova 在Intel Capital等支持下筹集3.5亿美元，用于推进其数据流架构并计划推出第五代RDU加速器SN50，意在争夺生成式AI推理市场。报道披露SN50在16位与8位浮点峰值分别达1.6与3.2 petaFLOPS，较前代提升2.5倍与5倍，并采用分层内存结构（432MB SRAM、64GB HBM2E及最多2TB DDR5）以强调高效模型切换与缓存管理。公司称软银为首批客户，并宣称实际每用户生成速度可达B200的五倍。

阅读原文

Multiverse开源HyperNova 60B：120B模型50%压缩，显存61→32GB

开源模型压缩推理部署

Multiverse Computing 宣布在Hugging Face 免费开放压缩模型 HyperNova 60B 2602，称其为OpenAI gpt-oss-120B的50%压缩版本，采用量子启发式压缩技术CompactifAI，在精度损失约2%–3%的同时显著降低资源需求。官方给出的运行内存从61GB降至32GB，并强调工具调用与代理编码能力提升：BFCL v4函数调用约1.5倍、Terminal Bench Hard约2倍、Tau2-Bench约5倍。该策略面向更低门槛的企业与研究部署，并预告将持续发布更多压缩模型。

阅读原文

媒体称HF开源榜单更新：Qwen3.5登顶，前十八款来自中国

开源生态模型评测多模态

媒体报道，Hugging Face 于2月24日发布最新开源大模型榜单，阿里巴巴开源的原生多模态模型 Qwen3.5 被列为榜首。相关材料称其总参数约3970亿、推理仅激活约170亿，并强调在性能接近Gemini 3的同时，token成本约为其5%。报道还称榜单前十中有八款来自中国团队，并提到英伟达、AMD、苹果、Intel及多家国产芯片平台已完成适配。阿里方面的开源模型数量被描述为超过400款、累计下载量超10亿次，形成较大的生态扩散效应。

阅读原文

Anthropic披露“蒸馏式”API滥用：称涉2.4万假账户、1600万次交互

AI安全API滥用模型蒸馏

多家报道与简报称，Anthropic 指控DeepSeek、Moonshot AI与MiniMax等通过约2.4万个虚假账户对Claude进行高频交互，累计超过1600万次请求，意图以“蒸馏”方式复制其推理、编码与工具使用能力，并借助代理与规避策略绕过限制。报道提到Anthropic已加强行为指纹检测与访问控制，并对受中国控制实体采取更严格的访问限制。事件把“通过API输出复制能力”的风险推到台前，涉及安全对齐被剥离、知识产权边界与出口管制规避等争议，行业或被迫投入更多API滥用防御。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选，用 AI Daily Brief 开启每天的工作与生活。