返回往期
2026年2月25日星期三
10 点要闻3 分钟阅读

今日要闻

1

Inception发布Mercury 2:扩散式推理LLM达1009 tokens/s

模型发布推理推理加速

Inception Labs 发布扩散式语言推理模型 Mercury 2,采用并行“去噪”生成而非逐token自回归,在 Nvidia Blackwell 上吞吐约1009 tokens/秒、端到端延迟约1.7秒。支持128K上下文、工具调用与JSON输出,并提供兼容OpenAI的API早期访问。定价为输入0.25美元/百万token、输出0.75美元/百万token,主打语音助手、搜索与实时代理循环等低延迟场景。

阅读原文
2

美防部施压Anthropic放宽Claude护栏,涉2亿美元合同

政策监管AI安全国防

多家媒体披露,美国国防部在与Anthropic的合作谈判中提出“任何合法用途”条款,若其不放宽Claude安全限制,可能终止约2亿美元合同,并威胁将其列为“供应链风险”。报道还称,美方可能援引《国防生产法》以强制获取技术使用权。争议焦点在于Anthropic拒绝支持致命性全自主武器与对美国公民的大规模监控等用途;同时有说法称Claude是少数能在机密网络运行的前沿模型之一。

阅读原文
3

桥水:四大科技巨头2026年AI投资或达6500亿美元

算力与数据中心投融资宏观

桥水基金分析称,Alphabet、亚马逊、Meta与微软2026年在AI相关基础设施上的合计投入预计约6500亿美元,高于2025年的4100亿美元。报告将增量支出归因于算力需求持续超过供给,并指出企业可能通过减少回购等方式腾挪资本开支。桥水同时提示下行风险:高强度投入会提高对外部融资与市场情绪的敏感度,且数据中心建设将推高部分地区电力与相关供应链压力;但也预计该投资对美国GDP增长贡献约100个基点。

阅读原文
4

Meta开源RCCLX:为AMD GPU推理通信提速,TTIT降10%

开源推理加速硬件生态

Meta 开源面向AMD平台的GPU通信库 RCCLX,并接入 Torchcomms 以实现与NVIDIA生态类似的通信后端能力。其Direct Data Access(DDA)算法让GPU可直接从peer rank加载内存,小消息allreduce延迟由O(N)降至O(1),在解码阶段相对RCCL基线带来10%–50%加速,并在prefill获得10%–30%提升;同时引入FP8低精度collectives以降低大规模传输开销。Meta给出的MI300X测试显示TTIT降低约10%、总体吞吐提升约7%。

阅读原文
5

Cloudflare推出Vinext:用AI一周重构Next.js并原生跑Workers

开发者工具AI辅助工程Web框架

Cloudflare 发布 Vinext,将Next.js的API面直接实现在Vite之上,使应用可更原生地部署到Cloudflare Workers。作者称借助Claude与OpenCode在一周内生成并覆盖了约94%的API面,并利用既有测试套件校验行为一致性。Vinext提出“Traffic-aware Pre-Rendering”,在部署时基于Cloudflare流量分析仅预渲染高访问页面,避免构建时间随页面数线性增长。该案例也展示了AI辅助工程在大型框架重实现中的可行路径与边界条件。

阅读原文
6

Cerebras据报秘密递交IPO申请,OpenAI供算协议成推手

半导体IPO算力

多家媒体报道,AI芯片厂商 Cerebras Systems 已秘密递交IPO申请,并与潜在投资者会面,上市时间被指可能最早在2026年4月。报道认为,其IPO推进与近期获得的多年期算力供应协议有关,其中包括与OpenAI达成的重要合作,从而提升市场关注度。Cerebras以超大规模AI芯片与系统挑战GPU路线,客户包含多家大型机构;但报道也提及其可能面临对大客户依赖与供应链地缘风险等质疑。公司与监管文件细节尚未公开。

阅读原文
7

SambaNova获3.5亿美元融资,SN50加速器瞄准推理替代GPU

投融资AI芯片推理基础设施

SambaNova 在Intel Capital等支持下筹集3.5亿美元,用于推进其数据流架构并计划推出第五代RDU加速器SN50,意在争夺生成式AI推理市场。报道披露SN50在16位与8位浮点峰值分别达1.6与3.2 petaFLOPS,较前代提升2.5倍与5倍,并采用分层内存结构(432MB SRAM、64GB HBM2E及最多2TB DDR5)以强调高效模型切换与缓存管理。公司称软银为首批客户,并宣称实际每用户生成速度可达B200的五倍。

阅读原文
8

Multiverse开源HyperNova 60B:120B模型50%压缩,显存61→32GB

开源模型压缩推理部署

Multiverse Computing 宣布在Hugging Face 免费开放压缩模型 HyperNova 60B 2602,称其为OpenAI gpt-oss-120B的50%压缩版本,采用量子启发式压缩技术CompactifAI,在精度损失约2%–3%的同时显著降低资源需求。官方给出的运行内存从61GB降至32GB,并强调工具调用与代理编码能力提升:BFCL v4函数调用约1.5倍、Terminal Bench Hard约2倍、Tau2-Bench约5倍。该策略面向更低门槛的企业与研究部署,并预告将持续发布更多压缩模型。

阅读原文
9

媒体称HF开源榜单更新:Qwen3.5登顶,前十八款来自中国

开源生态模型评测多模态

媒体报道,Hugging Face 于2月24日发布最新开源大模型榜单,阿里巴巴开源的原生多模态模型 Qwen3.5 被列为榜首。相关材料称其总参数约3970亿、推理仅激活约170亿,并强调在性能接近Gemini 3的同时,token成本约为其5%。报道还称榜单前十中有八款来自中国团队,并提到英伟达、AMD、苹果、Intel及多家国产芯片平台已完成适配。阿里方面的开源模型数量被描述为超过400款、累计下载量超10亿次,形成较大的生态扩散效应。

阅读原文
10

Anthropic披露“蒸馏式”API滥用:称涉2.4万假账户、1600万次交互

AI安全API滥用模型蒸馏

多家报道与简报称,Anthropic 指控DeepSeek、Moonshot AI与MiniMax等通过约2.4万个虚假账户对Claude进行高频交互,累计超过1600万次请求,意图以“蒸馏”方式复制其推理、编码与工具使用能力,并借助代理与规避策略绕过限制。报道提到Anthropic已加强行为指纹检测与访问控制,并对受中国控制实体采取更严格的访问限制。事件把“通过API输出复制能力”的风险推到台前,涉及安全对齐被剥离、知识产权边界与出口管制规避等争议,行业或被迫投入更多API滥用防御。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。