返回往期
2026年3月15日星期日
9 点要闻3 分钟阅读

今日要闻

1

Anthropic将Claude 4.6上下文扩至1M且不加价

模型发布长上下文定价

Anthropic将Claude Opus 4.6与Sonnet 4.6的上下文窗口扩至100万token并转为GA,不收长上下文溢价。单次请求最高输出128K token,最多输入600张图片或PDF页,并提供4档自适应“思考”强度以控制成本。官方称Opus 4.6在MRCR v2百万上下文检索准确率达78.3%。该能力面向订阅与API用户开放,费率保持不变(Opus 5/25美元、Sonnet 3/15美元/百万token,入/出)。

阅读原文
2

NVIDIA开源Nemotron 3 Super 120B,1M上下文

开源模型长上下文NVIDIA

NVIDIA推出开源权重模型Nemotron 3 Super 120B,原生支持100万token上下文,并已在Hugging Face、OpenRouter、Together等渠道提供调用与部署。模型采用Mamba长序列架构并结合MoE设计,每次约激活120亿参数,以降低长上下文推理成本;资料称其在多智能体任务中吞吐可提升5倍、生成速度提升约50%。除权重外,NVIDIA还提供训练数据、训练配方与企业级微调许可,重点面向企业本地/私有化推理与可控落地。

阅读原文
3

xAI大重组:11位联创仅剩2人,Macrohard暂停

公司动态组织调整AI编码

TechCrunch报道xAI正在进行大规模重组与“从基础重建”:最初11位联合创始人仅剩2人,多名联创与高级工程师离职,马斯克承认公司“第一次没建对”。报道指其AI编程产品线在竞争中落后于OpenAI Codex与Anthropic Claude Code,SpaceX和特斯拉高管介入评估并推动裁减。公司暂停白领代理项目Macrohard,转向与特斯拉合作的Digital Optimus方向;xAI员工规模约5000人,并从Cursor等团队招募工程负责人补位以追赶节奏。

阅读原文
4

欧洲议会批准签署AI框架公约,首个约束性条约

政策法规AI治理欧盟

欧洲议会批准欧盟签署《欧洲委员会人工智能框架公约》,被描述为全球首个具法律约束力的AI治理国际条约,投票结果为455票赞成、101票反对、74票弃权。公约要求在透明度、文档记录、风险管理与监督机制上建立共同标准,适用公共机构及代表其行事的私营实体,并与欧盟AI Act、GDPR等现行规则衔接,在设定全球基线的同时允许欧盟维持更高保护水平。该公约谈判自2022年启动,参与方包含欧盟成员国、英国、加拿大、以色列、美国等,后续将向更多国家开放加入。

阅读原文
5

伊朗无人机袭击中东亚马逊数据中心致多城服务中断

安全事件算力基础设施地缘政治

ABC报道,伊朗对阿联酋与巴林的亚马逊数据中心发动无人机袭击,伊朗革命卫队称其为美军AI目标选择系统提供算力与数据支持,因此属于报复目标。事件导致迪拜、阿布扎比出现银行、打车、外卖等服务大范围中断。专家称,为数据中心做物理加固的成本可能达数亿美元/站点;同时红海与霍尔木兹等要道的海底光缆风险上升,一旦受损将影响跨洲通信与云服务可用性,进而影响科技公司在高风险地区部署后续AI基础设施的选址与冗余设计。

阅读原文
6

NanoClaw与Docker集成MicroVM沙盒隔离AI代理任务

安全Agent沙盒

Yahoo Tech称开源AI代理平台NanoClaw与Docker达成合作,将NanoClaw集成进Docker Sandboxes,通过MicroVM级沙盒为每个代理任务提供隔离执行环境。报道将其定位为应对OpenClaw等“可触达文件/凭证/账户”的代理带来的安全风险:NanoClaw代码约4000行,强调容器化运行,仅能访问明确挂载资源,从体系结构上缩小越权与数据外泄面。项目在GitHub获得约2.1万星、3800个fork;该合作面向企业试验与评估代理工作流,提供更可控的隔离边界与回滚路径。

阅读原文
7

Hume AI开源TADA语音模型:1B/3B,测试零幻觉词

开源语音生成模型发布

Hume AI开源语音生成模型TADA,采用“文本token与音频信号一一对应”的生成方式,可同步处理文本与音频,宣称较同类系统快5倍以上。在超过1000个样本的测试中,TADA未出现转录幻觉词(无凭空生成或遗漏),人类评估自然度为3.78/5。模型提供1B与3B两个版本,3B支持8种语言,并强调可在智能手机上运行以降低端侧语音生成门槛。代码与模型以MIT许可证发布至GitHub与Hugging Face,并配套论文披露技术细节与评测设定。

阅读原文
8

llama.cpp发布b8340:AVX512-FP16加速并修复GDN

开源工具推理加速工程

llama.cpp发布b8340版本,新增对AVX512-FP16指令集的原生支持以优化CPU端F16计算;项目方称虽单算力提升,但整体基准受RAM供给限制而提升有限,性能分析显示指令数减少约27亿条。同日相关版本还重构Gated Delta Net(GDN)内核的状态矩阵访问方式,通过连续内存读取改善缓存带宽利用,修复在Metal等后端、特定模型上可能出现的约39%性能下滑,并加入--fused-gdn开关便于控制融合路径。官方同时提供覆盖macOS/iOS/Linux/Windows及多后端的二进制发布包。

阅读原文
9

字节跳动×清华提出CUDA Agent,用RL生成高性能CUDA核

论文强化学习系统优化

字节跳动与清华团队提出CUDA Agent:用强化学习训练LLM代理自动编写、运行并迭代优化CUDA内核。框架结合定向预训练与PPO策略更新,配套一个包含6000+复合PyTorch算子的合成数据集,并在高度隔离的执行沙箱中进行性能评测与反馈,以降低生成代码的安全与稳定风险。作者称该方法能发现定制化内存访问与硬件相关算子融合,在多类算子图上性能超过torch.compile等静态编译器启发式,也优于通用大模型的零样本生成,指向自动化性能工程的可扩展路径。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。