AI Daily Brief

2026年3月15日星期日

9 点要闻3 分钟阅读

今日要闻

Anthropic将Claude 4.6上下文扩至1M且不加价

模型发布长上下文定价

Anthropic将Claude Opus 4.6与Sonnet 4.6的上下文窗口扩至100万token并转为GA，不收长上下文溢价。单次请求最高输出128K token，最多输入600张图片或PDF页，并提供4档自适应“思考”强度以控制成本。官方称Opus 4.6在MRCR v2百万上下文检索准确率达78.3%。该能力面向订阅与API用户开放，费率保持不变（Opus 5/25美元、Sonnet 3/15美元/百万token，入/出）。

阅读原文

NVIDIA开源Nemotron 3 Super 120B，1M上下文

开源模型长上下文NVIDIA

NVIDIA推出开源权重模型Nemotron 3 Super 120B，原生支持100万token上下文，并已在Hugging Face、OpenRouter、Together等渠道提供调用与部署。模型采用Mamba长序列架构并结合MoE设计，每次约激活120亿参数，以降低长上下文推理成本；资料称其在多智能体任务中吞吐可提升5倍、生成速度提升约50%。除权重外，NVIDIA还提供训练数据、训练配方与企业级微调许可，重点面向企业本地/私有化推理与可控落地。

阅读原文

xAI大重组：11位联创仅剩2人，Macrohard暂停

公司动态组织调整AI编码

TechCrunch报道xAI正在进行大规模重组与“从基础重建”：最初11位联合创始人仅剩2人，多名联创与高级工程师离职，马斯克承认公司“第一次没建对”。报道指其AI编程产品线在竞争中落后于OpenAI Codex与Anthropic Claude Code，SpaceX和特斯拉高管介入评估并推动裁减。公司暂停白领代理项目Macrohard，转向与特斯拉合作的Digital Optimus方向；xAI员工规模约5000人，并从Cursor等团队招募工程负责人补位以追赶节奏。

阅读原文

欧洲议会批准签署AI框架公约，首个约束性条约

政策法规AI治理欧盟

欧洲议会批准欧盟签署《欧洲委员会人工智能框架公约》，被描述为全球首个具法律约束力的AI治理国际条约，投票结果为455票赞成、101票反对、74票弃权。公约要求在透明度、文档记录、风险管理与监督机制上建立共同标准，适用公共机构及代表其行事的私营实体，并与欧盟AI Act、GDPR等现行规则衔接，在设定全球基线的同时允许欧盟维持更高保护水平。该公约谈判自2022年启动，参与方包含欧盟成员国、英国、加拿大、以色列、美国等，后续将向更多国家开放加入。

阅读原文

伊朗无人机袭击中东亚马逊数据中心致多城服务中断

安全事件算力基础设施地缘政治

ABC报道，伊朗对阿联酋与巴林的亚马逊数据中心发动无人机袭击，伊朗革命卫队称其为美军AI目标选择系统提供算力与数据支持，因此属于报复目标。事件导致迪拜、阿布扎比出现银行、打车、外卖等服务大范围中断。专家称，为数据中心做物理加固的成本可能达数亿美元/站点；同时红海与霍尔木兹等要道的海底光缆风险上升，一旦受损将影响跨洲通信与云服务可用性，进而影响科技公司在高风险地区部署后续AI基础设施的选址与冗余设计。

阅读原文

NanoClaw与Docker集成MicroVM沙盒隔离AI代理任务

安全Agent沙盒

Yahoo Tech称开源AI代理平台NanoClaw与Docker达成合作，将NanoClaw集成进Docker Sandboxes，通过MicroVM级沙盒为每个代理任务提供隔离执行环境。报道将其定位为应对OpenClaw等“可触达文件/凭证/账户”的代理带来的安全风险：NanoClaw代码约4000行，强调容器化运行，仅能访问明确挂载资源，从体系结构上缩小越权与数据外泄面。项目在GitHub获得约2.1万星、3800个fork；该合作面向企业试验与评估代理工作流，提供更可控的隔离边界与回滚路径。

阅读原文

Hume AI开源TADA语音模型：1B/3B，测试零幻觉词

开源语音生成模型发布

Hume AI开源语音生成模型TADA，采用“文本token与音频信号一一对应”的生成方式，可同步处理文本与音频，宣称较同类系统快5倍以上。在超过1000个样本的测试中，TADA未出现转录幻觉词（无凭空生成或遗漏），人类评估自然度为3.78/5。模型提供1B与3B两个版本，3B支持8种语言，并强调可在智能手机上运行以降低端侧语音生成门槛。代码与模型以MIT许可证发布至GitHub与Hugging Face，并配套论文披露技术细节与评测设定。

阅读原文

llama.cpp发布b8340：AVX512-FP16加速并修复GDN

开源工具推理加速工程

llama.cpp发布b8340版本，新增对AVX512-FP16指令集的原生支持以优化CPU端F16计算；项目方称虽单算力提升，但整体基准受RAM供给限制而提升有限，性能分析显示指令数减少约27亿条。同日相关版本还重构Gated Delta Net（GDN）内核的状态矩阵访问方式，通过连续内存读取改善缓存带宽利用，修复在Metal等后端、特定模型上可能出现的约39%性能下滑，并加入--fused-gdn开关便于控制融合路径。官方同时提供覆盖macOS/iOS/Linux/Windows及多后端的二进制发布包。

阅读原文

字节跳动×清华提出CUDA Agent，用RL生成高性能CUDA核

论文强化学习系统优化

字节跳动与清华团队提出CUDA Agent：用强化学习训练LLM代理自动编写、运行并迭代优化CUDA内核。框架结合定向预训练与PPO策略更新，配套一个包含6000+复合PyTorch算子的合成数据集，并在高度隔离的执行沙箱中进行性能评测与反馈，以降低生成代码的安全与稳定风险。作者称该方法能发现定制化内存访问与硬件相关算子融合，在多类算子图上性能超过torch.compile等静态编译器启发式，也优于通用大模型的零样本生成，指向自动化性能工程的可扩展路径。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选，用 AI Daily Brief 开启每天的工作与生活。