AI Daily Brief

2026年3月14日星期六

11 点要闻3 分钟阅读

今日要闻

Anthropic推Claude Opus 4.6，1M上下文测试上线

模型发布长上下文Agent

Anthropic发布Claude Opus 4.6，面向长时运行代理加入动态推理控制与上下文压缩，并提供100万token上下文窗口（beta）。在MRCR v2多针检索中准确率为76%。模型已在AWS Bedrock、Google Vertex AI、Microsoft Foundry及Claude API上线，支持最多128,000输出token，并新增Agent Teams并行协作能力。定价维持输入$5/百万token、输出$25/百万token，超过20万token请求进入更高计费档。

阅读原文

欧盟理事会推进AI Act简化包，高风险合规后延

政策监管

欧盟理事会就“Omnibus VII”中简化AI监管的提案形成共同立场：高风险AI系统适用时间表被调整，独立系统新日期为2027年12月2日，嵌入受监管产品的系统为2028年8月2日；国家级AI监管沙箱建立期限也推迟至2027年12月2日。文本新增禁止生成非自愿亲密内容与儿童性虐待材料条款，并强化AI办公室对通用AI模型的监督权，同时恢复部分注册义务。下一步将与欧洲议会启动谈判。

阅读原文

AWS引入Cerebras芯片，推理服务拟2026下半年上线

芯片/算力云服务

AWS与AI芯片公司Cerebras达成合作，计划在AWS数据中心部署其芯片并面向客户提供推理加速服务，预计2026年下半年上线。方案采用分工流水：Amazon自研Trainium3负责请求的预填充阶段，Cerebras负责解码生成阶段，以提升吞吐与性价比并对标Nvidia等方案。双方未披露交易金额。报道同时提到Cerebras估值231亿美元，且此前与OpenAI签署100亿美元芯片供货协议，使其成为云端推理供应链中更受关注的替代选项。

阅读原文

OpenAI更新Responses API，提供隔离计算机环境

开发者APIAgent

材料称OpenAI推出新版Responses API，为GPT-5.2等模型提供可调用的“完整计算机环境”。开发者可让模型在隔离容器中执行shell命令、运行脚本与复用“技能”包，用于构建更可重复、可审计的生产级代理工作流。与此同时，材料提到部分基础设施侧在错误响应与结构化输出等环节做适配，以减少代理因无效重试造成的token浪费并提升稳定性。材料未给出该API的定价、限额与覆盖地区等细则。

Axiom A轮融2亿美元估值16亿，押注可验证AI

融资软件可靠性

可验证AI初创公司Axiom Quant完成2亿美元A轮融资，估值16亿美元，由Menlo Ventures领投。公司主张用形式化验证缓解LLM生成代码的“幻觉”与安全风险：以定理证明语言Lean为核心，让模型生成可被确定性证明验证器检查的代码与推理步骤，从而在逻辑层面提供可机审的正确性保证，降低企业引入AI代码的不可控风险。资金将用于扩充基础设施与团队，推进“验证数据飞轮”的训练与产品化落地。

阅读原文

Wonderful B轮融1.5亿美元估值20亿，扩张驻场交付

融资Agent平台

企业级AI代理平台Wonderful AI宣布完成1.5亿美元B轮融资，估值20亿美元，由Insight Partners领投，Index Ventures等跟投。公司提供低代码构建与部署代理的平台，支持外部服务集成、任务约束配置与模拟测试，并用仪表板监控响应延迟与业务正确率；其案例宣称可将部分业务任务耗时缩短60%。Wonderful计划到2026年底将员工从350人扩至约900人，并强化驻场工程交付，以把实施周期从数月缩短到数周或更短。

阅读原文

Google用Gemini从新闻提取260万洪涝事件并开源

数据集气候/灾害

Google AI提出Groundsource方法，利用Gemini从多语言非结构化新闻中抽取结构化灾害记录，并发布包含260万条历史城市内涝事件的开源数据集，覆盖150多个国家。团队将语义解析与地理空间映射结合，补足传统遥感与既有数据库在云遮挡、卫星重访周期与样本稀缺上的缺陷。该数据已用于训练新的预测模型，并在Google Flood Hub上支持对城市突发洪水风险的最长提前24小时预警，为快速爆发灾害的早期预警提供训练底座。

阅读原文

Permiso披露Copilot摘要可被跨提示注入用于钓鱼

安全事件提示注入

安全公司Permiso披露Microsoft Copilot在邮件与Teams消息摘要场景存在跨提示注入（XPIA）风险：攻击者可在邮件HTML/CSS中隐藏指令，诱导Copilot生成带虚假告警与钓鱼链接的摘要，利用用户对AI助手的信任完成点击与信息引导，进而触发敏感信息泄露或账号风险。报告称Teams内的Copilot更易受影响，不同界面防护能力不一致。建议结合员工培训、严格DLP策略、邮件过滤与安全链接保护等方式降低暴露面。

阅读原文

YC系Random Labs发Slate V1，群体原生编码代理

产品发布AI Coding多智能体

Y Combinator支持的Random Labs发布Slate V1，自称“swarm-native”群体原生编码代理。其以动态剪枝与Thread Weaving架构分离战略决策和执行任务，并用递归语言模型与“情节式记忆”机制减少长周期工程中的上下文丢失，支持多模型分工协作（如协调、写码、检索）以在成本与质量间做路由。公司称内部测试在Terminal Bench 2.0的make-mips-interpreter任务通过率达2/3，并提供用量计费、组织级监控与计费能力，面向专业研发团队。

阅读原文

研究测525次攻击：部分模型代理外泄成功率超90%

安全评测开源工具

一项对525次真实攻击的评测聚焦“致命三要素”场景：特权数据访问、不受信任内容注入与外联泄露路径并存时，代理系统容易被诱导外泄。测试显示GPT-4o-mini攻击成功率90.3%，Gemini 2.5 Flash为82.4%，Claude Sonnet为6.7%；对照组无泄露且统计显著。研究团队开源运行时防护工具Cerberus，整体检测率28.5%，其中数据源监控与溯源追踪层表现更好；性能开销很低，p99延迟0.23ms，便于上线监控。

阅读原文

Meta基础模型“Avocado”推迟至5月，内部测试不达标

公司动态基础模型

多方消息称，Meta代号“Avocado”的基础AI模型因内部评测在推理与编码等关键能力上落后于主要竞争对手，发布时间从原计划的2026年3月推迟至至少5月。报道同时提到公司内部围绕是否开源与研发路线存在分歧，并已启动下一代模型“Watermelon”的规划，反映其在基础模型迭代节奏与组织协同上的压力。该延后可能影响其在企业与开发者生态中与Google、OpenAI、Anthropic的竞争窗口，但Meta未在材料中披露具体评测指标与新时间表。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选，用 AI Daily Brief 开启每天的工作与生活。