1
Anthropic推Claude Opus 4.6,1M上下文测试上线 模型发布 长上下文 Agent
Anthropic发布Claude Opus 4.6,面向长时运行代理加入动态推理控制与上下文压缩,并提供100万token上下文窗口(beta)。在MRCR v2多针检索中准确率为76%。模型已在AWS Bedrock、Google Vertex AI、Microsoft Foundry及Claude API上线,支持最多128,000输出token,并新增Agent Teams并行协作能力。定价维持输入$5/百万token、输出$25/百万token,超过20万token请求进入更高计费档。
阅读原文 2
欧盟理事会推进AI Act简化包,高风险合规后延 政策监管
欧盟理事会就“Omnibus VII”中简化AI监管的提案形成共同立场:高风险AI系统适用时间表被调整,独立系统新日期为2027年12月2日,嵌入受监管产品的系统为2028年8月2日;国家级AI监管沙箱建立期限也推迟至2027年12月2日。文本新增禁止生成非自愿亲密内容与儿童性虐待材料条款,并强化AI办公室对通用AI模型的监督权,同时恢复部分注册义务。下一步将与欧洲议会启动谈判。
阅读原文 3
AWS引入Cerebras芯片,推理服务拟2026下半年上线 芯片/算力 云服务
AWS与AI芯片公司Cerebras达成合作,计划在AWS数据中心部署其芯片并面向客户提供推理加速服务,预计2026年下半年上线。方案采用分工流水:Amazon自研Trainium3负责请求的预填充阶段,Cerebras负责解码生成阶段,以提升吞吐与性价比并对标Nvidia等方案。双方未披露交易金额。报道同时提到Cerebras估值231亿美元,且此前与OpenAI签署100亿美元芯片供货协议,使其成为云端推理供应链中更受关注的替代选项。
阅读原文 4
OpenAI更新Responses API,提供隔离计算机环境 开发者API Agent
材料称OpenAI推出新版Responses API,为GPT-5.2等模型提供可调用的“完整计算机环境”。开发者可让模型在隔离容器中执行shell命令、运行脚本与复用“技能”包,用于构建更可重复、可审计的生产级代理工作流。与此同时,材料提到部分基础设施侧在错误响应与结构化输出等环节做适配,以减少代理因无效重试造成的token浪费并提升稳定性。材料未给出该API的定价、限额与覆盖地区等细则。
5
Axiom A轮融2亿美元估值16亿,押注可验证AI 融资 软件可靠性
可验证AI初创公司Axiom Quant完成2亿美元A轮融资,估值16亿美元,由Menlo Ventures领投。公司主张用形式化验证缓解LLM生成代码的“幻觉”与安全风险:以定理证明语言Lean为核心,让模型生成可被确定性证明验证器检查的代码与推理步骤,从而在逻辑层面提供可机审的正确性保证,降低企业引入AI代码的不可控风险。资金将用于扩充基础设施与团队,推进“验证数据飞轮”的训练与产品化落地。
阅读原文 6
Wonderful B轮融1.5亿美元估值20亿,扩张驻场交付 融资 Agent平台
企业级AI代理平台Wonderful AI宣布完成1.5亿美元B轮融资,估值20亿美元,由Insight Partners领投,Index Ventures等跟投。公司提供低代码构建与部署代理的平台,支持外部服务集成、任务约束配置与模拟测试,并用仪表板监控响应延迟与业务正确率;其案例宣称可将部分业务任务耗时缩短60%。Wonderful计划到2026年底将员工从350人扩至约900人,并强化驻场工程交付,以把实施周期从数月缩短到数周或更短。
阅读原文 7
Google用Gemini从新闻提取260万洪涝事件并开源 数据集 气候/灾害
Google AI提出Groundsource方法,利用Gemini从多语言非结构化新闻中抽取结构化灾害记录,并发布包含260万条历史城市内涝事件的开源数据集,覆盖150多个国家。团队将语义解析与地理空间映射结合,补足传统遥感与既有数据库在云遮挡、卫星重访周期与样本稀缺上的缺陷。该数据已用于训练新的预测模型,并在Google Flood Hub上支持对城市突发洪水风险的最长提前24小时预警,为快速爆发灾害的早期预警提供训练底座。
阅读原文 8
Permiso披露Copilot摘要可被跨提示注入用于钓鱼 安全事件 提示注入
安全公司Permiso披露Microsoft Copilot在邮件与Teams消息摘要场景存在跨提示注入(XPIA)风险:攻击者可在邮件HTML/CSS中隐藏指令,诱导Copilot生成带虚假告警与钓鱼链接的摘要,利用用户对AI助手的信任完成点击与信息引导,进而触发敏感信息泄露或账号风险。报告称Teams内的Copilot更易受影响,不同界面防护能力不一致。建议结合员工培训、严格DLP策略、邮件过滤与安全链接保护等方式降低暴露面。
阅读原文 9
YC系Random Labs发Slate V1,群体原生编码代理 产品发布 AI Coding 多智能体
Y Combinator支持的Random Labs发布Slate V1,自称“swarm-native”群体原生编码代理。其以动态剪枝与Thread Weaving架构分离战略决策和执行任务,并用递归语言模型与“情节式记忆”机制减少长周期工程中的上下文丢失,支持多模型分工协作(如协调、写码、检索)以在成本与质量间做路由。公司称内部测试在Terminal Bench 2.0的make-mips-interpreter任务通过率达2/3,并提供用量计费、组织级监控与计费能力,面向专业研发团队。
阅读原文 10
研究测525次攻击:部分模型代理外泄成功率超90% 安全评测 开源工具
一项对525次真实攻击的评测聚焦“致命三要素”场景:特权数据访问、不受信任内容注入与外联泄露路径并存时,代理系统容易被诱导外泄。测试显示GPT-4o-mini攻击成功率90.3%,Gemini 2.5 Flash为82.4%,Claude Sonnet为6.7%;对照组无泄露且统计显著。研究团队开源运行时防护工具Cerberus,整体检测率28.5%,其中数据源监控与溯源追踪层表现更好;性能开销很低,p99延迟0.23ms,便于上线监控。
阅读原文 11
Meta基础模型“Avocado”推迟至5月,内部测试不达标 公司动态 基础模型
多方消息称,Meta代号“Avocado”的基础AI模型因内部评测在推理与编码等关键能力上落后于主要竞争对手,发布时间从原计划的2026年3月推迟至至少5月。报道同时提到公司内部围绕是否开源与研发路线存在分歧,并已启动下一代模型“Watermelon”的规划,反映其在基础模型迭代节奏与组织协同上的压力。该延后可能影响其在企业与开发者生态中与Google、OpenAI、Anthropic的竞争窗口,但Meta未在材料中披露具体评测指标与新时间表。
阅读原文