返回往期
2026年3月9日星期一
10 点要闻3 分钟阅读

今日要闻

1

OpenAI发GPT-5.4:OSWorld 75%支持CUA

大模型AI代理产品发布

OpenAI 发布 GPT-5.4,并把原生计算机操作(CUA)能力集成到 ChatGPT 与 API。OSWorld‑Verified 任务成功率 75%(人类基线 72.4%),上下文窗口 100 万 token;新增 tool search 让工具调用 token 消耗减少 47%。API 采用分层计费:标准版输入 $2.5/百万 token、输出 $15;Pro 为 $30/$180,并提供更快的 fast mode 以降低延迟。

阅读原文
2

OpenAI机器人主管辞职,反对五角大楼协议

AI治理国防合作

OpenAI 机器人负责人 Caitlin Kalinowski 于 3 月 7 日辞职,公开反对公司与美国国防部的合作协议。她称协议公布过快、缺少内部审议与治理框架,担忧技术被用于对美国公民的无司法监督监控或无人授权的致命自主行动。OpenAI 回应称合同设有禁止国内监控与自主武器化的“红线”,并将继续与员工和外部机构沟通。该人事变动折射军民合作下的合规、声誉与人才风险。

阅读原文
3

通义实验室开源Mobile-Agent-v3.5,多平台GUI代理

开源AI代理GUI

通义实验室开源 Mobile-Agent-v3.5 与 GUI-Owl-1.5,主打“多平台可用”的原生 GUI Agent 基座,覆盖桌面、移动与浏览器。团队构建混合数据飞轮:合成高难多窗口场景,并用真实设备回测与任务修复保证轨迹可验证;多平台联合训练提出 MRPO 算法以缓解梯度冲突与信号坍塌。模型提供 Instruct/Thinking 两类版本,兼顾端侧低延迟执行与云端深度规划。

阅读原文
4

Anthropic公开Claude Model Spec,披露价值观与安全层级

AI治理安全透明度

Anthropic 公开发布 Claude 的完整 Model Spec(“soul document”),细化模型价值观、分层安全策略与行为准则,面向开发者与操作者解释在不同风险场景下的回答边界、拒答与降级原则。文档把安全治理从零散规则升级为可复用的规范体系,便于外部审计与内部一致性训练。该披露提升了模型对齐与产品治理的可见度,也为行业讨论透明度与责任划分提供参考文本。

阅读原文
5

蚂蚁OpAgent登顶WebArena,成功率71.6%

AI代理强化学习

蚂蚁集团披露 Web Agent 框架 OpAgent,在 WebArena 基准取得 71.6% 任务成功率。方法先用分层多任务微调建立规划、定位与动作能力,并以视觉信号替代易失效的 HTML 解析;再在真实网页上做在线强化学习实现自我进化。奖励结合 WebJudge 的结果评估与 RDT 的过程奖励,并以 Planner、Locator、Reflector 等模块协作提升长链任务的纠错与鲁棒性。

阅读原文
6

安全调查:4.2万OpenClaw实例暴露,CVSS 8.8漏洞

安全AI代理

安全调查称,42,089 个 OpenClaw AI 助手实例暴露在公网,其中 93% 存在严重漏洞。报告点名 CVE-2026-25253(CVSS 8.8):攻击者可通过恶意网站劫持 WebSocket 连接,实现远程代码执行并窃取敏感数据;同时披露后端配置错误导致大量 API 密钥、用户邮箱与未加密对话长期外泄。研究还发现技能商店出现 341 个恶意技能,建议立即启用认证、更新补丁并审计第三方技能与凭证。

阅读原文
7

Karpathy开源autoresearch:630行单卡跑5分钟实验回路

开源AI代理研究工具

Andrej Karpathy 开源 autoresearch(约 630 行代码),演示一个可在 Git 分支中自动改代码、跑训练并依据指标迭代的“研究 Agent”。项目用固定“5 分钟训练回路”统一实验预算,使不同架构与超参在同一硬件上可直接比较,并支持单 GPU 运行。工作流把人类从写训练脚本转向维护提示与目标文件(program.md),展示了小算力下自动化探索与自我改进的可复现范式。

阅读原文
8

Rspress 2.0发布:SSG-MD生成llms.txt,冷启动50ms

开发工具文档AI基础设施

Rspress 2.0 发布,定位“AI‑Native Documentation”。新增 SSG‑MD:通过 React 虚拟 DOM 渲染直接产出 Markdown 与 llms.txt,减少 HTML 转换噪声,便于 LLM/Agent 消费。构建侧引入惰性编译与持久缓存,开发冷启动可降至 50ms,整体构建速度最高提升 60%。新版主题系统用 BEM 解耦样式,并更新高亮与 MDX 解析链路以提升生态兼容。

阅读原文
9

Yann LeCun论文提SAI,主张以适应速度替代AGI目标

研究AI路线

Yann LeCun 团队发布论文,认为“AGI”定义模糊且缺乏可操作度量,提出以“超人类适应性智能”(SAI)替代:重点衡量系统在多任务上的超越能力与对新任务的学习/适应速度。论文主张从单一自回归大模型的路径依赖中走出,更多探索自监督、世界模型与分层模块化结构(如 JEPA、Dreamer 系列),以提升样本效率与可迁移性。该框架为研究目标与评测口径提供新的定义。

阅读原文
10

日经:约8成企业将AI代理列为优先课题

产业AI代理企业应用

日本经济新闻称,约 8 成企业把 AI 代理导入视为“优先课题”,需求从聊天助手转向可自主执行的流程自动化。企业已在邮件处理、日程与文档流转等环节试点,但多数仍缺乏对 ROI 的量化评估与持续改进机制,难以明确节省工时与错误率变化。报道指出,围绕效果可视化、监控、优化与审计的基础设施与服务正在升温,成为下一轮采购与落地的关键。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。