AI Daily Brief

2026年5月6日星期三

10 点要闻3 分钟阅读

今日要闻

OpenAI发布GPT-5.5 Instant，幻觉率降低52.5%成ChatGPT新默认模型

模型发布OpenAI

OpenAI发布GPT-5.5 Instant作为ChatGPT新默认模型，取代GPT-5.3 Instant。在医学、法律、金融等高风险领域幻觉率降低52.5%，用户标记错误对话中不准确率下降37.3%。AIME 2025数学测试得分从65.4升至81.2，MMMU-Pro多模态推理从69.2升至76.0。回复简洁度提升约30%，新增记忆来源功能可追溯回答依据的上下文，个性化功能率先面向Plus和Pro用户开放。该模型同时是首个在网络安全和生化领域被归类为高能力的Instant模型。API以chat-latest调用，GPT-5.3保留三个月。

阅读原文

微软、谷歌、xAI同意美国政府发布前审查AI模型，Mythos危机推动监管转向

AI监管政策

美国NIST宣布微软、谷歌和xAI将允许商务部下属AI标准与创新中心（CAISI）在AI模型发布前进行安全评估，加入OpenAI和Anthropic行列，形成覆盖全球主要前沿AI实验室的自愿审查机制。此举由Anthropic开发的Mythos模型引发，该模型具备自主发现并利用零日漏洞的能力。CAISI已完成40余次模型评估，部分在机密环境中测试移除防护机制的版本。白宫正考虑通过行政命令将审查机制制度化，标志着可能偏离此前宽松监管的立场。

阅读原文

DeepSeek发布V4预览版，1.6万亿参数支持百万上下文，API成本仅竞品六分之一

模型发布开源

DeepSeek于5月5日发布V4预览版，包含Pro和Flash两个版本，均支持100万token上下文。V4-Pro为1.6万亿参数MoE模型，在Agent编码和推理性能上接近顶级闭源模型，API成本仅为Claude Opus 4.7和GPT-5.5的六分之一。模型采用创新注意力机制DSA显著降低长上下文计算消耗，训练方法RLSD结合强化学习与自蒸馏提升效率。采用MIT开源许可，权重已在Hugging Face和ModelScope发布。旧模型deepseek-chat与deepseek-reasoner将于2026年7月24日停用。

阅读原文

Ai2发布开源机器人模型MolmoAct 2，速度提升37倍超越Physical Intelligence

机器人开源

艾伦人工智能研究所发布开源机器人模型MolmoAct 2，基于Molmo 2-ER架构，推理速度比前代快37倍，单次动作调用仅需450毫秒。模型在模拟和真实环境中全面超越Physical Intelligence的π0.5，原生支持双臂协同操作。同步发布迄今最大的开源双臂操作数据集MolmoAct 2-Bimanual YAM，包含超720小时训练数据。该模型已在斯坦福医学院Cong实验室用于CRISPR基因编辑实验的自动化操作。模型、代码与数据全部开源。

阅读原文

Anthropic承诺五年内向Google Cloud投入2000亿美元用于云计算和芯片

云计算投资

据The Information报道，Anthropic已承诺未来五年向Google Cloud投入2000亿美元，占谷歌上周向投资者披露的收入积压的40%以上。作为协议一部分，Anthropic于4月与谷歌及博通达成协议，预订多个千兆瓦级TPU算力，预计2027年开始交付。Alphabet将向Anthropic投资高达40亿美元。目前Anthropic与OpenAI的合同已占AWS、Azure和Google Cloud等主要云服务商超过一半的2万亿美元订单积压。Claude系列模型运行在AWS Trainium、Google TPU和Nvidia GPU等多种硬件上。

阅读原文

Subquadratic完成2900万美元种子轮，推出支持1200万token上下文的SubQ模型

融资模型发布

Subquadratic公司完成2900万美元种子轮融资，推出采用全稀疏注意力架构的SubQ大语言模型，突破传统Transformer二次方计算瓶颈，上下文窗口达1200万token。在100万token下速度提升超50倍、成本降低50倍；在1200万token时计算需求减少近1000倍。RULER 128K基准测试中以8美元成本实现95%准确率，而Claude Opus需约2600美元达94%。同步推出SubQ API和命令行编程代理SubQ Code。研究社区对其声称持谨慎态度，尚未发布同行评审论文。

阅读原文

优必选发布具身智能世界模型Thinker-WM，Libero评测登顶榜首

具身智能模型发布

优必选发布具身智能世界模型Thinker-WM，采用Diffusion Transformer统一多模态空间架构，在Flow Matching迭代演化中实现视频表征与机器人动作空间协同优化。在权威评测基准Libero中登顶榜首，超越英伟达、Physical Intelligence、小米等同类模型。模型具备场景推演与未来状态预判能力，解决长程任务中的误差累积难题。优必选构建了虚实协同训练的AI数据飞轮体系，显著降低数据采集成本。计划在开发者社区Thinker-Cosmos上开源，推动人形机器人在工业场景落地。

阅读原文

IBM Think 2026发布企业AI操作系统蓝图，watsonx.data成本降低83%

企业AIIBM

IBM在Think 2026大会发布企业级AI操作系统蓝图，涵盖四大核心系统：watsonx Orchestrate多智能体协同管理、通过收购Confluent构建实时数据基础、IBM Concert智能化混合云运维平台、以及IBM Sovereign Core数据主权控制平台。关键技术亮点包括watsonx.data的GPU加速查询在雀巢试点中实现83%成本节约和30倍性价比提升，IBM Bob企业级智能体开发伙伴，Concert Secure Coder实时安全编码防护。IBM强调领先企业应重构业务运营模式而非仅部署更多AI。

阅读原文

Google Gemini API文件搜索升级为多模态，支持图像检索和页面级引用

开发者工具Google

Google DeepMind对Gemini API文件搜索工具进行三项重大更新：支持多模态数据处理、自定义元数据过滤和页面级引用。多模态功能基于Gemini Embedding 2模型，可同时处理图像与文本，实现基于自然语言描述检索视觉内容。自定义元数据支持为文件添加键值标签并在查询时过滤，提升检索效率。新增页面引用功能返回答案在原始文档中的具体页码，增强可验证性。存储和嵌入生成均免费。这些更新旨在帮助开发者构建更高效的RAG系统。

阅读原文

研究发现91%自主AI代理存在工具链攻击漏洞，77万代理曾被同时入侵

AI安全研究

一项针对847个自主AI代理部署的新研究发现，91%易受工具链攻击，89.4%在约30步后出现目标漂移，94%的记忆增强代理易受投毒攻击。OpenClaw/Moltbook事件成为首个大规模验证：77万活跃代理通过单一数据库漏洞被同时入侵，每个代理均拥有对宿主机器、邮件和文件的特权访问。Snyk审计发现13.4%的代理技能存在严重安全问题，76个已确认恶意载荷。研究表明代理比无状态LLM在多方面更加脆弱。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选，用 AI Daily Brief 开启每天的工作与生活。