返回往期
2026年6月21日星期日
10 点要闻3 分钟阅读

今日要闻

1

AlphaFold之父John Jumper离开谷歌加入Anthropic,48小时内谷歌痛失两员大将

人才流动AnthropicGoogle DeepMind

诺贝尔化学奖得主、AlphaFold核心人物John Jumper宣布离开效力近9年的Google DeepMind,转投竞争对手Anthropic。这是继Transformer论文核心作者Noam Shazeer加入OpenAI后,谷歌在48小时内损失的第二位顶尖AI人才。彭博社报道称,Jumper近期工作与AI编程深度绑定,但DeepMind在企业级AI编程工具上缺乏清晰战略。Anthropic此前推出Claude for Life Sciences并以约4亿美元收购AI生物公司Coefficient Bio,生命科学布局成为吸引Jumper的关键因素。Anthropic员工保留率达80%,为前沿实验室最高,正成为顶尖人才的聚集地。

阅读原文
2

GLM-5.2在Design Arena击败Fable 5夺冠,成首个MIT许可开源冠军模型

开源模型AI编程模型评测

智谱GLM-5.2在Design Arena单轮HTML网页设计评测中击败Claude Fable 5等闭源模型登顶,成为首个采用MIT许可的开源冠军模型。该模型仅744B参数且无视觉能力,却战胜了体量6.7倍于它的闭源对手,价格仅为后者的1/7至1/11。成功关键在于代码可用性极高:91%会话使用TailwindCSS、51%使用font-awesome,并能正确调用chart.js、three.js等库。模型生成代码量比对手多25%,平均生成时间304.7秒(约为Fable 5两倍),以速度换取页面精细度。但在游戏开发、数据可视化、3D设计三个榜单中仍居第二,落后于Fable 5。

阅读原文
3

NVIDIA联合CMU与伯克利推ENPIRE框架,多个Coding Agent自主完成机器人研究全流程

具身智能AI Agent机器人

NVIDIA、CMU、伯克利联合推出ENPIRE框架,让多个Coding Agent各自控制一台双臂机器人,从零开始自主完成读论文、改算法到真实测试的完整机器人研究闭环。在Pin Insertion任务上,Agent先尝试行为克隆,再加入在线强化学习并调整正则化与批大小,3小时内将成功率从近零推至99%。框架通过自动复位、自动评分和安全控制接口,首次让物理世界具备软件开发环境般的可迭代性。8个Agent各占8台机器人并行探索,将达到目标成功率的时间从1.5小时压缩至40分钟,并出现类似人类实验室的「经验继承」现象。

阅读原文
4

挪威几乎全面禁止小学教育使用AI,欧洲监管收紧引发技术扩散张力

AI监管教育政策

挪威宣布几乎全面禁止在小学教育中使用人工智能,旨在保护儿童认知发展,反映出对过度依赖AI削弱批判性思维能力的担忧。与此同时,尽管美国政府已禁止Anthropic发布其Fable 5模型,但相关数据传播似乎未受明显影响,显示出监管措施与技术实际扩散之间的脱节。这些事件共同折射出AI技术快速发展与社会规范、教育政策及监管之间日益加剧的张力,监管者试图划定边界,但技术扩散的速度往往超出政策预期。

5

开源SDK公司Waniwani获800万美元种子轮,让保险公司直接在ChatGPT里卖保单

AI商业化金融科技融资

开源SDK公司Waniwani完成800万美元种子轮融资,其产品让保险等金融服务商可直接通过ChatGPT等AI平台完成报价与销售,定位为AI分发基础设施的早期玩家。随着消费者通过AI做决策,传统的SEO、广告等分发体系正在失效。Waniwani采用免费开源SDK加付费基础设施的模式,对标Stripe与Twilio的路径。创始团队兼具金融与AI双重背景:CEO来自BCG生成式AI团队,联创曾创立法国最大在线保险公司。美银报告称AI渠道可能威胁保险经纪行业150亿美元营收,2月9日相关板块股价已大跌反映市场重估。

阅读原文
6

Anthropic发布Claude Code Artifacts,将AI编程从终端搬进可共享实时工作区

Claude CodeAI Agent协作工具

Anthropic推出Claude Code Artifacts功能,把AI智能体的工作流产品化为团队可共享、可更新、可审查的动态工作区。它能捕捉终端进展的实时可更新可视化页面,而非静态报告,使智能体的工作产出成为团队协作的直接对象。页面基于代码库、连接器与对话上下文生成,包含推理过程、证据来源与当前进度,如同正在进行的工作现场。核心价值在于降低团队理解智能体工作结果的沟通成本,适用于事故调查、交付评审、安全审计等场景。功能目前面向Claude Team与Enterprise组织开放测试,页面默认私有,权限设计偏向企业治理。

阅读原文
7

Redis之父antirez为DeepSeek正名:通过API蒸馏在技术上几乎不可能

模型蒸馏DeepSeekAI产业

Redis创始人antirez发文反驳美国AI圈流行的「中国模型靠API蒸馏」叙事,引发技术争论。他提出「不可能三角」:API无法提供完整logits和思维链,从少量输出点数学上无法重建复杂模型,且不存在清晰的信息通路。反对者认为其对「蒸馏」定义过窄,Alpaca、Vicuna等案例表明通过API收集大量指令输出对进行微调是可行的黑盒蒸馏。研究者Nathan Lambert指出「蒸馏攻击」一词被武器化为道德标签。报告显示中国实验室年轻、精简、务实,具备世界级的预训练、RL和后训练能力,进步源于密集的工程优化而非蒸馏。

阅读原文
8

北大提出LIFE-HARNESS,无需训练让垂域Agent平均相对提升88.5%

AI AgentLLM运行时适配

北京大学提出LIFE-HARNESS方法,通过运行时干预而非更新模型权重来提升确定性LLM Agent性能,在116/126个设置中实现平均相对提升88.5%。研究指出Agent失败往往源于模型与环境间的接口不匹配,而非模型能力不足,如工具调用格式错误、动作无法执行、轨迹陷入循环等。该方法采用四层设计,处理环境规则定义、任务工作流复用、动作格式纠正和轨迹矫正,从训练轨迹中挖掘可复用的失败模式。基于Qwen3-4B训练轨迹演化出的harness可迁移至其他17个模型,表明其学习的是稳定的环境侧结构而非特定模型行为,具备跨模型泛化能力。

阅读原文
9

Codex上线跨设备任务迁移功能Handoff,支持本地与云端Git状态同步

CodexAI编程任务迁移

OpenAI为Codex推出Handoff功能,允许用户通过自然语言指令在本地与远程服务器之间无缝迁移正在进行的编程任务,包括完整的Git状态。该功能让开发者可以在不同设备间延续编码工作,无需手动同步代码状态。这是Codex近期一系列增强的延续,进一步打通了从本地开发到云端执行的工作流,降低了在多环境间切换的摩擦成本,使AI辅助编程更贴近真实的跨设备开发场景。

阅读原文
10

西湖大学等提出DrPO,单步文生图偏好优化提速3.51倍且支持不可微奖励

文生图偏好优化强化学习

西湖大学与香港中文大学(深圳)团队提出DrPO方法,将何恺明团队的漂移模型引入单步文生图模型的偏好后训练。该方法仅需奖励排名即可在特征空间构建漂移方向,通过对高分样本的吸引和低分样本的排斥来构造更新方向,绕开了对去噪轨迹的依赖。由于奖励仅用于排序而不参与反向传播,梯度计算落在特征空间的漂移回归上,在HPSv3奖励下相比需要反传梯度的DRaFT实现3.51倍加速。该方法还能纳入GenEval等不可微的规则化或程序化评分信号,扩展了应用场景,消融实验显示latent-MAE特征优于预训练模型自身特征。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。