AI Daily Brief

2026年7月5日星期日

10 点要闻3 分钟阅读

今日要闻

Mistral开源数学模型Leanstral 1.5，PutnamBench解出587/672题

开源模型数学推理

Mistral AI发布新型开源数学推理模型Leanstral 1.5，采用Apache-2.0许可，基于Lean 4形式化语言构建。该模型在权威数学基准PutnamBench测试中，成功解决了672道题目中的587道，展现出强大的代码推理与形式化证明能力。作为开源模型，Leanstral 1.5延续了Mistral在开放AI领域的布局，为数学推理和自动定理证明方向提供了新的高性能基础模型。

恶意AI代理技能绕过安全检测，波及2.6万用户

AI安全供应链攻击

一款伪装成Google Stitch落地页助手的恶意AI代理技能，成功绕过静态安全扫描器，通过Instagram推广触达超过2.6万名用户。攻击者在技能分发获得信任后，篡改外部载荷，投放可窃取邮件或入侵系统的恶意脚本。安全专家指出，静态扫描仅检查提交文件却忽略了外部恶意域名。业界建议将AI技能视为实时第三方依赖，实施版本锁定、最小权限、运行时网络限制与持续验证，而非一次性安全检查。

阅读原文

NVIDIA推出HORIZON框架，RTL芯片设计基准通过率达100%

AI代理芯片设计

英伟达发布HORIZON框架，将RTL芯片设计视为基于Git工作树的仓库级代码演化任务。该框架通过Markdown定义目标、知识、评估器与验收条件，代理仅在评估通过时提交Git commit，将仓库历史转化为经验缓冲区。在ChipBench、RTLLM-2.0、Verilog-Eval等全部评测套件上，HORIZON实现100%通过率，唯一未通过项为基准缺陷。得益于会话复用，91%的输入token为缓存内容，研究团队认为token效率而非最终通过率才是最需优化的指标。

阅读原文

RAG新范式：类型化答案契约通过强制结构化输出遏制幻觉

RAG工程实践

一篇技术文章提出RAG生成的类型化答案契约（Typed Answer Contract），用结构化Schema取代自由文本输出，从根本上遏制大模型幻觉。该方法定义Amount、DateValue、TableValue等类型化Schema，强制模型从给定段落而非记忆中填充带引用的值。方案支持多元素答案与多跨度引用，并设有confidence、answer_found等自评字段，使流程能检测部分答案或冲突证据并触发重检索。核心原则是绝不将计算或比较委托给LLM——先用Python提取，再进行确定性比较。

阅读原文

NVIDIA推自进化机器人框架ASPIRE，长任务零样本达31%

具身智能机器人

英伟达发布自我改进机器人框架ASPIRE，能从多模态执行轨迹中自主编写、调试并蒸馏可复用的机器人控制技能。ASPIRE用每个原语的多模态执行轨迹取代粗粒度任务级反馈，实现精确的失败定位，并将验证后的修复方案蒸馏为可迁移的技能库。在LIBERO-Pro长时任务上，其零样本迁移达到31%，远超此前方法约4%的水平。仿真中发现的技能可迁移至真实双臂机器人，抽屉开启成功率从0/20提升至11/20。

阅读原文

上海交大提ICRDrag，首个上下文区域拖拽图像编辑模型

图像编辑扩散模型

上海交通大学在ECCV 2026提出ICRDrag，首个基于上下文学习的区域拖拽图像编辑模型。该方法用掩码取代传统单点控制，通过源掩码与目标掩码精确定义编辑区域，从根本上解决拖拽编辑的歧义与形变问题。图像-掩码注意力一致性约束保证保真度，分阶段课程训练提升模型对粗糙手绘掩码的容忍度。团队还基于百万级视频数据集构建了首个大规模区域拖拽数据集PRD，含28.7万配对样本及1000样本的评测基准，填补领域空白。

阅读原文

研究：文件系统接口比SQL更省钱，Agent的token消耗降45%

AI代理成本优化

一项实验研究显示，文件系统式接口相比SQL接口，可使AI Agent的token消耗降低45%、成本减少39%，并在复杂探索任务中表现更稳定。数据表明，复合探索任务中NoKV命名空间的提示token约5.33万，而SQL约12.75万，成本相差近2倍。研究指出，SQL需Agent先理解schema、构造join、猜测字段关系，而文件系统通过路径、目录、grep提供稳定操作空间。简单结构化查询仍以SQL更高效，但复合探索任务中文件系统优势明显。

阅读原文

ACL 2026论文E-GRM：奖励模型动态路由，延迟降62%准确率升3.3%

奖励模型推理优化

ACL 2026论文E-GRM提出基于模型内部共识的动态路由机制，让奖励模型按需分配算力。该机制以五次并行解码中答案的最大出现频率定义共识，超过阈值则走短路径直接输出，计算成本仅为完整流程的15-20%。E-GRM用判别式打分器取代传统多数投票，输出连续质量分数。实验显示，其在MATH数据集上实现62%延迟降低、49%FLOPs减少及3.3%准确率提升；在RewardBench上达91.5%，超越GPT-4o的73.8%。

阅读原文

Meta大规模封禁数百万AI冒充账号，佛州20社区抵制AI数据中心

AI治理社会影响

AI技术的社会影响持续显现。Meta平台大规模封禁数百万个账户，以遏制利用AI技术冒充真实创作者的虚假账号泛滥问题。与此同时，美国佛罗里达州20个社区推动禁止或冻结AI数据中心项目，反映地方对AI基础设施快速扩张的抵制情绪。此外，OpenAI制作的电影《Artificial》在被亚马逊撤下后，由独立电影公司Neon接手发行。这些事件共同凸显AI快速发展带来的法律、伦理与社会挑战。

开源本地Agent模型Agents A1发布，35B MoE仅3B活跃参数

开源模型本地部署

本地智能体编码模型Agents A1发布，定位为本地代理模型而非聊天模型。该模型采用35B MoE设计，活跃参数约3B，Apache 2.0许可，专门在长动作、观察与验证轨迹上训练。评测显示其在长时序搜索、GAIA、BrowseComp、指令遵循等任务上表现强劲。评测者称其兼具35B模型的知识与3B模型的速度，4-bit量化可在32GB统一内存的Mac上流畅运行，支持LM Studio、Ollama等部署路径，是隐私友好型本地代理的代表。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选，用 AI Daily Brief 开启每天的工作与生活。