Mistral开源数学模型Leanstral 1.5,PutnamBench解出587/672题
Mistral AI发布新型开源数学推理模型Leanstral 1.5,采用Apache-2.0许可,基于Lean 4形式化语言构建。该模型在权威数学基准PutnamBench测试中,成功解决了672道题目中的587道,展现出强大的代码推理与形式化证明能力。作为开源模型,Leanstral 1.5延续了Mistral在开放AI领域的布局,为数学推理和自动定理证明方向提供了新的高性能基础模型。
Mistral AI发布新型开源数学推理模型Leanstral 1.5,采用Apache-2.0许可,基于Lean 4形式化语言构建。该模型在权威数学基准PutnamBench测试中,成功解决了672道题目中的587道,展现出强大的代码推理与形式化证明能力。作为开源模型,Leanstral 1.5延续了Mistral在开放AI领域的布局,为数学推理和自动定理证明方向提供了新的高性能基础模型。
一款伪装成Google Stitch落地页助手的恶意AI代理技能,成功绕过静态安全扫描器,通过Instagram推广触达超过2.6万名用户。攻击者在技能分发获得信任后,篡改外部载荷,投放可窃取邮件或入侵系统的恶意脚本。安全专家指出,静态扫描仅检查提交文件却忽略了外部恶意域名。业界建议将AI技能视为实时第三方依赖,实施版本锁定、最小权限、运行时网络限制与持续验证,而非一次性安全检查。
阅读原文英伟达发布HORIZON框架,将RTL芯片设计视为基于Git工作树的仓库级代码演化任务。该框架通过Markdown定义目标、知识、评估器与验收条件,代理仅在评估通过时提交Git commit,将仓库历史转化为经验缓冲区。在ChipBench、RTLLM-2.0、Verilog-Eval等全部评测套件上,HORIZON实现100%通过率,唯一未通过项为基准缺陷。得益于会话复用,91%的输入token为缓存内容,研究团队认为token效率而非最终通过率才是最需优化的指标。
阅读原文一篇技术文章提出RAG生成的类型化答案契约(Typed Answer Contract),用结构化Schema取代自由文本输出,从根本上遏制大模型幻觉。该方法定义Amount、DateValue、TableValue等类型化Schema,强制模型从给定段落而非记忆中填充带引用的值。方案支持多元素答案与多跨度引用,并设有confidence、answer_found等自评字段,使流程能检测部分答案或冲突证据并触发重检索。核心原则是绝不将计算或比较委托给LLM——先用Python提取,再进行确定性比较。
阅读原文英伟达发布自我改进机器人框架ASPIRE,能从多模态执行轨迹中自主编写、调试并蒸馏可复用的机器人控制技能。ASPIRE用每个原语的多模态执行轨迹取代粗粒度任务级反馈,实现精确的失败定位,并将验证后的修复方案蒸馏为可迁移的技能库。在LIBERO-Pro长时任务上,其零样本迁移达到31%,远超此前方法约4%的水平。仿真中发现的技能可迁移至真实双臂机器人,抽屉开启成功率从0/20提升至11/20。
阅读原文上海交通大学在ECCV 2026提出ICRDrag,首个基于上下文学习的区域拖拽图像编辑模型。该方法用掩码取代传统单点控制,通过源掩码与目标掩码精确定义编辑区域,从根本上解决拖拽编辑的歧义与形变问题。图像-掩码注意力一致性约束保证保真度,分阶段课程训练提升模型对粗糙手绘掩码的容忍度。团队还基于百万级视频数据集构建了首个大规模区域拖拽数据集PRD,含28.7万配对样本及1000样本的评测基准,填补领域空白。
阅读原文一项实验研究显示,文件系统式接口相比SQL接口,可使AI Agent的token消耗降低45%、成本减少39%,并在复杂探索任务中表现更稳定。数据表明,复合探索任务中NoKV命名空间的提示token约5.33万,而SQL约12.75万,成本相差近2倍。研究指出,SQL需Agent先理解schema、构造join、猜测字段关系,而文件系统通过路径、目录、grep提供稳定操作空间。简单结构化查询仍以SQL更高效,但复合探索任务中文件系统优势明显。
阅读原文ACL 2026论文E-GRM提出基于模型内部共识的动态路由机制,让奖励模型按需分配算力。该机制以五次并行解码中答案的最大出现频率定义共识,超过阈值则走短路径直接输出,计算成本仅为完整流程的15-20%。E-GRM用判别式打分器取代传统多数投票,输出连续质量分数。实验显示,其在MATH数据集上实现62%延迟降低、49%FLOPs减少及3.3%准确率提升;在RewardBench上达91.5%,超越GPT-4o的73.8%。
阅读原文AI技术的社会影响持续显现。Meta平台大规模封禁数百万个账户,以遏制利用AI技术冒充真实创作者的虚假账号泛滥问题。与此同时,美国佛罗里达州20个社区推动禁止或冻结AI数据中心项目,反映地方对AI基础设施快速扩张的抵制情绪。此外,OpenAI制作的电影《Artificial》在被亚马逊撤下后,由独立电影公司Neon接手发行。这些事件共同凸显AI快速发展带来的法律、伦理与社会挑战。
本地智能体编码模型Agents A1发布,定位为本地代理模型而非聊天模型。该模型采用35B MoE设计,活跃参数约3B,Apache 2.0许可,专门在长动作、观察与验证轨迹上训练。评测显示其在长时序搜索、GAIA、BrowseComp、指令遵循等任务上表现强劲。评测者称其兼具35B模型的知识与3B模型的速度,4-bit量化可在32GB统一内存的Mac上流畅运行,支持LM Studio、Ollama等部署路径,是隐私友好型本地代理的代表。
阅读原文数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。