返回往期
2026年2月15日星期日
9 点要闻3 分钟阅读

今日要闻

1

字节跳动发布豆包大模型2.0,HLE-text 54.2且token降一量级

模型发布Agent中国AI

2月14日字节跳动发布豆包大模型2.0(Doubao-Seed-2.0),面向Agent与大规模生产场景,强化高效推理、多模态理解与复杂指令执行,提供Pro/Lite/Mini/Code四款。Pro主打深度推理与长链路任务,HLE-text得分54.2,并在SuperGPQA、HealthBench等科学评测及IMO、ICPC类竞赛指标上公布领先表现。官方称token价格较业界顶尖模型低约一个数量级,已在豆包App上线并通过火山引擎API开放企业调用。

阅读原文
2

谷歌与OpenAI披露蒸馏攻击:超10万提示探测Gemini

AI安全政策与合规模型防护

Google与OpenAI披露检测到针对其LLM的“蒸馏攻击”:对手以程序化提示批量收集模型输出,试图复刻推理逻辑。Google称已发现有组织使用超过10万条提示探测Gemini在非英语任务的推理能力,相关账号被封禁。OpenAI向美国众议院中国问题特别委员会递交备忘录,指DeepSeek员工绕过访问限制并借第三方路由隐蔽抓取输出用于蒸馏,呼吁政府协助堵住API路由漏洞并限制对手获取美国云算力资源。

阅读原文
3

腾讯混元发布GradLoc:RLVR梯度异常定位到token级

训练与优化强化学习工程工具

腾讯混元发布GradLoc异常梯度定位方法,面向RLVR等强化学习训练的稳定性问题。团队将全局梯度尖峰逐级追溯到分布式训练中的具体异常token,采用二分搜索与DFS贪心,在对数复杂度下定位主要贡献源。基于微观观测,论文归纳三类关键异常模式:token级训练-推理不一致、序列级不一致与层间梯度异质,并提出TokenClip、SeqClip、LayerClip等缓解策略。其目标是将大模型RL训练排障从“按周”缩短到“按小时”,降低工程门槛。

阅读原文
4

俄州立大学+亚马逊推MMDR-Bench,核验多模态深研过程

评测基准多模态Agent

俄亥俄州立大学与Amazon发布MMDR-Bench,面向“多模态Deep Research”智能体建立更可核验的评测框架。该基准强调从“答案是否正确”转向“过程是否可审计”:TRACE核对论断与URL引用的一致性,MOSAIC逐句验证图像证据与文本陈述对齐,重点惩罚引用幻觉与视觉误读(如实体识别错误、数字读错)。实验显示不同模型在写作流畅度与证据支撑能力上明显分化,为长链研究代理的评估、迭代与落地提供可复用尺度。

阅读原文
5

字节提出Agent Bucket:ObjectSet分层支撑万亿级多租户

云基础设施Agent存储

字节跳动技术团队提出“Agent Bucket”存储范式,面向海量Agent多租户场景,解决对象存储“单bucket多前缀”带来的权限控制、计费困难与邻噪问题。方案在bucket与object之间新增ObjectSet层,让系统原生感知租户并支持按用户限流、配额、独立域名与计量。Set Slice将元数据按范围切片实现“逻辑统一、物理拆分”的线性扩展与资源隔离;Set AccessPoint结合高熵域名与STS临时凭证,降低凭证泄露后的横向风险扩散。

阅读原文
6

面壁介绍SALA混合注意力:RTX 5090稳定推理百万token

模型架构长上下文推理优化

面壁(ModelBest)介绍SALA混合注意力架构,以线性注意力承担多数层的局部计算、稀疏注意力负责全局检索,瞄准百万token长上下文推理的速度与精度折中。文章称在RTX 5090上可稳定推理1M上下文,速度约为Qwen3-8B的3.5倍。配套HALO训练范式通过对既有全注意力模型做层转换再续训,宣称可将新架构训练成本降低约75%;HyPE混合位置编码用于兼顾短上下文能力与远距信息传递,减少长程信号衰减。

阅读原文
7

PackingStar用强化学习刷新亲吻数纪录,覆盖25–31维等

AI for Science强化学习数学

国内团队用强化学习系统PackingStar在“亲吻数问题”上刷新多维纪录,覆盖25–31维等多个维度的历史最好结果。方法把高维球面堆积搜索转为余弦矩阵填充的多智能体博弈:filling agent生成候选结构,pruning agent进行几何分析与剪枝,并利用GPU并行降低搜索开销。报道指出,AI找到的多为非对称构型,挑战以往偏好对称构造的研究直觉,也展示了在缺少数据与标准答案的数学探索中,通过工程化闭环实现可持续迭代的路径。

阅读原文
8

智谱更新科创板辅导备案,新增国泰海通推进A+H

融资与IPO中国AI

智谱华章在港交所上市后推进“A+H”布局。证监会官网信息显示,其科创板IPO辅导备案于2月13日更新,新增国泰海通证券为辅导机构,与中金公司共同推进上市辅导。报道指出,AI企业技术与业务披露复杂、普遍尚未盈利,监管问询趋严,券商需在申报速度与材料质量间权衡。该进展也反映头部大模型公司正加快进入A股融资与合规流程,为后续研发投入与算力建设争取更长期资本渠道。

阅读原文
9

Spider-Sense将Agent防御延时降至8.3%,99%场景零开销

Agent安全防护机制

研究提出Spider-Sense智能体防护框架,试图在安全检测与执行效率间取平衡。其IRS机制把风险感知内生到模型推理中,使99%被判定为安全的交互无需额外检查;HAS分层筛查先用向量库做低成本粗检,仅对可疑样本触发LLM深度分析。作者报告,相较常见外置防护带来的197%–381%额外耗时,Spider-Sense将防御延时开销降至8.3%,并覆盖输入、记忆/规划、工具参数审计与工具结果校验等关键环节。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。