AI Daily Brief

2026年2月14日星期六

10 点要闻3 分钟阅读

今日要闻

MiniMax开源M2.5，SWE-Bench Verified 80.2%

模型发布开源AI Coding

MiniMax于2月12日上线文本模型M2.5，并在2月13日宣布全球开源，定位原生Agent生产级模型。其SWE-Bench Verified得分80.2%、Multi-SWE-Bench 51.3%。Lightning版输出速度超100 TPS，输入约0.3美元/百万token、输出约2.4美元/百万token；工具调用与搜索能力提升20%。公司称依托Forge框架与大规模Agent强化学习，实现约40倍训练加速。

阅读原文

Anthropic完成300亿美元融资，估值3800亿美元

融资大模型

Anthropic宣布完成300亿美元新一轮融资，投后估值3800亿美元，由Coatue与新加坡主权基金GIC领投，微软、英伟达等共38家投资方参与。公司披露年化收入约140亿美元，拥有500+企业客户，其中8家为《财富》前十强企业。资金将用于前沿研究、产品开发与算力基础设施扩展；同时承诺补偿数据中心扩张导致的电价上涨，避免将电力成本转嫁给居民用户。

阅读原文

蚂蚁开源Ring-2.5-1T，IMO自测35/42

开源推理模型长上下文

蚂蚁集团开源推理模型Ring-2.5-1T，采用MLA与Lightning Linear按1:7混合的线性注意力架构，面向长上下文推理。资料称在生成长度超过32K时，内存访问规模降至上一代的1/10、生成吞吐提升3倍。训练上在RLVR基础上引入稠密奖励，并使用全异步Agent强化学习，强化长周期任务规划与工具协作能力；模型在IMO 2025自测得分35/42，宣称达到金牌水平区间。

阅读原文

DeepMind推Aletheia，IMO-Proof Advanced 95.1%

AI Agent研究进展

Google DeepMind发布数学研究代理Aletheia，基于改进版Gemini Deep Think，并采用“生成-验证-修订”三阶段代理循环提升证明正确率。在IMO-Proof Bench Advanced上准确率达95.1%，高于此前纪录65.7%。团队称通过推理时扩展计算资源，解奥赛题所需计算量较2025版本降低100倍。Aletheia还在Erdős相关猜想集合中自主解决4个开放问题，并提出数学研究自主性分级框架，用于规范评估AI研究贡献。

阅读原文

vLLM披露DeepSeek在GB300单卡7360 TGS

推理加速算力工程实践

vLLM发布在NVIDIA GB300（Blackwell Ultra）上运行DeepSeek-V3.2与DeepSeek-R1的性能数据。NVFP4量化+TP2并行下，V3.2单GPU预填充吞吐7360 TGS，混合场景（2k输入/1k输出）达2816 TGS；R1在2×GB300、EP2配置下预填充22476 TGS、混合3072 TGS。文章称B300相对Hopper预填充约提升8倍、混合提升10–20倍，并讨论Prefill/Decode拆分以改善高并发延迟与吞吐。

阅读原文

GitHub预览Agentic Workflows：Markdown驱动Actions

开发工具AI Agent

GitHub发布Agentic Workflows技术预览，允许开发者用Markdown描述目标意图，在GitHub Actions中由AI代理执行仓库运维任务（如分流issue、更新文档、提出代码简化建议等），并将其定位为“Continuous AI”。为降低越权与误操作风险，工作流默认只读权限；任何写入动作需通过“safe outputs”映射到预先批准、可审计的GitHub操作，并保持人工审批闭环。GitHub强调代理运行在沙箱环境中，权限、工具与允许输出需显式声明。

阅读原文

AWS为AgentCore Browser加代理与持久Profile

云服务AI Agent企业部署

AWS为Amazon Bedrock AgentCore Browser加入企业化浏览能力：支持proxy路由以获得稳定出口IP并满足企业网络合规；支持持久化浏览器Profile，跨会话保留cookie与本地存储，减少重复登录；并支持加载Chrome扩展（可从S3提供）以定制页面处理逻辑。AWS同时给出分层路由优先级（bypass模式、域名规则、默认代理），便于按站点控制流量去向与数据边界，提升智能体在真实网页工作流中的可用性与安全控制粒度。

阅读原文

Sophos：OpenClaw暴露超3万实例，代理安全升温

AI安全AI Agent

Sophos警示OpenClaw（Moltbot/Clawdbot）在企业中的安全风险：研究者发现互联网上暴露的OpenClaw实例超过3万个，攻击者已讨论将其“技能”用于僵尸网络等用途。威胁包括恶意技能或提示注入导致本地主机被控，以及代理在可信与不可信系统间搬运敏感数据引发泄露链条。文章建议企业禁止直接使用或仅在无敏感数据的沙箱运行，同时建立经审核的技能市场、专用LLM接入层与会话隔离等控制措施，以降低“工具可执行+可外联+处理不可信内容”的组合风险。

阅读原文

Pete Warden开源流式ASR，245M参数WER 6.65%

语音开源

OpenAI开发者社区成员Pete Warden宣布开源一套流式语音转文本（streaming STT）模型及运行库，面向实时语音识别。其最大模型参数约2.45亿，在HuggingFace OpenASR榜单上实现6.65%词错误率，优于Whisper Large v3的7.44%（约15亿参数）。他表示受论坛发帖限制未直接附上仓库链接，相关资源汇总在其个人博客置顶文章中。该发布引发社区对轻量化、低延迟ASR在实时Agent与语音交互中的应用讨论。

阅读原文

马斯克宣布xAI重组，Grok线改组并出现裁员

公司动态组织调整

Business Insider Japan称，马斯克2月10日晚在全员会上公布xAI组织重组：为Grok及Grok Voice、Grok Code、Grok Imagine设立新的负责人体系，并调整白领自动化项目“Macrohard”的管理。报道提到多位联合创始人离职后，公司出现更多员工离开与人员缩减，内部信息称马斯克对部分项目进度不满并推动相关团队收缩。该动作发生在SpaceX收购xAI约一周后，报道指整合后的新公司计划在2026年内推进IPO。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选，用 AI Daily Brief 开启每天的工作与生活。