返回往期
2026年2月14日星期六
10 点要闻3 分钟阅读

今日要闻

1

MiniMax开源M2.5,SWE-Bench Verified 80.2%

模型发布开源AI Coding

MiniMax于2月12日上线文本模型M2.5,并在2月13日宣布全球开源,定位原生Agent生产级模型。其SWE-Bench Verified得分80.2%、Multi-SWE-Bench 51.3%。Lightning版输出速度超100 TPS,输入约0.3美元/百万token、输出约2.4美元/百万token;工具调用与搜索能力提升20%。公司称依托Forge框架与大规模Agent强化学习,实现约40倍训练加速。

阅读原文
2

Anthropic完成300亿美元融资,估值3800亿美元

融资大模型

Anthropic宣布完成300亿美元新一轮融资,投后估值3800亿美元,由Coatue与新加坡主权基金GIC领投,微软、英伟达等共38家投资方参与。公司披露年化收入约140亿美元,拥有500+企业客户,其中8家为《财富》前十强企业。资金将用于前沿研究、产品开发与算力基础设施扩展;同时承诺补偿数据中心扩张导致的电价上涨,避免将电力成本转嫁给居民用户。

阅读原文
3

蚂蚁开源Ring-2.5-1T,IMO自测35/42

开源推理模型长上下文

蚂蚁集团开源推理模型Ring-2.5-1T,采用MLA与Lightning Linear按1:7混合的线性注意力架构,面向长上下文推理。资料称在生成长度超过32K时,内存访问规模降至上一代的1/10、生成吞吐提升3倍。训练上在RLVR基础上引入稠密奖励,并使用全异步Agent强化学习,强化长周期任务规划与工具协作能力;模型在IMO 2025自测得分35/42,宣称达到金牌水平区间。

阅读原文
4

DeepMind推Aletheia,IMO-Proof Advanced 95.1%

AI Agent研究进展

Google DeepMind发布数学研究代理Aletheia,基于改进版Gemini Deep Think,并采用“生成-验证-修订”三阶段代理循环提升证明正确率。在IMO-Proof Bench Advanced上准确率达95.1%,高于此前纪录65.7%。团队称通过推理时扩展计算资源,解奥赛题所需计算量较2025版本降低100倍。Aletheia还在Erdős相关猜想集合中自主解决4个开放问题,并提出数学研究自主性分级框架,用于规范评估AI研究贡献。

阅读原文
5

vLLM披露DeepSeek在GB300单卡7360 TGS

推理加速算力工程实践

vLLM发布在NVIDIA GB300(Blackwell Ultra)上运行DeepSeek-V3.2与DeepSeek-R1的性能数据。NVFP4量化+TP2并行下,V3.2单GPU预填充吞吐7360 TGS,混合场景(2k输入/1k输出)达2816 TGS;R1在2×GB300、EP2配置下预填充22476 TGS、混合3072 TGS。文章称B300相对Hopper预填充约提升8倍、混合提升10–20倍,并讨论Prefill/Decode拆分以改善高并发延迟与吞吐。

阅读原文
6

GitHub预览Agentic Workflows:Markdown驱动Actions

开发工具AI Agent

GitHub发布Agentic Workflows技术预览,允许开发者用Markdown描述目标意图,在GitHub Actions中由AI代理执行仓库运维任务(如分流issue、更新文档、提出代码简化建议等),并将其定位为“Continuous AI”。为降低越权与误操作风险,工作流默认只读权限;任何写入动作需通过“safe outputs”映射到预先批准、可审计的GitHub操作,并保持人工审批闭环。GitHub强调代理运行在沙箱环境中,权限、工具与允许输出需显式声明。

阅读原文
7

AWS为AgentCore Browser加代理与持久Profile

云服务AI Agent企业部署

AWS为Amazon Bedrock AgentCore Browser加入企业化浏览能力:支持proxy路由以获得稳定出口IP并满足企业网络合规;支持持久化浏览器Profile,跨会话保留cookie与本地存储,减少重复登录;并支持加载Chrome扩展(可从S3提供)以定制页面处理逻辑。AWS同时给出分层路由优先级(bypass模式、域名规则、默认代理),便于按站点控制流量去向与数据边界,提升智能体在真实网页工作流中的可用性与安全控制粒度。

阅读原文
8

Sophos:OpenClaw暴露超3万实例,代理安全升温

AI安全AI Agent

Sophos警示OpenClaw(Moltbot/Clawdbot)在企业中的安全风险:研究者发现互联网上暴露的OpenClaw实例超过3万个,攻击者已讨论将其“技能”用于僵尸网络等用途。威胁包括恶意技能或提示注入导致本地主机被控,以及代理在可信与不可信系统间搬运敏感数据引发泄露链条。文章建议企业禁止直接使用或仅在无敏感数据的沙箱运行,同时建立经审核的技能市场、专用LLM接入层与会话隔离等控制措施,以降低“工具可执行+可外联+处理不可信内容”的组合风险。

阅读原文
9

Pete Warden开源流式ASR,245M参数WER 6.65%

语音开源

OpenAI开发者社区成员Pete Warden宣布开源一套流式语音转文本(streaming STT)模型及运行库,面向实时语音识别。其最大模型参数约2.45亿,在HuggingFace OpenASR榜单上实现6.65%词错误率,优于Whisper Large v3的7.44%(约15亿参数)。他表示受论坛发帖限制未直接附上仓库链接,相关资源汇总在其个人博客置顶文章中。该发布引发社区对轻量化、低延迟ASR在实时Agent与语音交互中的应用讨论。

阅读原文
10

马斯克宣布xAI重组,Grok线改组并出现裁员

公司动态组织调整

Business Insider Japan称,马斯克2月10日晚在全员会上公布xAI组织重组:为Grok及Grok Voice、Grok Code、Grok Imagine设立新的负责人体系,并调整白领自动化项目“Macrohard”的管理。报道提到多位联合创始人离职后,公司出现更多员工离开与人员缩减,内部信息称马斯克对部分项目进度不满并推动相关团队收缩。该动作发生在SpaceX收购xAI约一周后,报道指整合后的新公司计划在2026年内推进IPO。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。