AI Daily Brief

2026年3月16日星期一

10 点要闻3 分钟阅读

今日要闻

字节跳动发布豆包Seed 2.0系列，多模态原生并含Code版

模型发布多模态产品落地

字节跳动发布豆包大模型2.0系列（Doubao-Seed-2.0），提供Pro、Lite、Mini等多模态通用模型与面向开发者的Code模型，覆盖不同延迟与成本需求。官方强调其采用多模态原生框架，训练早期即让多模态共同学习，并原生支持Agent式任务执行；模型能力已在豆包App及火山引擎API等产品化链路中迭代验证。公司继续采取自研与闭源路线，强化“产品—数据—训练”闭环。

阅读原文

智谱×清华推GLM-OCR 0.9B：吞吐+50%，API 0.2元/百万token

多模态OCRAPI定价

智谱AI与清华推出GLM-OCR（0.9B）用于文档解析与关键信息提取：由0.4B CogViT视觉编码器与0.5B GLM解码器组成，并引入多令牌预测（MTP），推理时平均每步生成5.2 token，使吞吐提升约50%。流程先用PP-DocLayout-V3做版面分析，再并行识别区域，支持解析输出Markdown/JSON与KIE直接生成JSON。基准上OmniDocBench v1.5为94.6、OCRBench(Text)为94.0。支持vLLM/SGLang/Ollama部署，MaaS定价0.2元/百万token。

阅读原文

月之暗面Kimi拟融最高10亿美元，估值约180亿美元

融资大模型中国

据报道，月之暗面（Moonshot AI）正推进新一轮融资，目标筹集最高约10亿美元，对应估值约180亿美元；相较其此前约100亿美元估值阶段，本轮估值显著抬升。报道提到阿里巴巴、腾讯与5Y Capital等既有投资者在前一轮估值水平追加投资。融资加速反映出资本对中国头部大模型公司的持续追逐，也意味着国内聊天与Agent产品竞争将进一步向算力投入、产品迭代速度与生态分发能力集中。

阅读原文

拉萨发布藏语大模型DeepZang：7000万语料、3万小时语音

模型发布开源低资源语言

全球首个藏语大语言模型DeepZang在拉萨发布，由西藏觉罗数字产业管理有限公司研发。报道称其为中国首个完成国家生成式人工智能备案的藏语大模型，并定位为开源大模型平台，支持80余种语言服务，具备对话、翻译、语音转写等能力并配套推出App。团队自2018年起积累近7000万条高质量藏汉平行语料，并完成三大藏语方言区语音采集累计超3万小时，形成规模化语音数据库；发布会现场获得“世界首个藏语大语言模型”认证。

阅读原文

SILMA开源150M双语TTS：<8秒克隆，RTF约0.12

开源语音多语言

SILMA AI发布并开源SILMA TTS v1（1.5亿参数），支持阿拉伯语与英语文本到语音，采用基于F5-TTS的扩散式架构从零预训练，使用数万小时公共与专有音频数据。其亮点包括：少于8秒参考音频即可进行即时语音克隆；在RTX 4090上实测推理实时系数RTF约0.12；完整支持阿拉伯语Tashkeel标注；并以Apache 2.0许可提供以便商用。模型与代码已在Hugging Face/GitHub发布，便于两行代码快速试用与二次开发。

阅读原文

LangChain发布Deep Agents：规划+文件系统上下文+子代理隔离

Agent框架开发工具上下文管理

LangChain推出Deep Agents，面向多步骤、有状态且中间产物庞大的复杂任务，提供基于LangGraph的结构化“运行时封装”。其默认能力包括：用write_todos进行任务规划与分解；用虚拟文件系统工具读写文件与执行命令，将大输出/中间状态外置以避免上下文窗口溢出；通过task生成子代理实现上下文隔离，降低单线程目标与工具输出堆积导致的质量退化；并可接入LangGraph Memory Store实现跨会话长期记忆。项目输出标准CompiledStateGraph，便于流式、检查点与生产部署集成。

阅读原文

普林斯顿开源OpenClaw-RL：对话即训练，评分0.17→0.76

强化学习Agent开源

普林斯顿团队提出OpenClaw-RL，用“对话中产生的反馈”实时训练AI代理：将用户对话、终端命令与工具调用中的反馈信号转化为训练数据，减少对预收集数据或教师模型依赖。框架由四个解耦并行模块组成，支持异步训练以在使用中持续学习。方法结合Binary RL进行整体好坏奖励，以及Hindsight-Guided On-Policy Distillation在token级提取改进信号。实验显示在几十次交互后代理表达更自然；模拟学生场景个性化评分从0.17升至0.76、教师场景从0.22升至0.90。代码已开源。

阅读原文

AWS在Lightsail推托管OpenClaw：一键部署并预置Bedrock

云服务Agent安全

InfoQ称AWS在Amazon Lightsail上线托管式OpenClaw蓝图，为热门自主Agent框架提供“一键部署”的受管环境，以降低自建配置与安全加固门槛。该蓝图预置与Amazon Bedrock集成并自动化部分权限与部署步骤，用户可通过SSH配对后使用网页或WhatsApp、Telegram、Slack、Discord等渠道交互。报道将其定位为对大量自托管实例暴露漏洞与配置复杂度的回应：受管默认配置可减少误暴露与不一致的安全设置风险，同时为非专业团队提供更标准化的上线路径。

阅读原文

研究：Google AI Overviews压流量，突发新闻反增103%

搜索媒体生态生成式AI

Define Media Group研究称，Google的AI Overviews正在显著挤压出版商多数内容类别的自然搜索流量，但“突发新闻”流量逆势增长103%。报告指出，增长主要来自Google Discover，其流量首次与Web Search持平；在“iran war”等检索中仍优先展示Top Stories轮播而非AI摘要，可能与LLM实时性/准确性限制有关。统计还显示AI摘要在新闻类出现频率为15.1%，而科学、健康等领域均超过43%。建议媒体将Discover作为独立分发渠道优化选题与发布节奏，以对冲常青内容在AIO时代的衰退。

阅读原文

Scale Labs上线Showdown人评榜：gpt-5.2-chat-latest与gemini-3-flash居前

评测人类偏好LLM

Scale Labs发布Showdown排行榜，基于真实对话场景的成对盲选人类投票，对多家LLM进行“真实世界偏好”评估，强调不依赖合成题或实验室基准。页面显示gpt-5.2-chat-latest与gemini-3-flash在多个榜单中排名靠前，并区分Thinking与非Thinking模式、以及语音输入等多模态场景的表现。Scale称评估覆盖80多个国家、70多种语言的活跃用户，同时提示部分模型因API返回格式等工程因素可能影响得分。该榜单意在为企业选型提供更贴近用户体验的参考。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选，用 AI Daily Brief 开启每天的工作与生活。