字节跳动发布豆包Seed 2.0系列,多模态原生并含Code版
字节跳动发布豆包大模型2.0系列(Doubao-Seed-2.0),提供Pro、Lite、Mini等多模态通用模型与面向开发者的Code模型,覆盖不同延迟与成本需求。官方强调其采用多模态原生框架,训练早期即让多模态共同学习,并原生支持Agent式任务执行;模型能力已在豆包App及火山引擎API等产品化链路中迭代验证。公司继续采取自研与闭源路线,强化“产品—数据—训练”闭环。
阅读原文字节跳动发布豆包大模型2.0系列(Doubao-Seed-2.0),提供Pro、Lite、Mini等多模态通用模型与面向开发者的Code模型,覆盖不同延迟与成本需求。官方强调其采用多模态原生框架,训练早期即让多模态共同学习,并原生支持Agent式任务执行;模型能力已在豆包App及火山引擎API等产品化链路中迭代验证。公司继续采取自研与闭源路线,强化“产品—数据—训练”闭环。
阅读原文智谱AI与清华推出GLM-OCR(0.9B)用于文档解析与关键信息提取:由0.4B CogViT视觉编码器与0.5B GLM解码器组成,并引入多令牌预测(MTP),推理时平均每步生成5.2 token,使吞吐提升约50%。流程先用PP-DocLayout-V3做版面分析,再并行识别区域,支持解析输出Markdown/JSON与KIE直接生成JSON。基准上OmniDocBench v1.5为94.6、OCRBench(Text)为94.0。支持vLLM/SGLang/Ollama部署,MaaS定价0.2元/百万token。
阅读原文据报道,月之暗面(Moonshot AI)正推进新一轮融资,目标筹集最高约10亿美元,对应估值约180亿美元;相较其此前约100亿美元估值阶段,本轮估值显著抬升。报道提到阿里巴巴、腾讯与5Y Capital等既有投资者在前一轮估值水平追加投资。融资加速反映出资本对中国头部大模型公司的持续追逐,也意味着国内聊天与Agent产品竞争将进一步向算力投入、产品迭代速度与生态分发能力集中。
阅读原文全球首个藏语大语言模型DeepZang在拉萨发布,由西藏觉罗数字产业管理有限公司研发。报道称其为中国首个完成国家生成式人工智能备案的藏语大模型,并定位为开源大模型平台,支持80余种语言服务,具备对话、翻译、语音转写等能力并配套推出App。团队自2018年起积累近7000万条高质量藏汉平行语料,并完成三大藏语方言区语音采集累计超3万小时,形成规模化语音数据库;发布会现场获得“世界首个藏语大语言模型”认证。
阅读原文SILMA AI发布并开源SILMA TTS v1(1.5亿参数),支持阿拉伯语与英语文本到语音,采用基于F5-TTS的扩散式架构从零预训练,使用数万小时公共与专有音频数据。其亮点包括:少于8秒参考音频即可进行即时语音克隆;在RTX 4090上实测推理实时系数RTF约0.12;完整支持阿拉伯语Tashkeel标注;并以Apache 2.0许可提供以便商用。模型与代码已在Hugging Face/GitHub发布,便于两行代码快速试用与二次开发。
阅读原文LangChain推出Deep Agents,面向多步骤、有状态且中间产物庞大的复杂任务,提供基于LangGraph的结构化“运行时封装”。其默认能力包括:用write_todos进行任务规划与分解;用虚拟文件系统工具读写文件与执行命令,将大输出/中间状态外置以避免上下文窗口溢出;通过task生成子代理实现上下文隔离,降低单线程目标与工具输出堆积导致的质量退化;并可接入LangGraph Memory Store实现跨会话长期记忆。项目输出标准CompiledStateGraph,便于流式、检查点与生产部署集成。
阅读原文普林斯顿团队提出OpenClaw-RL,用“对话中产生的反馈”实时训练AI代理:将用户对话、终端命令与工具调用中的反馈信号转化为训练数据,减少对预收集数据或教师模型依赖。框架由四个解耦并行模块组成,支持异步训练以在使用中持续学习。方法结合Binary RL进行整体好坏奖励,以及Hindsight-Guided On-Policy Distillation在token级提取改进信号。实验显示在几十次交互后代理表达更自然;模拟学生场景个性化评分从0.17升至0.76、教师场景从0.22升至0.90。代码已开源。
阅读原文InfoQ称AWS在Amazon Lightsail上线托管式OpenClaw蓝图,为热门自主Agent框架提供“一键部署”的受管环境,以降低自建配置与安全加固门槛。该蓝图预置与Amazon Bedrock集成并自动化部分权限与部署步骤,用户可通过SSH配对后使用网页或WhatsApp、Telegram、Slack、Discord等渠道交互。报道将其定位为对大量自托管实例暴露漏洞与配置复杂度的回应:受管默认配置可减少误暴露与不一致的安全设置风险,同时为非专业团队提供更标准化的上线路径。
阅读原文Define Media Group研究称,Google的AI Overviews正在显著挤压出版商多数内容类别的自然搜索流量,但“突发新闻”流量逆势增长103%。报告指出,增长主要来自Google Discover,其流量首次与Web Search持平;在“iran war”等检索中仍优先展示Top Stories轮播而非AI摘要,可能与LLM实时性/准确性限制有关。统计还显示AI摘要在新闻类出现频率为15.1%,而科学、健康等领域均超过43%。建议媒体将Discover作为独立分发渠道优化选题与发布节奏,以对冲常青内容在AIO时代的衰退。
阅读原文Scale Labs发布Showdown排行榜,基于真实对话场景的成对盲选人类投票,对多家LLM进行“真实世界偏好”评估,强调不依赖合成题或实验室基准。页面显示gpt-5.2-chat-latest与gemini-3-flash在多个榜单中排名靠前,并区分Thinking与非Thinking模式、以及语音输入等多模态场景的表现。Scale称评估覆盖80多个国家、70多种语言的活跃用户,同时提示部分模型因API返回格式等工程因素可能影响得分。该榜单意在为企业选型提供更贴近用户体验的参考。
阅读原文数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。