英伟达开源Alpamayo自动驾驶VLA,含10B模型与1700+小时数据
英伟达在CES发布Alpamayo开源模型家族,核心Alpamayo 1为100亿参数链式思维视觉-语言-动作(VLA)模型,可分步推理并输出推理轨迹,提升罕见长尾场景决策的可解释性。同步开源1700+小时驾驶数据集及仿真验证框架AlpaSim;代码已在Hugging Face提供,支持开发者微调并集成到自动驾驶软件栈,面向更高等级自动驾驶验证与落地。
阅读原文英伟达在CES发布Alpamayo开源模型家族,核心Alpamayo 1为100亿参数链式思维视觉-语言-动作(VLA)模型,可分步推理并输出推理轨迹,提升罕见长尾场景决策的可解释性。同步开源1700+小时驾驶数据集及仿真验证框架AlpaSim;代码已在Hugging Face提供,支持开发者微调并集成到自动驾驶软件栈,面向更高等级自动驾驶验证与落地。
阅读原文英伟达公布面向机器人“物理AI”的开放模型与工具:Cosmos Transfer/Predict 2.5用于仿真数据生成,Cosmos Reason 2与人形机器人VLA模型Isaac GR00T N1.6强化推理与控制;并开源Isaac Lab-Arena用于策略评估与基准测试,推出云原生编排框架OSMO统一开发流程。硬件端发布Jetson T4000模块,算力1,200 FP4 TFLOPS、64GB内存,1,000件起订单价1,999美元,宣称性能较上一代提升4倍。
阅读原文英伟达在CES展示Rubin AI平台路线:由6颗芯片组成的AI超级计算机,强调计算与内存带宽协同以应对“内存成瓶颈”。报道披露其可将推理成本最高降低10倍,并在部分训练场景(如MoE)把所需GPU数量最高减少4倍;同时推出面向智能体的“推理上下文内存存储平台”,用于管理与加速长上下文数据。Rubin预计于2026年下半年通过AWS、Google、微软、OpenAI等合作伙伴供货。
阅读原文谷歌为Google TV推出Gemini大版本更新:在电视端加入Nano Banana图像生成与Veo视频生成,支持语音生成/编辑图像与视频,并可将Google Photos照片自动混剪成视频;同时提供面向电视的聊天界面与“深入了解”信息卡,还能根据语音反馈自动调整系统设置(如对话声音太小则调节相关选项)。功能将先在TCL的Google TV机型上线,其他设备需等待数月,并要求设备运行Android 14及以上。
阅读原文vLLM团队发布语义路由器Semantic Router v0.1 Iris,面向“模型混合”(MoM)在用户与模型之间做系统级路由决策。新版本采用“信号-决策”插件链架构,可接入多类信号并组合决策,路由从固定14类扩展为可配置的无限策略;性能侧引入模块化LoRA以降低延迟。安全侧加入HaluGate三阶段幻觉检测,并提供一键安装、Kubernetes部署与可视化仪表板,同时支持OpenAI Responses API与智能工具管理。
阅读原文阿布扎比TII在Hugging Face发布Falcon H1R 7B推理模型,参数规模7B但主打推理与吞吐效率。官方介绍其经两阶段后训练(SFT+GRPO)并结合DeepConf测试时扩展,可在减少生成token的同时提升准确率;材料称其在AIME 2025取得83.1,在编码基准LCB v6为68.6,并通过基于置信度的动态剪枝减少38% token使用。模型按Falcon LLM许可证开放,允许商业使用但需署名并遵守可接受使用政策。
阅读原文蚂蚁集团被报道开源医疗大模型“安诊儿”AntAngelMed,总参数100B、MoE架构激活参数约6.1B。材料称其在HealthBench、MedAIBench、MedBench等评测中位列开源模型第一,并通过持续预训练、监督微调(SFT)与GRPO强化学习三阶段训练,兼顾医学推理能力与医疗安全/伦理要求。推理效率方面,材料称其在H20上速度可达200+ tokens/s,面向医疗问答、健康管理与临床辅助等应用落地。
阅读原文Intel提出DeepMath架构以提升LLM数学能力:模型不再输出冗长推理文本,而是生成小型Python片段在受限沙箱中执行,将确定性计算交由代码完成,从而减少算术与数值错误并缩短推理轨迹。该方案基于Qwen3-4B Thinking并通过GRPO微调,训练奖励“正确答案+简洁代码”。为满足生产安全要求,Python执行环境采用模块白名单、执行超时限制,且禁用文件与网络访问,以降低工具调用带来的安全风险。
阅读原文MiniMax据报在香港IPO中倾向按区间上限定价(每股151–165港元),预计募资约5.38亿美元,对应市值约65亿美元。材料称公司于2025年12月31日启动建簿,订单簿多次超额认购;计划在1月6日确定最终定价,并于1月9日开始交易。MiniMax主营多模态大模型与应用,背后投资方包括腾讯与阿里等。若顺利上市,将为大模型公司走向公开市场提供新的定价参照与融资样本。
阅读原文NVIDIA在Nemotron Speech ASR中引入“cache-aware”流式架构,替代传统重叠窗口的缓冲推理:每段音频仅处理一次并复用历史计算,减少冗余计算并稳定高并发场景下的延迟漂移。官方称该方案可带来最高3倍并发能力、接近线性扩展的显存占用,并在合作验证中实现24ms中位time-to-final转写。该模型面向实时语音Agent部署,并支持运行时在延迟与WER之间进行动态权衡与调参。
阅读原文数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。