1
Google发布Gemma 4开源模型系列,31B版本排名全球第三、采用Apache 2.0许可 开源模型 Google 边缘AI
Google DeepMind于4月2日发布Gemma 4开源模型系列,包含E2B、E4B、26B MoE和31B Dense四种规格。31B模型在Arena AI文本排行榜位列全球第三,26B MoE排名第六,性能超越其20倍大小的模型。26B MoE采用128个小型专家,仅激活3.8B参数即可实现27B级推理性能。所有模型原生支持图像、视频和音频处理,上下文窗口最高256K,覆盖140+语言,内建函数调用与结构化JSON输出,适用于智能体工作流。E2B/E4B可在手机、Raspberry Pi等边缘设备近零延迟运行。模型从自定义许可切换至Apache 2.0,消除商业部署摩擦。已在Hugging Face、Ollama、Google AI Studio等平台上线,NVIDIA同步提供NVFP4量化版本及全栈部署支持。
阅读原文 2
微软发布三款自研AI基础模型MAI系列,语音转文本词错率仅3.8% 微软 AI模型 多模态
微软于4月2日发布MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2三款自研AI模型,标志其从分销商向自主模型开发者的战略转型。MAI-Transcribe-1支持25种语言,在FLEURS基准平均词错率仅3.8%,超越OpenAI Whisper和Google Gemini,速度为Azure Fast的2.5倍,起价每小时0.36美元。MAI-Voice-1支持秒级语音克隆和60倍实时音频生成,每百万字符22美元。MAI-Image-2生成速度提升2倍以上,已集成至Bing和PowerPoint。三款模型均由不足10人团队开发,GPU用量仅竞品一半。微软强调"人文主义AI"理念,通过激进定价策略压缩成本,未来计划推出可媲美GPT的前沿大语言模型。
阅读原文 3
阿里发布Qwen3.6-Plus,编程能力接近Claude Opus 4.5成国产最强 阿里 大模型 编程
阿里于4月2日发布千问新一代大语言模型Qwen3.6-Plus,在SWE-bench、Terminal-Bench2.0、NL2Repo等权威编程评测中表现接近Claude Opus 4.5,超越GLM-5和Kimi-K2.5等国产模型。模型具备原生多模态理解能力,可根据界面截图或设计稿直接生成前端代码,实现"看懂界面→生成代码→调用工具修改"的完整链路。支持100万词元上下文窗口,适配OpenClaw、Qwen Code等主流Agent框架。已上线阿里云百炼平台,每百万Tokens输入最低2元。距上一代Qwen3.5仅一个半月,迭代加速明显,更强旗舰版Qwen3.6-Max即将发布。
阅读原文 4
2026年Q1基础AI融资达1780亿美元,是2025全年两倍 融资 AI行业 投资趋势
据Crunchbase数据,2026年第一季度基础AI初创企业风险投资达1780亿美元(24笔交易),是2025年全年889亿美元的两倍。资金高度集中于头部企业:OpenAI累计融资超1220亿美元,Anthropic以3800亿美元估值获300亿美元G轮,xAI完成200亿美元E轮。欧洲初创企业AMI创纪录获得10.3亿欧元种子轮。2025年全球AI领域总投资达2110亿美元,占全球风投总额约50%。OpenAI和Anthropic预计将在2026年底或2027年筹备上市,xAI已与SpaceX合并将通过其IPO向公众开放。
阅读原文 5
Hugging Face发布Transformers v5.5.0,首日集成Gemma 4等三款新模型 Hugging Face 开源工具 多模态
Hugging Face发布Transformers库v5.5.0版本,新增三款模型支持。Gemma4为支持图像输入的多模态模型,采用固定token预算和2D RoPE编码处理不同尺寸图像。NomicBERT是首个开源可复现的长上下文文本嵌入模型,支持8192上下文长度,在MTEB和LoCo基准上超越OpenAI Ada-002。MusicFlamingo是音频-语言模型,支持最长20分钟音频理解,引入Rotary Time Embeddings。此外,该版本将Mamba缓存机制原生化,移除LightGlue远程代码执行支持,静态检查性能提升达27倍。
阅读原文 6
GPU租赁价格半年飙涨40%,H100一年期合约达2.35美元/小时 GPU 基础设施 算力短缺
SemiAnalysis发布H100一年期租赁价格指数,数据显示H100租赁价格从2025年10月的1.70美元/小时飙升至2026年3月的2.35美元/小时,涨幅近40%。需求激增源于Anthropic等AI公司扩张、多智能体工作负载爆发及原生媒体生成推动token消耗暴增。当前几乎所有类型GPU的按需容量均已售罄,Blackwell芯片交付排期至2026年6-7月,且至8-9月的新产能几乎全部被预订。长期合约(4-5年)由大型AI实验室主导。未来价格走势取决于GB300产能释放和AI模型收入增长情况。
阅读原文 7
国家药监局发布AI+药品监管实施意见,目标2030年构建融合创新体系 政策 药品监管 AI应用
国家药监局发布《关于"人工智能+药品监管"的实施意见》,提出到2030年初步构建药品监管与AI融合创新体系,形成高质量数据集、垂直大模型和智能体,实现审评审批、监督检查、检验监测等场景的人机协同高效运作。到2035年基本建成数智驱动的智慧化药品安全治理新格局。重点方向包括人机协同智能审评、全链条智能化监管、风险监管数智升级,聚焦血液制品和中药注射剂等高风险品种的数字化转型。基础支撑强调数据集建设、模型应用体系、算力基础设施及安全防护体系完善。
阅读原文 8
智谱与MiniMax上市后首份财报出炉,营收分别增长132%和159% 智谱 MiniMax AI商业化
中国AI初创公司智谱AI和MiniMax于4月2日公布上市后首份财报。智谱AI 2025年营收达7.24亿元人民币(约1.05亿美元),同比增长131.9%,主要通过模型即服务(MaaS)平台为机构客户提供AI模型部署服务。MiniMax同期营收为7900万美元,同比增长159%,收入来源更多元化,涵盖企业服务、视频生成平台海螺AI和AI伴侣应用Talkie等消费级产品。两家公司亏损均有所扩大,但收入快速增长反映中国纯AI初创企业在商业模式探索上的初步成功。港股一季度IPO中智谱和MiniMax表现抢眼,累计涨幅约5倍。
阅读原文 9
Meta发布KernelEvolve,用AI Agent自动优化GPU内核性能超越人类专家 Meta AI基础设施 内核优化
Meta工程博客发布KernelEvolve系统,将GPU内核优化从人工专家调优转变为自动化、基于搜索的智能体流程。该系统将内核生成视为结构化搜索问题,通过检索增强知识库动态注入特定硬件文档和优化模式,使LLM能为新硬件生成优化代码,无需预先训练。自动化评估和反馈循环实现持续性能改进,系统将成功策略蒸馏为可复用技能并写回知识库。与典型的一次性代码生成不同,KernelEvolve在数百个候选方案中搜索最优实现,在生产工作负载中性能常超人类专家水平。
阅读原文 10
Cloudflare重新设计CDN缓存架构应对AI爬虫冲击,提出分层AI感知方案 Cloudflare 基础设施 AI爬虫
Cloudflare发布博文指出AI爬虫流量模式与人类行为根本不同,其高唯一URL比率和长尾内容顺序扫描导致严重缓存抖动,将热门内容从缓存中驱逐,使人类用户命中率下降。传统LRU算法不足以应对AI时代的混合工作负载,初步实验表明SIEVE或S3FIFO算法能更好保护人类流量命中率。Cloudflare提出分层AI感知缓存架构:为人类流量优先保障边缘响应速度,为AI训练爬取使用更深层、更大容量的缓存层。Wikipedia、SourceHut等平台已因AI爬取出现50%带宽暴涨和服务不稳定问题。
阅读原文