OpenAI发布GPT-Image-1.5,图像生成速度提升4倍,编辑能力大幅升级
OpenAI正式推出GPT-Image-1.5,显著提升了ChatGPT的图像生成与编辑能力,生成速度最高可达前代4倍,文本渲染和多步编辑能力大幅增强,支持更复杂的图片合成与细节保留,已在主流基准测试中重回榜首,直接对标Google Nano Banana Pro等竞品。
阅读原文OpenAI正式推出GPT-Image-1.5,显著提升了ChatGPT的图像生成与编辑能力,生成速度最高可达前代4倍,文本渲染和多步编辑能力大幅增强,支持更复杂的图片合成与细节保留,已在主流基准测试中重回榜首,直接对标Google Nano Banana Pro等竞品。
阅读原文Google发布Gemini 3 Flash模型,兼具Pro级推理能力与Flash系列的高效低延迟,推理速度较2.5 Pro提升3倍,成本仅为原来的1/4,支持多模态输入(文本、图片、音频、视频),在MMMU Pro等多项基准测试中表现领先,已成为Gemini App和Google搜索AI模式的默认模型,面向全球用户免费开放。
阅读原文Gemini 3 Flash在Humanity’s Last Exam等高难度推理测试中与OpenAI GPT-5.2分差不足1个百分点,在MMMU Pro多模态理解测试中以81.2%成绩领先GPT-5.2(79.5%),显示Google与OpenAI在旗舰模型性能上竞争日趋激烈。
阅读原文Meta推出SAM Audio模型,首次实现通过文本、视觉或时间段提示对混合音频进行目标声音分离,适用于去除背景噪音、提取乐器等场景,支持多种输入方式,提升音频编辑灵活性,模型及评测工具已开源。
阅读原文MIT-IBM Watson AI Lab提出PaTH Attention位置编码方法,使Transformer模型在长文本中的状态跟踪和顺序推理能力显著提升,优于主流RoPE方法,已在多项推理与长上下文任务中验证有效,推动大模型在结构化领域的应用。
阅读原文Google Labs上线实验性AI助手CC,基于Gemini模型,自动整合Gmail、日历、Drive等信息,每日推送“Your Day Ahead”邮件摘要,用户可通过邮件交互添加待办、查询信息或定制偏好,面向美国/加拿大AI Pro/Ultra订阅用户开放。
阅读原文Google与MIT联合研究显示,在180组实验中,多智能体协作在金融分析等任务可提升效率,但在需要顺序推理的任务(如Minecraft)反而导致性能下降70%,且多智能体系统更易消耗token预算,提示企业应谨慎采用多智能体编排。
阅读原文GitHub宣布2026年3月起,所有Actions工作流(包括自托管runner)将收取每分钟$0.002的云平台费,同时GitHub托管runner价格下调最高39%,此举将影响开源及企业CI/CD成本结构,推动云端自动化工具商业化转型。
阅读原文安全研究发现,使用Gemini CLI、Claude Code等AI代理的GitHub Actions和GitLab CI/CD流水线存在PromptPwnd漏洞,攻击者可通过issue、PR等注入恶意内容诱导AI代理泄露GITHUB_TOKEN等敏感信息,官方已发布修复建议。
阅读原文exe.dev推出公测版VM托管平台,支持通过SSH API快速启动大量Ubuntu虚拟机,主打私有、持久、低延迟、无单台VM边际成本,适合批量运行AI代理、自动化工具等场景,简化AI基础设施部署。
阅读原文数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。