OpenAI发布GPT-5.2,用户反馈安全限制过强且情感智能下降
OpenAI于十周年推出的GPT-5.2模型官方自称为专业知识工作领域最强,但用户反映日常对话平淡、安全审查过度、缺乏情感智能,并在SimpleBench等常识推理测试上得分逊色于Claude Sonnet 3.7等前代模型,同时token消耗和成本增加,部分功能如跨应用协作被严格限制;编程能力和ASCII艺术创作被用户认为视觉与实用性不突出;部分用户对其缺乏共情和不灵活的安全机制提出集中批评。
阅读原文OpenAI于十周年推出的GPT-5.2模型官方自称为专业知识工作领域最强,但用户反映日常对话平淡、安全审查过度、缺乏情感智能,并在SimpleBench等常识推理测试上得分逊色于Claude Sonnet 3.7等前代模型,同时token消耗和成本增加,部分功能如跨应用协作被严格限制;编程能力和ASCII艺术创作被用户认为视觉与实用性不突出;部分用户对其缺乏共情和不灵活的安全机制提出集中批评。
阅读原文GPT-5.2在部分业界基准测试中通过大幅提升token消耗获得更高分数,实际与Gemini 3.0 Pro等相比效率较低、成本更高,在部分评测如LiveBench与MMMU-Pro上并未实现超越,社区质疑OpenAI“虚假营销”,用户实际体验幻觉现象及守旧对话风格明显,部分核心团队成员因公司趋于商业化、审查负面研究而离职。
阅读原文2025年12月,字节跳动豆包大模型上线全新AI手机助手系统服务,支持跨App复杂操作并全程隐私保护,并在与中兴合作推出的努比亚M153工程样机上首发,开售即售罄,驱动中兴A股市值突破2100亿元,相关AI任务处理速度领先行业竞品,引发三方限制与监管关注,目前豆包大模型已覆盖3亿台设备并合作八成主流车企,带动制定AI操作权限行业标准。
阅读原文美国总统特朗普签署行政令,旨在联邦层面统一人工智能领域监管标准,限制各州实施不同AI法律,并成立AI诉讼特别工作组以挑战地方法律,科技企业普遍对新政表示欢迎,但媒体担心此举或导致监管走向宽松带来风险。
阅读原文受企业业绩预期下降与AI芯片供应紧张影响,Broadcom、Oracle和英伟达等AI相关科技股大幅下挫,再次引发AI赛道“泡沫”争议,甲骨文推迟OpenAI建设的数据中心工期至2028年;英国、美国等地相应基础设施投资面临用工与资源供应冲突,数据中心大量消耗社会建设资源。
阅读原文谷歌开放Gemini Deep Research能力及统一Interactions API,开发者可将自动化知识提取和结构化报告生成引入企业级应用场景,同时AI代理标准(AAIF)和Microsoft等多方平台推出新一代Agent开发与管理工具,推动开放标准与多模型集成协作。
阅读原文AI在广告投放、媒体计划等环节自动化重复性基础工作,大批初级岗位被边缘化,培养管理层和复合型人才的路径正面临断裂风险,各大机构探索更早让新人直接参与核心数据分析与AI联合操作以弥补“经验断层”。
阅读原文迪士尼宣布投入10亿美元与OpenAI合作,将旗下200余经典角色授权给Sora视频平台,成为Sora首个大型IP内容方,用户可自定义生成相关动画视频,行业认为本次协议为内容产业与大模型之间全面商业合作的里程碑。
阅读原文全球范围内,数据中心尤其是AI数据中心投资快速膨胀,私人领域年化投资超410亿美元,规模接近交通等政府基建,劳动力短缺和能源供应受限已推高国家债务与社会建设项目周期,大型AI项目占据大量电力、用地及高端人力,引发可持续与公平性广泛讨论。
阅读原文Tim Dettmers等研究者认为GPU性价比2018年后已见顶,模型继续扩大的成本递增收益递减,深度学习基础算法趋近最优,未来依赖指数级投资难以持续,业界或需转向“可靠性与多场景集成”而非无尽参数扩容。
阅读原文数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。