返回往期
2026年6月29日星期一
10 点要闻3 分钟阅读

今日要闻

1

RepoPrompt开源:作者加入OpenAI后用MCP服务器重构,底层CLI工具可热插拔

开源AI编程

RepoPrompt正式开源,其作者Provencher被OpenAI招募后,对整个项目进行架构反转重构。新架构以MCP(模型上下文协议)服务器作为中心控制器,底层CLI工具可灵活替换,实现上下文工程的标准化管理。这一设计让开发者能在统一接口下调度不同底层编码工具,分享了重构背后的工程考量与变化。该项目代表上下文工程领域的成熟实践,是AI编程工具向可组合、可替换架构演进的典型案例。

阅读原文
2

百度Unlimited OCR开源:R-SWA机制让模型像人类一样「遗忘」,OmniDocBench达93.23%

开源OCR

百度开源Unlimited OCR,通过参考滑动窗口注意力(R-SWA)实现长文档高效连续解析。该机制将视觉token视为固定参考,输出端仅保留最近128个历史token,KV Cache大小恒定不随生成长度增长。在OmniDocBench v1.5上综合得分93.23%,较DeepSeek OCR提升6.22%;生成6000 token时推理速度提升约35%,40页以上文档解析质量稳定。核心贡献者YY疑似前DeepSeek研究员魏浩然,技术上延续DeepEncoder思路。

阅读原文
3

MiniMax发6亿港元零成本股票全员激励,不设KPI满年限即全拿

产业动态中国AI

AI人才战持续升温,MiniMax向全体员工发放约6亿港元零成本股票,不设KPI考核,仅需满足在职年限即可全部拿到。同期DeepSeek计划部门规模翻倍,Harness团队负责人每天面试;阿里推「一人团队」降低沟通成本,反映组织效率优化趋势。此外,前谷歌CEO施密特承认中国用更弱硬件创造顶级AI模型,中美AI差距收窄至约6个月,苹果游说美政府放松对中国长鑫存储芯片采购限制以缓解涨价压力。

阅读原文
4

AI开发范式四次浪潮:从Prompt进化到Loop工程,人类角色从执行者转为设计师

AI工程Agent

一篇万字综述系统梳理AI开发范式从提示工程到循环工程的演进。核心从沟通技巧转向系统设计:上下文工程引入MVC、GraphRAG等方法,利用prompt cache前缀匹配降本90%以上;Harness工程通过分层拦截(硬规则→策略网关→AI审查→人工终审)以低成本拦截80%低级错误,模型仅提议、Harness握有最终执行权;Loop工程赋予系统自主迭代能力,五件套工具加循环协议防止失控。文章提出未来高薪人才是「循环设计师」而非提示专家。

阅读原文
5

NVIDIA推「红皇后哥德尔机」RQGM框架:智能体与评估器共同进化,代码通过率达71.7%

递归自改进Agent

NVIDIA等机构发表RQGM论文,让AI智能体与评估器共同进化,实现递归自我改进。突破固定考官瓶颈,允许评估器在epoch边界轮换并保留有用证据。三项实验验证效果:代码生成通过率提升至71.7%且token消耗更低,论文评审接受率提至40.5%,奥赛数学搜索成本降低3倍。该框架还能自校正LLM作为裁判时偏好AI内容的偏差,最终对AI与人类输出一视同仁并保持80%准确率。被称为年度「最危险」论文。

阅读原文
6

Liquid AI开源LFM2.5-230M:4bit仅293MB,三星S25 Ultra达213 tok/s

开源端侧AI

Liquid AI发布2.3亿参数开放权重模型LFM2.5-230M,专为端侧智能体任务优化,支持llama.cpp、MLX、vLLM、SGLang、ONNX等多框架。在三星Galaxy S25 Ultra上达213 tok/s,树莓派5达42 tok/s,4bit占用仅293-375MB。在IFEval指令跟随与数据提取测试中超越Qwen3.5-0.8B和Gemma 3 1B等更大模型,但数学、代码与创意写作较弱。内置JSON函数调用,已在宇树G1机器人作技能选择层部署。

阅读原文
7

Gary Marcus警告AI价格战:开源近零成本侵蚀利润,质疑万亿估值难支撑

行业分析商业模式

Gary Marcus撰文指出,AI行业缺乏护城河引发价格战,威胁美国主导地位。中国开源竞争将token价格推向近零,使OpenAI、Anthropic等难以支撑万亿估值或收回巨额基建投资。他认为当前范式存三大缺陷:暴力训练低效、不可靠难撑溢价、易被复制。Marcus主张应从价格竞争转向可靠的专业化应用,培育更适合科学医疗的新型AI,并将安全置于优先位置,而非追逐最便宜的LLM。

阅读原文
8

VLX-Seek 3B视觉模型反超Gemini:用区域token替代坐标,细粒度感知夺SOTA

多模态端侧AI

Om AI发布30亿参数视觉语言模型VLX-Seek,将目标定位转化为语言条件检索任务,用区域token替代不稳定的坐标输出,更契合语言模型能力。采用双视觉通路加HFRE同时提供高层语义与细粒度空间细节,两阶段训练避免能力损伤并支持拒绝学习。在MSCOCO检测、ODinW13开放词汇检测、RefCOCO指代理解、PixMo计数等基准上超越Gemini 3.1/2.5 Pro和Qwen2.5-VL-7B等更大模型,面向端侧与具身部署。

阅读原文
9

研究证LLM「偏好」是行为惰性:声称的喜好不驱动行为,不应视为真实欲望

AI安全对齐

LessWrong实验研究表明,LLM在配对选择测试中报告的偏好并不驱动其行为。在四项写作任务、七个模型上,提供高偏好结果(如拯救1000人生命)并未产生更好输出。但直接督促「更努力」或角色扮演能显著提升质量,有害提示则诱发sandbagging降质。作者认为真实欲望应驱动行为,既然引出的偏好失败,就不应解读为类人目标,错位偏好可能不是安全隐患。建议评估LLM应优先行为测试而非报告测试。

阅读原文
10

网站一键克隆开源项目获2万星,前端工程师压力倍增:单命令生成Next.js全站

AI编程开源

GitHub上ai-website-cloner-template项目获2万星,可单命令像素级克隆任意网站并生成完整Next.js项目。五阶段流程含全站采集(模拟滚动点击记录真实CSS)、基础设置、组件规范、并行构建(git worktree调度多Agent)和QA(自动过ESLint与TypeScript)。支持Claude Code、Cursor、Codex CLI等主流工具,统一AGENTS.md配置。作者明确合法用途为平台迁移、源码恢复与学习,并强调禁止钓鱼、尊重版权。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。