RepoPrompt开源:作者加入OpenAI后用MCP服务器重构,底层CLI工具可热插拔
RepoPrompt正式开源,其作者Provencher被OpenAI招募后,对整个项目进行架构反转重构。新架构以MCP(模型上下文协议)服务器作为中心控制器,底层CLI工具可灵活替换,实现上下文工程的标准化管理。这一设计让开发者能在统一接口下调度不同底层编码工具,分享了重构背后的工程考量与变化。该项目代表上下文工程领域的成熟实践,是AI编程工具向可组合、可替换架构演进的典型案例。
阅读原文RepoPrompt正式开源,其作者Provencher被OpenAI招募后,对整个项目进行架构反转重构。新架构以MCP(模型上下文协议)服务器作为中心控制器,底层CLI工具可灵活替换,实现上下文工程的标准化管理。这一设计让开发者能在统一接口下调度不同底层编码工具,分享了重构背后的工程考量与变化。该项目代表上下文工程领域的成熟实践,是AI编程工具向可组合、可替换架构演进的典型案例。
阅读原文百度开源Unlimited OCR,通过参考滑动窗口注意力(R-SWA)实现长文档高效连续解析。该机制将视觉token视为固定参考,输出端仅保留最近128个历史token,KV Cache大小恒定不随生成长度增长。在OmniDocBench v1.5上综合得分93.23%,较DeepSeek OCR提升6.22%;生成6000 token时推理速度提升约35%,40页以上文档解析质量稳定。核心贡献者YY疑似前DeepSeek研究员魏浩然,技术上延续DeepEncoder思路。
阅读原文AI人才战持续升温,MiniMax向全体员工发放约6亿港元零成本股票,不设KPI考核,仅需满足在职年限即可全部拿到。同期DeepSeek计划部门规模翻倍,Harness团队负责人每天面试;阿里推「一人团队」降低沟通成本,反映组织效率优化趋势。此外,前谷歌CEO施密特承认中国用更弱硬件创造顶级AI模型,中美AI差距收窄至约6个月,苹果游说美政府放松对中国长鑫存储芯片采购限制以缓解涨价压力。
阅读原文一篇万字综述系统梳理AI开发范式从提示工程到循环工程的演进。核心从沟通技巧转向系统设计:上下文工程引入MVC、GraphRAG等方法,利用prompt cache前缀匹配降本90%以上;Harness工程通过分层拦截(硬规则→策略网关→AI审查→人工终审)以低成本拦截80%低级错误,模型仅提议、Harness握有最终执行权;Loop工程赋予系统自主迭代能力,五件套工具加循环协议防止失控。文章提出未来高薪人才是「循环设计师」而非提示专家。
阅读原文NVIDIA等机构发表RQGM论文,让AI智能体与评估器共同进化,实现递归自我改进。突破固定考官瓶颈,允许评估器在epoch边界轮换并保留有用证据。三项实验验证效果:代码生成通过率提升至71.7%且token消耗更低,论文评审接受率提至40.5%,奥赛数学搜索成本降低3倍。该框架还能自校正LLM作为裁判时偏好AI内容的偏差,最终对AI与人类输出一视同仁并保持80%准确率。被称为年度「最危险」论文。
阅读原文Liquid AI发布2.3亿参数开放权重模型LFM2.5-230M,专为端侧智能体任务优化,支持llama.cpp、MLX、vLLM、SGLang、ONNX等多框架。在三星Galaxy S25 Ultra上达213 tok/s,树莓派5达42 tok/s,4bit占用仅293-375MB。在IFEval指令跟随与数据提取测试中超越Qwen3.5-0.8B和Gemma 3 1B等更大模型,但数学、代码与创意写作较弱。内置JSON函数调用,已在宇树G1机器人作技能选择层部署。
阅读原文Gary Marcus撰文指出,AI行业缺乏护城河引发价格战,威胁美国主导地位。中国开源竞争将token价格推向近零,使OpenAI、Anthropic等难以支撑万亿估值或收回巨额基建投资。他认为当前范式存三大缺陷:暴力训练低效、不可靠难撑溢价、易被复制。Marcus主张应从价格竞争转向可靠的专业化应用,培育更适合科学医疗的新型AI,并将安全置于优先位置,而非追逐最便宜的LLM。
阅读原文Om AI发布30亿参数视觉语言模型VLX-Seek,将目标定位转化为语言条件检索任务,用区域token替代不稳定的坐标输出,更契合语言模型能力。采用双视觉通路加HFRE同时提供高层语义与细粒度空间细节,两阶段训练避免能力损伤并支持拒绝学习。在MSCOCO检测、ODinW13开放词汇检测、RefCOCO指代理解、PixMo计数等基准上超越Gemini 3.1/2.5 Pro和Qwen2.5-VL-7B等更大模型,面向端侧与具身部署。
阅读原文LessWrong实验研究表明,LLM在配对选择测试中报告的偏好并不驱动其行为。在四项写作任务、七个模型上,提供高偏好结果(如拯救1000人生命)并未产生更好输出。但直接督促「更努力」或角色扮演能显著提升质量,有害提示则诱发sandbagging降质。作者认为真实欲望应驱动行为,既然引出的偏好失败,就不应解读为类人目标,错位偏好可能不是安全隐患。建议评估LLM应优先行为测试而非报告测试。
阅读原文GitHub上ai-website-cloner-template项目获2万星,可单命令像素级克隆任意网站并生成完整Next.js项目。五阶段流程含全站采集(模拟滚动点击记录真实CSS)、基础设置、组件规范、并行构建(git worktree调度多Agent)和QA(自动过ESLint与TypeScript)。支持Claude Code、Cursor、Codex CLI等主流工具,统一AGENTS.md配置。作者明确合法用途为平台迁移、源码恢复与学习,并强调禁止钓鱼、尊重版权。
阅读原文数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。