Codex

数据线索来自 AI HOT；事实核验以 Cursor、OpenAI、GitHub、xAI 等官方公告为准。一句话结论 AI 编程工具正在跨过一个关键分界线：过去比的是谁更会补全、谁生成的代码更像人写；现在比的是谁敢让智能体自主工作更久、接触更多系统，同时仍然让团队知道它做了什么、为什么这样做，以及出错后如何阻止它。这意味着下一阶段真正稀缺的能力，不再只是一个更强的代码模型，而是一套围绕智能体建立的工程治理系统。最近一周，四家公司在做同一件事表面上看，最近几天的 AI 编程新闻彼此独立： 6 月 11 日，Cursor 发布 Auto-review，让分类器智能体根据任务风险动态决定主智能体可以自主执行到什么程度。 6 月 11 日，OpenAI 为 Codex 推出浏览器开发者模式，使它能够检查页面、执行 JavaScript、读取控制台日志和网络请求。 6 月 10 日，GitHub 介绍 Copilot CLI 的语言服务器支持，让智能体获得定义跳转、引用查找和实时诊断等结构化代码理解能力。 xAI 推出 Grok Build Plugin Marketplace，允许通过插件扩展编码智能体的工具和能力。它们共同解决的并不是“再多生成几行代码”，而是四个更接近真实工程的问题：问题产品正在补上的能力智能体应该被允许做多少事？动态权限与自主程度控制智能体能否看到真实运行状态？浏览器、日志、网络与运行时工具智能体是否真正理解代码库？语言服务器与结构化代码上下文团队如何复用和管理能力？插件、技能和自定义智能体这四项能力拼在一起，才构成一个可以长期工作的工程智能体。从“生成代码”到“获得权限” 传统代码助手的风险很低：它给出建议，人类决定是否接受。自主智能体不同。它会读取仓库、修改文件、运行命令、访问浏览器，甚至根据测试结果继续修改。自主程度每提高一级，它能创造的价值和可能造成的损失都会同步放大。 Cursor 的 Auto-review 很能说明这个变化。Cursor 没有简单地给智能体设置统一权限，而是让一个分类器智能体判断任务风险，再动态控制主智能体的自主程度。低风险任务可以快速执行，高风险操作则需要更多审查。这背后的产品逻辑非常重要：智能体的自主权不应该是一个全局开关，而应该是根据任务、环境和风险实时计算的结果。企业真正需要的并不是“永远自动执行”或“每一步都让人确认”。前者风险过高，后者会让智能体退化成昂贵的聊天框。可用的方案必须在两者之间动态调整。未来 AI 编程平台很可能会像云平台一样，逐渐形成自己的权限体系：哪些仓库可读、哪些命令可执行、哪些服务可访问、哪些改动必须经过人工或另一个智能体审批。浏览器开发者模式：让智能体第一次看到“代码之外” 代码并不等于软件。 ...