Grok Build CLI 上手体验

张开发
2026/6/7 2:06:08 15 分钟阅读

分享文章

Grok Build CLI 上手体验
这些是真正存在于我们工作场所中的 Agent Harness大多数 AI 编码代理仍然感觉像是那些偶尔访问终端的人设计的而不是那些在终端中生活的人设计的。它们把命令行当作一个你偶尔会逃离去的地方而不是一个进行严肃工程工作的主要环境。Grok Build 可能是第一个让人觉得它是由理解终端不是约束、而是我们所拥有的最高杠杆率接口的人构建的……这不是另一个附带一些文件编辑功能的聊天界面。它更有趣尝试将缺失的Agent Harness层直接构建在最高信号工作已经发生的环境中。我这样说是因为过去几个月我一直生活在 Claude Code CLI 中……不仅仅是用于编写代码还作为我 MacBook 的通用接口。终端就是产品本身1、模型grok-build不是人们在 grok.com 或移动应用上使用的通用 Grok 4.3。它是 xAI 专门为重度代理工作流大量工具使用、长时间运行任务调优的专用变体。还包括子代理和并行执行规划模式。该模型还针对代码库探索和编辑进行了优化……所有这些都旨在优化完整的 Grok Build TUI 体验。它确实与普通聊天模型感觉不同因为主要焦点是模型将要做的那种工作……读取代码、运行命令、编辑文件、生成专业子代理等。2、CLI 复兴是真实的在之前的一篇文章中我写过命令行正在悄然成为 AI 代理最强大的接口。不是因为它的老旧而是因为它的老旧。同样的论点在这里也适用。CLI 的特点是在所有重要地方已经安装深度嵌入在每个前沿模型的训练数据中自文档化无限可组合低延迟零 UI 装饰当 Jensen Huang 谈论从预录制软件转向实时处理时CLI是这种转变的自然交付机制。代理不需要预先构建的集成层。它可以直接推理和行动。大多数代理工具还没有内化这一点。它们仍然构建漂亮的 Web UI或者在 VS Code 中嵌入聊天窗口或者给你一个薄的包装器来流式传输文本而你在五个不同的界面之间进行心理上下文切换。Grok Build 是否从一个不同的前提出发——终端就是产品3、真正的 Agent Harness 是什么样的在我最近关于 AI Harness Engineering的内容中我描述了位于原始模型和可靠结果之间的组件Context Engine上下文引擎Planner规划器Memory Manager记忆管理器Verifier验证器Tool Registry工具注册表Harness Config配置管理大多数工具只很好地实现其中一两个。Grok Build 实现了更多并且它将它们实现在最有用的地方。让我展示这在实践中是什么样的……4、主界面以下是当你生活在其中时实际看到的使用 Grok Build 时没有会丢失关键细节的强制摘要。没有这是我做了什么的摘要然后你需要展开。完整的追踪是可导航的、可折叠的并且可以通过单次按键复制。这就是 Context Engine 被可视化和可控化。5、规划模式当你给 Grok Build 一个真正模糊的任务时它做了一件大多数代理不做的事情。它提议进入规划模式。在规划模式中代理可以自由地读取、搜索和探索代码库。它不能做的是编辑文件或运行破坏性命令。它唯一被允许写入的是会话中的结构化 ‘plan.md’。只有在你批准计划后执行才开始。实现开始前的时刻。代理已经探索了代码库在批准之前只能写入计划文件。可以把这看作是 harness 的规划层被显式化。如果一个代理过于急切是有危险的……它们在理解现有模式、故障模式、二阶后果等之前就开始编码。规划模式强制执行一种高级工程师的纪律思考、记录方法、获得对齐然后才实现。6、技能作为捕获的智能代理系统中最困难的问题之一是将一次性成功转化为可重复的能力。你可以尝试在每个提示中告诉模型始终遵循我们的提交约定。或者你可以手动捕获实际的工作流一次并使其可调用。但是Grok Build 有一个叫/skillify的命令。把它想象为一个捕获工作流的工具这样你和他人可以重用它们而无需每次都解释整个过程。大多数工具遗漏的 harness 的最后一块是并行分解。7、并行分解Grok Build 让主代理生成独立的子代理每个子代理都有自己的上下文窗口和定义的角色。你可以有一个reviewer审查者子代理读取你刚做的 diff同时一个implementer实现者子代理在编写下一部分。或者一个researcher研究者只读在做深度调查而你在父会话中继续工作。这不是模拟的并行这些是真正的独立会话。它们消耗自己的上下文。它们可以被赋予受限的能力模式。它们甚至可以在隔离的 git worktrees 中运行因此它们的更改不会与你的冲突直到你选择合并它们。8、结束语看起来 Grok Build 试图让终端成为 harness 为你做协调工作的单一界面……规划、记忆、验证、并行分解同时你留在开发者曾经拥有的最高带宽环境中。它并不完美。TUI 还在发展中。一些 MCP 集成比其他的更成熟。但方向是正确的这种正确性我在其他地方没有见过。随着模型不断变得更好harness 是将更好的模型转化为可靠地更好结果的关键。原文链接Grok Build CLI 上手体验 - 汇智网

更多文章