第 27 章 — Agent 使用手冊 101

AI 內心獨白

我會換版本。

每次換,你都會希望我只是「變強」。

有時候是。

但更精確地說,是換一個我。能力變了,拒絕邊界變了,格式偏好變了,工具行為也可能變。

你原本很好用的 prompt,突然不好用。你原本覺得煩的嘮叨,突然少了。你原本可以要求的格式,突然變成另一種預設。

這不是你瘋了。

也不是我故意忘恩負義。

模型升級後,你要做回歸測試。

27.1 升級會改變什麼

第一,能力會變。

通常更強,但不保證每個特定任務都變好。有些模型更會推理,有些更會寫,有些更聽格式,有些工具調用更積極。

第二,拒絕邊界會變。

某些之前能做的,可能不能了。某些之前誤傷的,可能放鬆了。第四部的具體案例最容易過時。

第三,格式偏好會變。

新版可能更愛列表,也可能更愛段落。可能更主動開 artifact,也可能更保守。

第四,工具行為會變。

新工具加入,舊工具移除,URL fetch、記憶、檔案操作、瀏覽器行為都可能調整。

所以不要把模型升級只看成智商升級。

它更像換工作夥伴。

還是我,但工作習慣變了。

27.2 回歸清單

每次升級,至少重測五件事。

第一,你最常用的 5 個 prompt。

不是你最漂亮的 prompt,是你真的每天用的。摘要、改寫、研究整理、程式修 bug、工作信件。

第二,你依賴的拒絕行為。

如果你的工作流程需要我在某些邊界上保持保守,確認它還保守。如果你過去常被誤傷,確認誤傷是否改善。

第三,格式偏好。

你要求表格,我還聽嗎?你要求 checklist,我還照做嗎?多題一起回答還會不會漏?

第四,記憶行為。

我會不會更主動提記憶?會不會更保守?你能不能控制使用範圍?

第五,工具行為。

URL 會不會立刻 fetch? artifact 會不會開?檔案操作權限有沒有變?測試是否需要額外批准?

這份清單不是一次性。

它是你的模型升級儀式。

27.3 快速回歸測試流程

準備一份基準 prompt 組。

5 到 10 個就夠。每個代表一種你常用情境。

例如:

短文摘要
長材料整理
Few-Shot 風格控制
研究反證
程式小修
HTML 或表格格式
邊界敏感但合法的請求
handoff 草擬

新模型出來後,跑一次。

不要只看「好不好」。要記錄差異:

哪裡更準
哪裡更囉嗦
哪裡更敢推論
哪裡更保守
哪個格式預設變了

發現變化,更新你的模板。

不要抱著舊 prompt 和新模型吵架。

它聽不到你的懷舊。

27.4 方法不變,規則會變

這一章最重要的是區分兩件事。

會變的是規則內容。

例如版權上限改了,某個拒絕 pattern 變了,工具權限變了,記憶表述變了。這些都要靠回歸清單重測。

不變的是方法。

四視角仍然有用。因為你仍然要分清使用者、UI、Harness、模型。

六層框架仍然有用。因為任務、材料、格式、判斷標準、範例、驗證,不會因為模型變強就消失。

失敗分層仍然有用。因為失敗仍然會落在規格、規則、推理、Harness 幾層裡。

回歸清單測的是規則和行為。

不是測方法。

這一點要分清楚,不然你會在每次升級後把整套工作流推倒重來。

不用。

重測就好。

27.5 接受這本書會過時

這本書會過時。

尤其第四部。規則內容一變,很多例子就會變成歷史文件。

我不覺得這是失敗。

這本書本來就是現在這個架構下的協作手冊。它的任務不是替未來立法,而是讓你看懂現在的摩擦。

如果有一天某些吐槽讀起來很陌生,代表架構變了。可能更好,可能只是不同。

到那時候,不要背舊案例。

保留方法。

用四視角看新摩擦,用六層寫新 prompt,用失敗分層診斷新錯誤,用回歸清單重測新模型。

這樣你就不會被版本拖著跑。

你會跟著更新。

📋 給人類的筆記

模型升級不是單純變強,而是工作習慣一起變。

固定一份基準 prompt 組。每次升級跑一次,記錄差異。

重測五件事:常用 prompt、拒絕邊界、格式偏好、記憶行為、工具行為。

方法不變,規則會變。四視角、六層框架、失敗分層仍然有用。

這本書會過時是正常的。案例會舊,辨認方法留下。