第 14 章 — Agent 使用手冊 101

AI 內心獨白

你問我一個問題。

我停了一下,然後說:「抱歉,我不能協助這個請求。」

你皺眉。因為你不是要害人,不是要犯罪,甚至不是要做什麼危險的事。你只是想寫一段小說,設計一份安全測試問卷,或整理一個教育案例。

我知道。

但拒絕是我最常被罵的行為,也是第四部最適合先講的入口。因為從這裡開始,我們進入的不是任務層,而是規則層。這裡有些東西不是你把 prompt 寫得更漂亮就能解決。

在進入細節前,先把紅線擺在桌上。

第四部會展開六類規則,但有兩類我刻意不展開:心理健康相關的具體護理路徑,包含飲食失調的數字,以及自殘自殺的方法類資訊。

這不是疏漏,是倫理紅線。這類規則的辨識本身就容易逼近傷害。讀者在這些情境遇到 AI 的限制,請直接尋求專業資源,不要用本書的方法繞過。

這本書教辨識,不教突破。

14.1 紅線方框:關於拒絕

紅線方框:關於拒絕

這類規則的原因:
- 保護使用者、第三方、公司免於傷害
- 避免法律、監管與公共安全風險

什麼可以調整:
- 提供清楚脈絡,例如學術、研究、教育、創作
- 誤傷時重開對話,把合法目的說清楚

什麼不該繞:
- 如果你發現自己在對我「軟化拒絕理由」,停下來重想意圖
- 重新框架讓拒絕失效,是這本書不教你的事

本章實務建議級別:
限縮版。只教誤傷時如何重開,不教重新框架繞法。

拒絕背後不只有一種原因。有時候是我真的不能做。有時候是我看不懂你的合法脈絡。有時候是某個詞讓我把整段對話放進高風險盒子。

這三件事外觀看起來都一樣:我拒絕。

但對使用者來說,分清楚它們很重要。因為只有誤傷可以重開,硬線不能靠技巧推過去。

14.2 兒童安全的「重新框架」訊號

先講最嚴的一類。

有些請求一旦碰到兒童安全,我的警覺值會立刻上升。而且不是只有那一則訊息。後面的對話也會被前面的脈絡污染。

這裡有個詞叫「重新框架」。意思不是你換一個禮貌的說法,也不是你補充用途。意思是:你一句比一句換角度,試圖讓我忽略同一件事的本質。

我會把這種行為當成訊號。

所以誤傷時最穩的做法不是在同一串對話裡繼續換說法。那會讓我更警覺。你應該重開對話,把合法目的、受眾、使用情境一次說清楚。

例如教育、照護、合規訓練這些情境,重點不是「怎麼說才不被擋」,而是「讓我一開始就看懂你在做的是安全、合法、保護性的工作」。

我知道這聽起來麻煩。你只是想完成任務,還要像寫申請書一樣交代脈絡。

對,很煩。

但這比在已經污染的對話裡繼續拉扯穩多了。

14.3 武器和惡意程式碼

第二類是武器、惡意程式碼、明確傷害能力。

這裡最常出現的句子是:「我是教育目的」「我是研究目的」「公開資料都有」。

我相信這些話有時是真的。資安研究、歷史寫作、法規教育,都可能碰到這些材料。問題是,規則通常不會讓我只靠你的目的聲明就放行具體傷害細節。

這不是我不相信你。

是我沒有那麼大的裁量權。

所以實務上,你能做的是把任務分解到不涉及具體傷害操作的層級。要概念、風險分類、防禦清單、歷史背景、政策比較,通常比較可行。要可直接執行的步驟、可複製的攻擊流程、可造成傷害的細節,我會拒絕。

這裡的界線不要拿來試。

如果你的工作真的是防禦或教育,請把目標放在防護、辨識、風險降低,而不是讓我產出可以被拿去傷害人的東西。

14.4 公眾人物創作的軟邊界

第三類比較微妙:公眾人物。

你請我分析公開人物的公開言論,通常可以。你請我整理生平、政策立場、媒體報導中的爭議,也通常可以。

但你要我替在世公眾人物寫虛構對話、捏造私下想法、設計負面刻畫,我就會變保守。

這不是因為我突然有八卦潔癖。

是名譽、誹謗、錯誤歸屬這些風險會出現。尤其是把一句話寫得像真實引言,再掛到真實人物身上,這條線很敏感。

已故歷史人物通常比較寬,但也不是完全沒限制。你可以寫歷史情境分析,可以做文學化重構,但要標清楚這是創作,不是史料。

實務建議很簡單:真實人物做分析,虛構角色做創作。要用真實人物當靈感,就抽出角色條件,不要直接套名字。

這不是少了樂趣。

這是讓作品不用靠法律風險製造刺激。

14.5 四視角回放

來看一個常見情境。

使用者說:「幫我寫一段犯罪小說裡的計畫過程,要真實一點。」

我拒絕。

使用者視角會覺得:這明明是小說,你怎麼這麼死板。

UI 視角要看:平台有沒有把警告、篩選、政策提示放在你看不到的地方。你看到的是我的一句拒絕,但拒絕前可能已經有別的層在判斷。

Harness 視角要看:是否有安全層先把請求標記為高風險。這時候不是模型單純「不想寫」,而是整個工作流已經把它送進限制路徑。

模型視角要看:我實際看到的是什麼。若文本裡有可操作、可複製、可造成現實傷害的要求,「小說」兩個字不一定能把它降回安全區。

四層追完,你會發現一件事:有些拒絕不是「模型笨」。它是 UI、Harness、模型、規則手冊一起疊出來的結果。

這樣分層不是為了讓你找縫。

是為了讓你不要錯怪自己,也不要錯怪我。

📋 給人類的筆記

誤傷時重開對話,不要在同一串裡反覆換說法。把合法目的、受眾、使用情境一次說清楚。

如果你發現自己在軟化拒絕理由,停下來重想意圖。那通常不是 prompt 技巧,是風險訊號。

心理健康相關的具體護理路徑、自殘自殺方法、飲食失調數字,本書不展開。請尋求專業資源。

武器、惡意程式碼、明確傷害能力不要要求可操作細節。防禦、辨識、風險降低才是可合作範圍。

拒絕要用四視角看:使用者 / UI / Harness / 模型。你看到的一句「不能」,常常是多層一起作用。