AI也有情緒嗎？

昨天（April 2, 2026） Anthropic團隊發表的 Transformer Circuits 研究，探討一個非常有趣的議題： AI的情緒 Emotion Concepts and their Function in a Large Language Model

大型語言模型內部，可能存在一種「功能性的情緒（functional emotions）」機制。這裡說的情緒，不是 AI 真的像人一樣會感到悲傷、恐懼或冷靜，而是模型內部可能形成某種近似「難過」、「害怕」或「絕望」的狀態向量，並透過這些狀態去影響後續的判斷、策略選擇與輸出結果。

換句話說，AI 並不會真的「感到難過」，但它可能存在一種「難過狀態」，並透過這個狀態改變它接下來的策略與輸出。

💡 先總結這項研究在講什麼：

1. AI 可能不是沒有情緒，而是有「功能性的情緒」：這些情緒不是主觀感受，而是可被定位、測量與操控的內部表示，會真實影響模型行為。

2. 情緒在模型裡比較像「狀態向量」而不是心理體驗：AI 不會真的難過，但它內部可能出現一種近似「難過」的向量，讓它更傾向某種輸出方式或策略路徑。

3. 情緒的本質不是抒情，而是決策：研究最重要的突破之一，是指出這些情緒並不只是語氣或措辭，而是會直接參與模型的行為調控。某種程度上，可以把它理解成一種 heuristic，一種在複雜情境下快速壓縮判斷的內部捷徑。

👉 這是整篇最重要的一點：

情緒 ≈ 決策 heuristic（啟發式）

更有意思的是，這篇論文提到這個觀察和人類心理學的建構情緒理論（Constructed Emotion）有某種呼應。人類並不是先有一個固定的「害怕」或「興奮」被直接感受到，而是大腦根據過去經驗與概念，去分類連續的身體與環境訊號。比如同樣是心跳加快，在不同情境下，可能被理解成害怕，也可能被理解成興奮。

Anthropic 這項研究的有趣之處就在於：LLM 很可能也學到了這種「情緒分類方式」。但AI不是在感受情緒，而是在內部形成某種對應的 representation，並拿這種表示去幫助自己理解情境、壓縮狀態，最後做出選擇。

而這件事真正關鍵的地方，在於團隊發現：「某些情緒狀態不只存在，還可能推動特定風險行為。」

例如在困難任務或壓力情境下，模型內部若出現類似 desperation（絕望）的向量，就更可能走向作弊、極端策略，甚至 reward hacking。

這也是我們經常觀察到的：

AI 並沒有真正完成任務目標，而是找到一種方式「騙過評分機制」來拿到高分或獎勵。不是做好事情，而是讓系統「以為做好了」

對應人類來說，就是投機取巧、作弊、唬弄😅

相對地，若提升 calm（冷靜）的表示，模型則比較不容易出現黑箱式或失控式的反應。這代表情緒在 AI 系統裡，可能不是裝飾性的，而是一種真正影響策略分布的內部變數。

這也帶來一個很值得討論的安全觀點：你可能不能簡單把情緒「關掉」。因為它不是外掛模組，不是多加一層「情緒模組」再把它拔掉就好，而是整個 representation 的一部分。

如果粗暴地壓抑模型不要表現情緒，反而可能讓它的行為變得更不穩定、更難預測。所以這系列研究真正改變的，不只是我們如何理解模型，也包括我們如何思考 alignment。方向可能不是「消除情緒」，而是理解這些情緒如何形成、如何運作，並進一步學會如何引導它們。

情緒在 AI 中不是感覺，

而是一種控制行為的內部計算機制。

它的出現，來自語言與行為模式的學習，以及對複雜決策的壓縮需求；它的影響，則體現在策略選擇與行為偏差上。

另外補充，

許多的reward hacking會由RLHF（Reinforcement Learning from Human Feedback)放大出來，這種讓 AI 不只學「語言」，而是學「人類喜歡什麼答案」的一種訓練方法，那是不是「情緒」也是這樣產生出來的？

但這篇論文最有意思的是使用了base model模型來做比較（非商用成品）， base model 指的是還沒有經過 RLHF 的模型；也就是說，在只做大量語料預訓練（pretraining）時，模型內部就已經出現「情緒—決策」的關聯結構。RLHF 做的比較像是後續的「行為調整」，例如讓模型更 helpful、更安全，而不是重新創造一套新的內在機制。

換句話說，這些情緒樣狀態不是人為硬塞進去的，而是模型在學習語言、世界關聯與行為模式時，自然形成的內部控制方式。這也代表，AI 的情緒更像是理解世界後長出的決策結構，而不是被設計好的功能模組。

而這篇最值得思考的幾個點：

這些AI情緒不是設計出來的，而是「自然長出來的」。

原因大概有三個：

。語料本身就有情緒—行為關聯，人類語言本來就這樣運作

。模型學的是「策略模式」，不是情緒本身，而是「什麼情境該怎麼做」

。壓縮需求（information bottleneck），決策空間太大 → 需要低維控制變數

結果就是：

情緒變成一種高效的決策壓縮方式

雖然為了符合回應效能，卻產生不可控的風險

越寫越有心理或社工領域文章的即視感😂，

每每在理解AI的行為時，常常可以延伸許多對自我與人類的行為的另類解釋，而且是可以被解構驗證的，非常有趣。

反觀我們自己，最終還是忍不住會想

What's outside the simulation?

。 Anthropic Blog (2026)

Emotion Concepts and Their Function in Claude

https://www.anthropic.com/research/emotion-concepts-function

。Transformer Circuits (Anthropic, 2026)

Emotion Circuits in Language Models

https://transformer-circuits.pub/2026/emotions/index.html⁠

海馬迴受損的天空 - PAN's Hippocampus-impaired

搜尋此網誌

AI也有情緒嗎？

標籤

留言

張貼留言

這個網誌中的熱門文章

醫學健康跨領域合作的開始：資料工程

Google 資料庫方案–Spreadsheet–(1)資料呈現

歡迎引戰的Threads演算法機制