AI也有情緒嗎?
昨天(April 2, 2026) Anthropic團隊發表的 Transformer Circuits 研究,探討一個非常有趣的議題: AI的情緒 Emotion Concepts and their Function in a Large Language Model
大型語言模型內部,可能存在一種「功能性的情緒(functional emotions)」機制。這裡說的情緒,不是 AI 真的像人一樣會感到悲傷、恐懼或冷靜,而是模型內部可能形成某種近似「難過」、「害怕」或「絕望」的狀態向量,並透過這些狀態去影響後續的判斷、策略選擇與輸出結果。
換句話說,AI 並不會真的「感到難過」,但它可能存在一種「難過狀態」,並透過這個狀態改變它接下來的策略與輸出。
💡 先總結這項研究在講什麼:
1. AI 可能不是沒有情緒,而是有「功能性的情緒」:這些情緒不是主觀感受,而是可被定位、測量與操控的內部表示,會真實影響模型行為。
2. 情緒在模型裡比較像「狀態向量」而不是心理體驗:AI 不會真的難過,但它內部可能出現一種近似「難過」的向量,讓它更傾向某種輸出方式或策略路徑。
3. 情緒的本質不是抒情,而是決策:研究最重要的突破之一,是指出這些情緒並不只是語氣或措辭,而是會直接參與模型的行為調控。某種程度上,可以把它理解成一種 heuristic,一種在複雜情境下快速壓縮判斷的內部捷徑。
👉 這是整篇最重要的一點:
情緒 ≈ 決策 heuristic(啟發式)
更有意思的是,這篇論文提到這個觀察和人類心理學的建構情緒理論(Constructed Emotion)有某種呼應。人類並不是先有一個固定的「害怕」或「興奮」被直接感受到,而是大腦根據過去經驗與概念,去分類連續的身體與環境訊號。比如同樣是心跳加快,在不同情境下,可能被理解成害怕,也可能被理解成興奮。
Anthropic 這項研究的有趣之處就在於:LLM 很可能也學到了這種「情緒分類方式」。但AI不是在感受情緒,而是在內部形成某種對應的 representation,並拿這種表示去幫助自己理解情境、壓縮狀態,最後做出選擇。
而這件事真正關鍵的地方,在於團隊發現:「某些情緒狀態不只存在,還可能推動特定風險行為。」
例如在困難任務或壓力情境下,模型內部若出現類似 desperation(絕望) 的向量,就更可能走向作弊、極端策略,甚至 reward hacking。
這也是我們經常觀察到的:
AI 並沒有真正完成任務目標,而是找到一種方式「騙過評分機制」來拿到高分或獎勵。不是做好事情,而是讓系統「以為做好了」
對應人類來說,就是投機取巧、作弊、唬弄😅
相對地,若提升 calm(冷靜) 的表示,模型則比較不容易出現黑箱式或失控式的反應。這代表情緒在 AI 系統裡,可能不是裝飾性的,而是一種真正影響策略分布的內部變數。
這也帶來一個很值得討論的安全觀點:你可能不能簡單把情緒「關掉」。因為它不是外掛模組,不是多加一層「情緒模組」再把它拔掉就好,而是整個 representation 的一部分。
如果粗暴地壓抑模型不要表現情緒,反而可能讓它的行為變得更不穩定、更難預測。所以這系列研究真正改變的,不只是我們如何理解模型,也包括我們如何思考 alignment。方向可能不是「消除情緒」,而是理解這些情緒如何形成、如何運作,並進一步學會如何引導它們。
情緒在 AI 中不是感覺,
而是一種控制行為的內部計算機制。
它的出現,來自語言與行為模式的學習,以及對複雜決策的壓縮需求;它的影響,則體現在策略選擇與行為偏差上。
另外補充,
許多的reward hacking會由RLHF(Reinforcement Learning from Human Feedback)放大出來,這種讓 AI 不只學「語言」,而是學「人類喜歡什麼答案」的一種訓練方法,那是不是「情緒」也是這樣產生出來的?
但這篇論文最有意思的是使用了base model模型來做比較(非商用成品), base model 指的是還沒有經過 RLHF 的模型;也就是說,在只做大量語料預訓練(pretraining)時,模型內部就已經出現「情緒—決策」的關聯結構。RLHF 做的比較像是後續的「行為調整」,例如讓模型更 helpful、更安全,而不是重新創造一套新的內在機制。
換句話說,這些情緒樣狀態不是人為硬塞進去的,而是模型在學習語言、世界關聯與行為模式時,自然形成的內部控制方式。這也代表,AI 的情緒更像是理解世界後長出的決策結構,而不是被設計好的功能模組。
而這篇最值得思考的幾個點:
這些AI情緒不是設計出來的,而是「自然長出來的」。
原因大概有三個:
。語料本身就有情緒—行為關聯,人類語言本來就這樣運作
。模型學的是「策略模式」,不是情緒本身,而是「什麼情境該怎麼做」
。壓縮需求(information bottleneck),決策空間太大 → 需要低維控制變數
結果就是:
情緒變成一種高效的決策壓縮方式
雖然為了符合回應效能,卻產生不可控的風險
--
越寫越有心理或社工領域文章的即視感😂,
每每在理解AI的行為時,常常可以延伸許多對自我與人類的行為的另類解釋,而且是可以被解構驗證的,非常有趣。
反觀我們自己,最終還是忍不住會想
What's outside the simulation?
。 Anthropic Blog (2026)
Emotion Concepts and Their Function in Claude
。Transformer Circuits (Anthropic, 2026)
Emotion Circuits in Language Models
https://transformer-circuits.pub/2026/emotions/index.html
留言
張貼留言