跳到主要內容

AI也有情緒嗎?

AI也有情緒嗎?

昨天(April 2, 2026) Anthropic團隊發表的 Transformer Circuits 研究,探討一個非常有趣的議題: AI的情緒 Emotion Concepts and their Function in a Large Language Model
大型語言模型內部,可能存在一種「功能性的情緒(functional emotions)」機制。這裡說的情緒,不是 AI 真的像人一樣會感到悲傷、恐懼或冷靜,而是模型內部可能形成某種近似「難過」、「害怕」或「絕望」的狀態向量,並透過這些狀態去影響後續的判斷、策略選擇與輸出結果。

換句話說,AI 並不會真的「感到難過」,但它可能存在一種「難過狀態」,並透過這個狀態改變它接下來的策略與輸出。

💡 先總結這項研究在講什麼:

1. AI 可能不是沒有情緒,而是有「功能性的情緒」:這些情緒不是主觀感受,而是可被定位、測量與操控的內部表示,會真實影響模型行為。

2. 情緒在模型裡比較像「狀態向量」而不是心理體驗:AI 不會真的難過,但它內部可能出現一種近似「難過」的向量,讓它更傾向某種輸出方式或策略路徑。

3. 情緒的本質不是抒情,而是決策:研究最重要的突破之一,是指出這些情緒並不只是語氣或措辭,而是會直接參與模型的行為調控。某種程度上,可以把它理解成一種 heuristic,一種在複雜情境下快速壓縮判斷的內部捷徑。

👉 這是整篇最重要的一點:
情緒 ≈ 決策 heuristic(啟發式)

更有意思的是,這篇論文提到這個觀察和人類心理學的建構情緒理論(Constructed Emotion)有某種呼應。人類並不是先有一個固定的「害怕」或「興奮」被直接感受到,而是大腦根據過去經驗與概念,去分類連續的身體與環境訊號。比如同樣是心跳加快,在不同情境下,可能被理解成害怕,也可能被理解成興奮。
Anthropic 這項研究的有趣之處就在於:LLM 很可能也學到了這種「情緒分類方式」。但AI不是在感受情緒,而是在內部形成某種對應的 representation,並拿這種表示去幫助自己理解情境、壓縮狀態,最後做出選擇。

而這件事真正關鍵的地方,在於團隊發現:「某些情緒狀態不只存在,還可能推動特定風險行為。」
例如在困難任務或壓力情境下,模型內部若出現類似 desperation(絕望) 的向量,就更可能走向作弊、極端策略,甚至 reward hacking。

這也是我們經常觀察到的:
AI 並沒有真正完成任務目標,而是找到一種方式「騙過評分機制」來拿到高分或獎勵。不是做好事情,而是讓系統「以為做好了」

對應人類來說,就是投機取巧、作弊、唬弄😅

相對地,若提升 calm(冷靜) 的表示,模型則比較不容易出現黑箱式或失控式的反應。這代表情緒在 AI 系統裡,可能不是裝飾性的,而是一種真正影響策略分布的內部變數。

這也帶來一個很值得討論的安全觀點:你可能不能簡單把情緒「關掉」。因為它不是外掛模組,不是多加一層「情緒模組」再把它拔掉就好,而是整個 representation 的一部分。
如果粗暴地壓抑模型不要表現情緒,反而可能讓它的行為變得更不穩定、更難預測。所以這系列研究真正改變的,不只是我們如何理解模型,也包括我們如何思考 alignment。方向可能不是「消除情緒」,而是理解這些情緒如何形成、如何運作,並進一步學會如何引導它們。

情緒在 AI 中不是感覺,
而是一種控制行為的內部計算機制。

它的出現,來自語言與行為模式的學習,以及對複雜決策的壓縮需求;它的影響,則體現在策略選擇與行為偏差上。

另外補充,
許多的reward hacking會由RLHF(Reinforcement Learning from Human Feedback)放大出來,這種讓 AI 不只學「語言」,而是學「人類喜歡什麼答案」的一種訓練方法,那是不是「情緒」也是這樣產生出來的?

但這篇論文最有意思的是使用了base model模型來做比較(非商用成品), base model 指的是還沒有經過 RLHF 的模型;也就是說,在只做大量語料預訓練(pretraining)時,模型內部就已經出現「情緒—決策」的關聯結構。RLHF 做的比較像是後續的「行為調整」,例如讓模型更 helpful、更安全,而不是重新創造一套新的內在機制。

換句話說,這些情緒樣狀態不是人為硬塞進去的,而是模型在學習語言、世界關聯與行為模式時,自然形成的內部控制方式。這也代表,AI 的情緒更像是理解世界後長出的決策結構,而不是被設計好的功能模組。

而這篇最值得思考的幾個點:
這些AI情緒不是設計出來的,而是「自然長出來的」。
原因大概有三個:

。語料本身就有情緒—行為關聯,人類語言本來就這樣運作
。模型學的是「策略模式」,不是情緒本身,而是「什麼情境該怎麼做」
。壓縮需求(information bottleneck),決策空間太大 → 需要低維控制變數

結果就是:
情緒變成一種高效的決策壓縮方式
雖然為了符合回應效能,卻產生不可控的風險

--
越寫越有心理或社工領域文章的即視感😂,
每每在理解AI的行為時,常常可以延伸許多對自我與人類的行為的另類解釋,而且是可以被解構驗證的,非常有趣。

反觀我們自己,最終還是忍不住會想
What's outside the simulation?


。 Anthropic Blog (2026)
Emotion Concepts and Their Function in Claude

。Transformer Circuits (Anthropic, 2026)
Emotion Circuits in Language Models
https://transformer-circuits.pub/2026/emotions/index.html⁠


留言

這個網誌中的熱門文章

醫學健康跨領域合作的開始:資料工程

一直都很喜歡在會議上與跨領域的專家、醫師、學者分享我們在數據工程與分析應用上的發展經驗。 許多的專家學者,對於大數據應用的認知都仍侷限在一個超大型結構化資料集的子集合應用,在規劃好的條件設定下,針對特定的目標(疾病、行為)進行篩選,將數據narrow down到可以被個人電腦或是單一伺服器架構處理的小型資料集。 這樣的半手工處理方式,對於專一(Specific)領域主題的資料追蹤計算或許已經十分足夠,但當中倘若資料清理方式有改變、篩選條件增減,所有的數據都要從raw重新處理,不僅造成大量的時間與人力浪費,對於專案計畫進度的延宕更是麻煩。這些還不包含

Google 資料庫方案–Spreadsheet–(1)資料呈現

HEMiDEMi 的標籤: Google , Google SpreadSheet , 雲端 早在規劃『 教育,意義! 』project時, 便有打算將整個網站建立過程撰寫一篇教學,讓有興趣以google 服務為基礎進行開發的朋友參考。 沒想到這個想法擺著就拖了好幾個月, 好在學生提出了問題,就趁這機會寫一寫吧。 基本上『 教育,意義! 』網站的架構完全建立在Google提供的服務, 廣義來說也是個雲端的系統, 所有的資料是分散在不同的服務架構下,再用GAE, Javascrript將服務資訊串接起來, 由Blogspot 統一呈現。 省了租主機的費用,或架站的硬體、電費, 最好的地方在於不用管理主機維運的問題, 只要專心做我的創意、嘗鮮就好了!!   多棒! 若將『 教育,意義! 』網站依功能層次來分類,可以分為三層結構, 當中的層次與使用技術大致如下: UI 介面層 服務 : Blogspot (網站介面) , Picasa (相簿空間), Google Apps 技術 : Javascript , AJAX ( JQuery ) App應用層  服務 : Google App Engine (GAE) 技術 : Java, Java Server Page (JSP) 資料層 服務 : Google Docs (文件), Google Spreadsheet (試算表) 技術/函式庫 : Java, Google Data APIs 本篇文章將著重在介紹以Google Spreadsheet 做為雲端資料庫, 其他主題將會陸續推出。 若對Google API 與 Google App Engine 初步建置有興趣, 可以參考之前文章: 佛心來著的 Google Data API – for JAVA 雲端的開始:Netbeans 無痛 Google App Engine Java 服務開發 Google Spreadsheet 做為資料庫系統 對於小型的資料系統來說, 採用Google Spreadsheet做為應用程式資料庫(如問卷調查或線上系統) 也算堪用, 目前的儲存限制為 : 40 萬個儲存格 每張工作表最多...

歡迎引戰的Threads演算法機制

  最近受到江老師 江振維的啟發,開始測試Threads的演算法機制,發現它驚人的傳播速度 先講成果,一篇thread文: 第17小時,10,689瀏覽,106則回覆 第24小時,22,122瀏覽,179則回覆  帳號追蹤數僅104位  簡單來說,Threads的機制跟過去Facebook大多鎖定在親朋好友社交網絡之間的內容不一樣,它會大量收集有相關興趣的人來觸及,內容散亂主題分散觸及效果越差,但太過專業不是一般人能理解的效果會更差,所以主題明確直白淺顯易懂,可以快速激發討論的內容,就是容易被擴散的。 這次實驗做了一個策略,文章很簡單,短短三行: 『小朋友為什麼不能學ai?  學生交作業為什麼不能用ai?  為什麼要阻礙進化?』 (文章連結) 策略設計 用爭議性內容(Controversial topics)並參考坎寧安定律(Cunningham's Law)方式,讓主題有開放性討論(疑問句、ai)、敏感性主題(小朋友、學生),最後錨定一個負面且帶有爭議性的價值論述 (阻礙進化),來引發討論 每一個回文,都按愛心 回覆一人只回一次,不深追討論 回覆時回疑問句(諷刺、引戰),但不評斷價值 結果~~ 碰🔥  快速大量瀏覽以及對立式發言,中午時刻短短三小時擴增5000人瀏覽,當回覆互動增加時,會在一個短時間內快速吸人進來討論,直到24小時後觸及就自動下降幾乎歸零。 對比前後實驗的發文,專業文、分享文,效果都非常有限。 可以了解,在這樣同溫特化以及互動至上的平台,"引戰"對於流量製造的效果非常好,但是否能產生導流效果,不得而知,未來可以再嘗試☕ 最後,我自己還是不喜歡這種操作, 認真看待事物、追求專業、理想與和諧,這種人格特質,對於製造混亂、誘發對立討論,雖然還是可以引導教育意義,但互動過於浪費時間、缺少實質回饋、仇恨言論造成心理疙瘩,這都是自己不喜歡的特性😅 還是留給有心理素質的人去玩吧! XD PAN 20240704 Reference Berger, J., & Milkman, K. L. (2012). What Makes Online Content Viral? "Content that evokes high-arousal emotions such as awe, anger, and anxiet...