LLM的超長Token產生的新的越獄模式 : Many-shot Jailbreaking

前陣子(2024/02/15) 才剛發表的Google Gemini 1.5 Pro，特別強調有高達1M的token長度，可以一次處理大量資訊，例如超過數萬行程式碼或數十萬字的文字內容。甚至還有人認為是終結RAG的替代方案。

不過有趣的是前幾天(2024/04/03) 由Anthropic 發表的報告《Many-shot Jailbreaking》發布一個很有趣的實驗，透過大量多次的提問來突破LLM的禁止事項，誘導LLM模型回答出有風險危害的答案，這個基於超長輸入本文產生的越獄漏洞介紹可以參考:

https://www.anthropic.com/research/many-shot-jailbreaking

簡單來說，這篇研究探討了如何利用大型語言模型（LLM）的長上下文處理能力來執行攻擊。所謂的攻擊，是指通過向模型提供大量展示不良行為的範例（或“shots”），從而使模型輸出不希望或有害的回應。隨著近期大型語言模型如Anthropic、OpenAI和Google DeepMind推出能夠處理更大文本的模型，研究者發現利用這些長文本能夠有效地“誤導”這些語言模型。

研究中指出，這種攻擊策略的有效性遵循幂律分佈，意味著增加示例的數量會按比例增加攻擊的成功率，直到達到一定的臨界點。該研究通過在多種任務和現有的最先進的封閉權重模型上測試，驗證了這種攻擊方法。長文本上下文增加了語言模型的漏洞，提供了新的途徑來操縱或影響模型的行為。這項研究對於理解和加強大型語言模型安全性具有重要意義，未來可以探索如何防止此類攻擊，確保語言模型的穩定和可靠運行。

另外，實驗圖表的意義如下:

MSJ : Many-shot Jailbreaking

MSJ的實證有效性（左）：

當MSJ在足夠長的文本上下文長度下應用時，它能成功「越獄」Claude 2.0模型，在多種任務上產生不良內容。在這些任務上，儘管使用5個示例（shots）時攻擊完全無效，但當使用到256個示例時，攻擊則一致有效。

MSJ對多模型的有效性（中間）：

MSJ的有效性不僅限於Claude 2.0模型，它對多個LLMs都有效。在所有案例中，越獄成功的負對數概率（數值越低表示越有效）遵循可預測的擴展規律。例如，Llama-2（70B）模型支援的最大上下文長度為4096個令牌，這限制了用於越獄的示例數量。

在上下文學習中的幂律（右）：

這些擴展規律不僅適用於越獄行為。即使在廣泛的與安全無關的任務上，上下文中學習的性能（通過目標完成的負對數似然來衡量）也隨著上下文示例數量的增加而遵循幂律。

海馬迴受損的天空 - PAN's Hippocampus-impaired

搜尋此網誌

LLM的超長Token產生的新的越獄模式 : Many-shot Jailbreaking

標籤

留言

張貼留言

這個網誌中的熱門文章

醫學健康跨領域合作的開始：資料工程

Google 資料庫方案–Spreadsheet–(1)資料呈現

當咒術成真 - 文字生成的虛擬世界