跳到主要內容

LLM的超長Token產生的新的越獄模式 : Many-shot Jailbreaking

 LLM的超長Token產生的新的越獄模式 : Many-shot Jailbreaking


前陣子(2024/02/15) 才剛發表的Google Gemini 1.5 Pro,特別強調有高達1M的token長度,可以一次處理大量資訊,例如超過數萬行程式碼或數十萬字的文字內容。甚至還有人認為是終結RAG的替代方案。

不過有趣的是前幾天(2024/04/03) 由Anthropic 發表的報告《Many-shot Jailbreaking》發布一個很有趣的實驗,透過大量多次的提問來突破LLM的禁止事項,誘導LLM模型回答出有風險危害的答案,這個基於超長輸入本文產生的越獄漏洞介紹可以參考:

https://www.anthropic.com/research/many-shot-jailbreaking

簡單來說,這篇研究探討了如何利用大型語言模型(LLM)的長上下文處理能力來執行攻擊。所謂的攻擊,是指通過向模型提供大量展示不良行為的範例(或“shots”),從而使模型輸出不希望或有害的回應。隨著近期大型語言模型如Anthropic、OpenAI和Google DeepMind推出能夠處理更大文本的模型,研究者發現利用這些長文本能夠有效地“誤導”這些語言模型。

研究中指出,這種攻擊策略的有效性遵循幂律分佈,意味著增加示例的數量會按比例增加攻擊的成功率,直到達到一定的臨界點。該研究通過在多種任務和現有的最先進的封閉權重模型上測試,驗證了這種攻擊方法。長文本上下文增加了語言模型的漏洞,提供了新的途徑來操縱或影響模型的行為。這項研究對於理解和加強大型語言模型安全性具有重要意義,未來可以探索如何防止此類攻擊,確保語言模型的穩定和可靠運行。

另外,實驗圖表的意義如下:


MSJ : Many-shot Jailbreaking

MSJ的實證有效性(左):

當MSJ在足夠長的文本上下文長度下應用時,它能成功「越獄」Claude 2.0模型,在多種任務上產生不良內容。在這些任務上,儘管使用5個示例(shots)時攻擊完全無效,但當使用到256個示例時,攻擊則一致有效。

MSJ對多模型的有效性(中間):

MSJ的有效性不僅限於Claude 2.0模型,它對多個LLMs都有效。在所有案例中,越獄成功的負對數概率(數值越低表示越有效)遵循可預測的擴展規律。例如,Llama-2(70B)模型支援的最大上下文長度為4096個令牌,這限制了用於越獄的示例數量。

在上下文學習中的幂律(右):

這些擴展規律不僅適用於越獄行為。即使在廣泛的與安全無關的任務上,上下文中學習的性能(通過目標完成的負對數似然來衡量)也隨著上下文示例數量的增加而遵循幂律。

留言

這個網誌中的熱門文章

醫學健康跨領域合作的開始:資料工程

一直都很喜歡在會議上與跨領域的專家、醫師、學者分享我們在數據工程與分析應用上的發展經驗。 許多的專家學者,對於大數據應用的認知都仍侷限在一個超大型結構化資料集的子集合應用,在規劃好的條件設定下,針對特定的目標(疾病、行為)進行篩選,將數據narrow down到可以被個人電腦或是單一伺服器架構處理的小型資料集。 這樣的半手工處理方式,對於專一(Specific)領域主題的資料追蹤計算或許已經十分足夠,但當中倘若資料清理方式有改變、篩選條件增減,所有的數據都要從raw重新處理,不僅造成大量的時間與人力浪費,對於專案計畫進度的延宕更是麻煩。這些還不包含

別再期末談臨終

『在那六年多的時間,我常常反省、後悔、卻也培養勇氣,問自己再遇到時要做什麼決定?.......回想我要簽同意書的時候,真的會抖-我有資格決定人家生死嗎?』 面對死亡,我們都很害怕,更何況是家人的臨終。 但究竟我們的選擇,是為了給家人最後的尊嚴? 還是填補自己的罪惡感? 學習勇敢面對、學習放下, 更要學著為自己的未來做好規劃,不成為子女的負擔。 希望大家一起鼓勵這個勇敢的朋友, 因為她的經驗分享,讓我們更加了解, 面對家人臨終,我們該如何做好準備。 『末期才談臨終太遲』 https://www.wacare.live/health-forum/q/1984983840830?topicId=25049764537230&fbclid=IwAR1ei-zrfSj9w5kbvBW5ecSbqWrI408fJ1qjXhisZwLxYdbON_jJbNKMAyY 更多的失智照護課程 https://www.wahere.wapro.live/udnxwacare Pan 2020.12.22 #臨終 #失智 #善終 #放棄急救 #預立醫療 #病人自主

物聯網與大數據時代下的個人化精準醫療

Source:  idownload blog 2014 年,當致力於電子病歷 (Electronic Medical Record, EMR) 分析,藉以尋找癌症機轉與治療方法的大數據公司 Flatiron Health 獲得 Google 創投( Google Ventures )高達 1.3 億美元投資後 [1] ,個人化精準醫療( personalized medicine )隨即成為火紅的熱門主題,這樣一股氣勢發展,讓美國總統歐巴馬 (Obama) 更在今年提出精準醫療計劃( Precision Medicine Initiative) ,並投入 2016 年預算高達 2.15 億美金之譜 [2] 。 在精準醫療這般的強勢展開下,不僅僅只有過去生物資訊上基因體學、轉錄體學上的資料探勘或是電子病歷醫療健康數據分析,物聯網 (Internet of Thing) 的發展也同時透過行動裝置與消費型穿戴式裝置大舉進入個人化健康促進與醫學上疾病研究領域。在這機電感測裝置快速發展下,各種輕巧卻具備多種感測裝置的隨身穿戴式裝置逐漸普及於消費電子商品市場,各家廠商發展出豐富的產品功能不僅能記錄活動頻率,更能偵測活動強度、睡眠狀態、作息規律,更甚至能取得穿戴者 24 小時的心跳狀態與壓力疲勞狀態,並利用這些生理數據進行健康促進的提醒與建議。