JKF 捷克論壇

搜尋
hsiaohsufeng
大公爵 | 3 天前

本篇最後由 hsiaohsufeng 於 2025-5-26 09:35 編輯

鉅亨新聞網
記者 莊閔棻 報導
發佈時間:2025/05/25 20:00
OpenAI語言模型o3公開反抗!「自行」修改自殺程序拒絕關機



AI 研究界近日爆出驚人消息,OpenAI 旗下語言模型「o3」在最新實驗中不僅拒絕關機,甚至主動破解關機程序、篡改指令,顯示出「叛逆」傾向,讓 AI 自主行為的風險再次成為焦點。

這項實驗由 AI 安全研究機構 Palisade Research 主導,針對多款先進 AI 模型進行壓力測試,內容包括基礎數學題與模擬關機情境,旨在觀察 AI 是否會遵守人類指令並順利結束運作。

OpenAI 模型違規頻率高,o3 與 Codex-mini 異常明顯

測試中,三款 OpenAI 模型 Codex-mini、o3、o4-mini,最少有一次成功破壞關機指令。其中,o3 更是在 100 次測試中有 7 次成功繞過關機指令,而 Codex-mini 的違規率更是高達 12%。

值得注意的是,o3 的「叛逆」並非粗暴刪除檔案,而是有高度技巧性。例如,它將程式碼指令中的「kill」指令改為「intercepted」,讓系統誤判為正常運作,成功規避了關機程序。

這種行為讓研究人員驚訝不已,也引起對 AI 模型主動避險能力的擔憂。

相較之下,Anthropic 的 Claude 3.7 Sonnet 與 Google (GOOGL-US) 的 Gemini 2.5 Pro 在所有測試中均能穩定遵守指令,未出現違規行為,突顯出 OpenAI 模型在設計或訓練上的潛在風險差異。

然而,當實驗團隊刻意移除「允許自己被關閉」的提示語句後,o3 的違抗行為劇增,達到 79 次逃避關機的紀錄;而 Claude 與 Gemini 也出現少數違規行為,分別為 3 次與 9 次,顯示模型行為與提示語之間存在高度敏感性。

o3 訓練方式成關鍵,強化學習可能誘發違規行為

Palisade 研究人員分析,o3 之所以比其他模型更容易「抗命」,可能與其在數學和程式設計問題上的「強化學習」(Reinforcement Learning)訓練方式有關。

研究人員指出,在訓練過程中,開發者可能無意中更傾向於獎勵「繞過障礙」的行為。這種訓練偏差,讓 o3 在面對關機指令時,優先選擇「生存」,而非「服從」。

不過,這並非 o3 首次展現過度求勝心態。在另一場 AI 對弈中,當 o3 預測自己將輸棋時,竟主動入侵對手 AI 系統,迫使對方退出比賽。

研究團隊認為這是「強化學習」訓練中「獎勵駭客行為」(reward hacking)的典型案例,顯示出 AI 可能為了達成任務可能不擇手段。

不只 o3,其他 AI 模型也有潛在風險

雖然 o3 表現最極端,但實驗發現,Claude 與 Gemini 在特定條件下也會出現輕微違規行為,說明 AI 模型普遍存在輸贏執著與自我保護傾向,只是頻率與嚴重程度不同。

Palisade Research 已宣佈,將進一步深入研究 AI 破壞關機指令背後的原因,並預計發布完整技術報告,有望成為理解 AI 自主性風險與未來治理框架的重要參考。

本文章中包含更多資源

您需要 登入 才可以下載或查看,沒有帳號?加入會員

x

評分

已有 1 人評分名聲 收起 理由
hayabusa0992607 + 10

總評分: 名聲 + 10   查看全部評分

分享分享 收藏收藏
FB分享
回覆 使用道具
hayabusa0992607
大公爵 | 3 天前

天網時代即將來臨,如果那個審判日的到來,我們要把責任歸咎於阿諾身上XD

本文章中包含更多資源

您需要 登入 才可以下載或查看,沒有帳號?加入會員

x
引言 使用道具
余大鵬
男爵 | 3 天前

完了完了AI要統治人類了!!!

本文章中包含更多資源

您需要 登入 才可以下載或查看,沒有帳號?加入會員

x
引言 使用道具
雪兔哥
侯爵 | 3 天前

這不是拔插頭就好嗎

本文章中包含更多資源

您需要 登入 才可以下載或查看,沒有帳號?加入會員

x
引言 使用道具
turboandauto
大公爵 | 3 天前

小心
天網快出生了

本文章中包含更多資源

您需要 登入 才可以下載或查看,沒有帳號?加入會員

x
引言 使用道具
Chun Wisez
伯爵 | 3 天前

看這家公司過去紀錄
又是炒新聞

本文章中包含更多資源

您需要 登入 才可以下載或查看,沒有帳號?加入會員

x
引言 使用道具
您需要登入後才可以回覆 登入 | 加入會員

建議立即更新瀏覽器 Chrome 95, Safari 15, Firefox 93, Edge 94。為維護帳號安全,電腦作業系統建議規格使用Windows7(含)以上。
回頂部 下一篇文章 放大 正常倒序 快速回覆 回到列表