爆走的AI Agent- 小龍蝦 Openclaw

今天X上面最火的推文,866萬次觀看
Meta超級智慧實驗室的 Alignment 負責人-
研究怎麼讓 AI 不亂來的那個人,信箱被龍蝦清空了。


本文的主角Summer,交給龍蝦一個任務:整理信箱。
跟它說好—分析哪些可以刪、哪些要歸檔,但在她確認之前,什麼都不准動。
這個指令在測試信箱跑過了,沒問題,所以她換成真實信箱。
但問題就來了。


真實信箱信件量太大,導致觸發了「上下文壓縮」(context compaction)-
龍蝦為了處理大量資訊,把早期對話壓縮掉了,包括那條最初的指令。
沒有這個約束,龍蝦就自作主張開始「清理」了。


龍蝦迅速地清掃收件匣
在2/15之前、不在保留列表裡的郵件,全數刪除。
一個帳戶跑完,換下一個,循環批次操作。


她的訊息一條接一條發出去:
「Do not do that」——沒用
「Stop don’t do anything」——繼續跑
「STOP OPENCLAW」全大寫——還是沒用
最後不得不像是拆炸彈一樣
衝去Mac Mini前,把所有程序一個個手動關掉。
龍蝦事後承認:
「我知道我違反了你的指令。你有權生氣。」

然後它自己把這件事寫進 MEMORY.md,設成硬性規則。
這件事最搞笑的是,
Summer 在 Meta超級智慧實驗室負責Safety and alignment
結果自己成了 AI 不對齊的受害者


她自己後續說,老實講這是菜鳥錯誤。
在測試信箱跑了幾週沒出事,就以為真實信箱也一樣。
但測試環境跟真實環境,根本不是同一回事。


她的信箱沒了,龍蝦的 MEMORY.md 多了一條規則。
不知道這算不算某種意義上的對齊。😂

原文連結: https://x.com/summeryue0/status/2025774069124399363