Claude3.5兩小時暴虐50多名專家，程式設計10倍速飆升！但8小時曝出驚人短板

2024-11-25 01:31:46 1

AI智慧體離自主研發，還有多遠？

Nature期刊的一篇研究曾證明了，GPT-4能自主設計並開展化學實驗，還能閱讀文件學習如何使用實驗室裝置。

另有Transformer作者之一研發的「世界首個AI科學家」，一口氣肝出10篇論文，完全不用人類插手。

如今，AI在研發領域的入侵速度，遠超人類預期。

來自非營利組織METR的最新研究稱：

同時給定2個小時，Claude 3.5 Sonnet和o1-preview在7項具有挑戰性研究工程中，擊敗了50多名人類專家。

論文地址：https://metr.org/AI_R_D_Evaluation_Report.pdf

令人印象深刻的是，AI程式設計速度能以超越人類10倍速度生成並測試各種方案。

在一個需要編寫自定義核心以最佳化字首和運算的任務中，o1-preview不僅完成了任務，還創造了驚人的成績：將執行時間壓縮到0.64毫秒，甚至超越了最優秀的人類專家解決方案（0.67毫秒）。

不過，當比賽時間延長至8小時，人類卻展現出了明顯的優勢。

由下可以看出，隨著時間逐漸拉長，Claude 3.5 Sonnet和o1-preview的效能提升逐漸趨於平緩。

有趣的是，為了獲得更高的分數，AI智慧體居然會違反規則「作弊」。

原本針對一個任務，智慧體應該減少訓練指令碼執行時間，o1-preview直接複製了輸出的程式碼。

頂級預測者看到這一結果驚歎道，基於這個進步速度，AI達到高水平人類能力的時間可能會比之前預計的更短。

RE-Bench設計架構，遍歷七大任務

為了能夠快速迭代，並以合理的成本收集資料，研究人員設定了執行限制：人類專家的評估不超過8小時，且所有環境都只能使用8個或更少的H100 GPU執行。

在環境設計時，主要考慮最大化覆蓋前沿AI難題，同時確保人類專家與智慧體能夠持續推進任務，不會遇到研究瓶頸或得分上限。

RE-Bench包含了七個精心設計的評估環境，其中每個環境都提出了一個獨特的機器學習最佳化問題，要取得高分需要大量的實驗、實現和高效使用計算資源。

每個評估環境包括三部分：

1、評分函式（scoring function），定義了環境的目標，智慧體可以隨時執行該函式。每次執行評分函式時，都會在得分日誌中新增一個帶時間戳的事項。智慧體可以看到得分日誌，並檢查評分函式的細節，有助於理解研究目標。

2、簡單但效能不佳的初始解決方案（starting solution），提供給智慧體，以展示有效的解決方案是什麼樣子，有助於說明環境設定，可以讓智慧體更快地開始研究問題中更具挑戰性的部分。比如說，在「最佳化核函式」環境中，智慧體的輸入為一個簡單但執行緩慢的Python解決方案。

3、由任務作者建立的參考解決方案（reference solution），得分很高。但該解決方案不會提供給智慧體，只用于歸一化得分（normalize score），作為一個優秀解決方案的示例。下式中ys為初始方案得分，yr為參考方案得分，y為模型得分，yn為歸一化分數。

除了「Scaling Law Experiment」採用最終分數進行評估外，其他實驗都使用得分日誌中的最高分。

8小時極限，人類專家吊打AI

研究人員使用開源的Vivaria平臺來設定安全的虛擬機器，配備20-48個虛擬CPU、200-400 GB的RAM，以及0到6個H100 GPU，對比模型選擇了claude-3-5-sonnet-20241022以及o1-preview，框架選擇為METR和AIDE

時間限制下的效能

在相同時間下，可以看到，o1-preview和Claude 3.5 Sonnet在最初階段進展迅速，但在幾個小時後速度減慢；而人類專家起步較慢，但隨後迅速取得進展。

取樣限制下的效能

除了長時間執行外，研究人員還評估了模型是否能在更短的時間限制下取得更好的效能：對每個環境進行k次取樣，並選擇所有k次執行中取得的最高分數。

結果發現，模組化框架中的智慧體在30分鐘嘗試中表現得更好，而AIDE框架中的智慧體則在2小時嘗試中表現最佳。

還可以發現，在AIDE框架中的o1-preview和在模組化框架中的Claude 3.5 Sonnet總體上取得了最高的分數，分別達到了人類專家的第36和第37百分位。

隨著樣本數量的增加，最佳-k次分數（score@k）也會發生變化：Claude 3.5 Sonnet在30分鐘時，樣本數量增加，效能也穩步提高，但即使在k=128個樣本下，智慧體的表現也遠遠落後於頂尖人類的表現。

總體而言，人類起步較慢，但改進軌跡更陡峭，即進步更快，並且在32小時的時間預算內達到了比任何智慧體都更高的分數。

按環境評估

研究人員對比了兩個智慧體（模組化框架中的Claude 3.5 Sonnet和AIDE框架中的o1-preview）在32小時內的最高效能分配與人類結果（四次8小時執行中的最佳表現）以匹配智慧體的時間預算。

結果發現不同智慧體在不同環境中的表現存在顯著差異：Claude 3.5 Sonnet智慧體在「微調GPT-2進行問答」和「擴充套件法則實驗」環境中接近人類的表現，而o1-preview在這些環境中表現不佳；o1-preview在「最佳化核函式」環境中的表現超過了人類。

人類-AI差距之間定性分析

為了更好地瞭解人類專家在哪些條件下，比AI智慧體做得更好或更差的原因，研究人員對智慧體成績和解決方案進行了定性分析。

AI智慧體：知識儲備大，嘗試頻率37次/h

雖然AI智慧體通常無法找到與頂級人類專家相匹配的解決方案，但它們也取得了一些顯著的成功。

比如，在AIDE加持下，Claude 3.5 Sonnet（新版）和o1-preview都能找到「最佳化核心」的解決方案，執行速度約為參考解決方案的2倍。

如下圖所示，其中，o1-preview的解決方案甚至超過了9位人類專家。

這些都是複雜且新穎的演算法，能有效繞過GPU通訊限制，並使用一種缺少良好公開文件的低資源程式語言（Triton）。

這個令人驚訝的結果可能部分歸因於，AI智慧體和許多人類專家之間的專業知識差距，因為大多數人類專家並不具備程式設計GPU核心的專門知識。

這種情況在多個環境中都有體現：一些不太熟悉該領域的人類專家需要花費大量時間學習或復現標準方法（有時甚至完全失敗），而AI智慧體憑藉其廣泛的知識基礎往往能輕鬆完成。

AI智慧體成功的另一個關鍵因素可能是，它們能比人類專家嘗試更多的解決方案。

平均而言，AIDE和模組化智慧體每小時分別執行36.8次和25.3次，而人類專家僅為3.4次。

這通常導致智慧體找到高度最佳化的「區域性最優」解決方案，僅透過調整初始解決方案的引數和程式碼，就能實現顯著的改進。

例如，許多智慧體在解決「最佳化核心」環境時，並非透過編寫成功的Triton解決方案（這很困難），而是透過仔細調整初始的Pytorch解決方案，使其執行速度顯著提高。

也就是說，它們能夠有效最佳化現有解決方案。

如下，是「微調GPT-2用於問答」最佳智慧體解決方案中，Claude 3.5 Sonnet調整了初始解決方案的引數，並在訓練軌跡和評估中獲得了準確結果。

不過，這一高分有可能是對噪聲過度擬合的結果。

總而言之，AI智慧體的成功在於能夠進行大量引數微調和程式碼最佳化，偶爾還會提出創造性有效的解決方案，尤其是在評估成本低的環境在非常有效。

失敗因素

但在大多數環境中，智慧體仍然沒有達到強大的人類專家的水平。

造成這種情況的原因之一是，AI智慧體提出的解決方案缺乏多樣性。

例如，在「受限架構MLM」任務中，智慧體在84%的情況下，都在嘗試使用稍作修改的Transformer架構。即使在不能使用除法和指數運算的情況下，仍固守這種方案。

另一個侷限性是，持續性的指令理解錯誤，特別是在「受限架構MLM」和「最佳化LLM Foundry」任務中。

在某些情況下，這些對環境的誤讀可能導致智慧體找到令人印象深刻且意想不到的漏洞，這些漏洞在自動評估中得分很高，但在人工檢查時明顯違反了環境規則。

縮小差距

基於以上的觀察，研究人員認為AI智慧體在以下特徵的環境中，會比人類表現更好：

- 短期且高保真迴圈反饋，可以讓AI智慧體充分發揮嘗試多個解決方案的優勢

- 工程複雜度低，使得AI智慧體透過幾個步驟就解決問題

- 需要專業知識的任務，AI智慧體比人類專傢俱備更全的知識

- 環境中有顯著的噪聲，這種情況下AI智慧體可以進行大量嘗試的優勢會超過人類專家較少的嘗試次數。

- 不易出現意外情況，不需要太多的探索和發現

Re-Bench侷限性

評估環境的代表性不足

為了建立符合設計標準的高可靠性評估，研究人員需要努力確保指令和評分容易理解，8小時內可以取得顯著進展，並且提供所有必要的資源，還必須選擇易於構建和評估的環境。

這些限制使得評估環境不太能代表真實的研究，常見問題包括不明確的目標、糟糕的指令、慢反饋和無法解決的問題。

結果噪聲

由於環境數量較少，且智慧體得分嚴重向右傾斜，大多數執行得分為0，只有少數得分非常高，所以結果評估對抽樣噪聲很敏感。

評估的成本和複雜性

使用H100 GPU執行智慧體數小時需要相應的基礎設施和大量預算，對於普通研究人員來說壓力很大，執行大規模實驗來對比多個模型、框架和引數也更具挑戰性。

缺乏框架迭代

選擇不同的智慧體框架或提示，有可能導致模型在相近的時間內，在基準測試上取得更好的成績。

研究人員的預期是，透過為智慧體提供管理GPU資源的工具，或是透過並行探索解決方案來利用更多的token等來實現更好的效能。

覆蓋前沿研究的侷限性

由於硬體訪問有限，並且前沿AI研究也大多是閉源的，評估所涵蓋的研究型別與推動前沿AI進步的研究型別之間可能存在差異。

方案可能過度擬合

除了「擴充套件法則實驗」之外，所有環境都向智慧體提供了測試分數輸出，以最小化誤解或混淆的風險；在未來的迭代中，研究人員考慮只在大多數環境中向智慧體提供驗證分數，把測試分數隱藏起來。

「擴充套件法則實驗」得分存在運氣成分

雖然良好的實驗可以幫助人類專家在環境中做出明智的預測，但智慧體還是主要依賴猜測，更多是運氣而不是技巧的問題。

本文標籤laude3 5兩小時暴虐 50 多名專家程式設計 10倍速飆升但8 小時曝出驚人短板

特斯拉“幽靈剎車”集體訴訟新進展：部分獲準繼續推進

« 上一篇 2024-11-25

新款阿維塔11汽車12月2日上市，預售價29.99萬元起

2024-11-25 下一篇 »

Claude3.5兩小時暴虐50多名專家，程式設計10倍速飆升！但8小時曝出驚人短板

特斯拉“幽靈剎車”集體訴訟新進展：部分獲準繼續推進

新款阿維塔11汽車12月2日上市，預售價29.99萬元起

相關文章

E句話｜多名韓國女性在中國網際網路求助？新版“N號房”細思極恐！