大模型發展遇困境，OpenAI等巨頭尋求破局之道

2024-11-12 01:31:01 2

鳳凰網科技訊 11月11日，據路透社報道，OpenAI等人工智慧公司正在嘗試新的訓練方法，來克服大型語言模型發展中遇到的意外延遲和挑戰。

大模型困境

十幾位AI科學家、研究人員和投資者告訴路透社，他們認為這些技術（OpenAI最近釋出的o1模型）可能會重塑人工智慧軍備競賽的格局，並加劇人工智慧公司對能源、晶片型別等各類資源貪得無厭的需求。OpenAI拒絕就此事發表評論。

兩年前，病毒式的ChatGPT聊天機器人釋出後，從人工智慧熱潮中獲益的科技公司公開表示，透過增加資料和計算能力來“擴大”現有模型，會不斷改進人工智慧模型。

但現在，一些最傑出的人工智慧科學家則指出這種“越大越好”理念的侷限性。

人工智慧實驗室Safe Superintelligence（SSI）和OpenAI的聯合創始人伊利亞-蘇茨克沃爾（Ilya Sutskever）最近告訴路透社，擴大預訓練（即用大量未標記資料來訓練大模型）的結果已經趨於穩定,該訓練模式下的大模型發展空間已接近瓶頸。據訊息人士透露，為超越OpenAI的GPT-4模型，各大人工智慧實驗室都在競相釋出大模型，但這一過程一直伴隨著延遲以及種種令人失望的結果。

大型模型的所謂“訓練執行”是透過耗資數千萬美元，同時執行數百個晶片來進行的。由於系統非常複雜，它們更容易出現硬體故障；研究人員可能要到執行結束後才能知道模型的最終效能，而這可能需要幾個月的時間。

另一個問題是，大型語言模型會吞噬大量資料，而人工智慧模型已經耗盡了世界上所有容易獲取的資料。電力短缺也阻礙了訓練執行，因為這一過程需要大量能源。

探索新途徑

為了克服這些挑戰，研究人員正在探索“測試時間計算”，這種技術可以在所謂的 “推理”階段，或者在使用模型時，增強現有的人工智慧模型。例如，模型可以實時生成並評估多種可能性，最終選擇最佳前進路徑，而不是立即選擇單一答案。

這種方法可以讓模型將更多的處理能力用於具有挑戰性的任務，如數學或編碼問題，或者用於需要像人類一樣進行推理和決策的複雜操作時。

上個月在舊金山舉行的TED人工智慧大會上，曾參與o1研究的OpenAI研究員諾姆-布朗（Noam Brown）說：“事實證明，機器人在撲克牌遊戲中思考20秒鐘，與將機器人背後的模型放大10萬倍、訓練時間延長10萬倍，兩種方式所獲得的提升效能是一樣的。”

與此同時，據相關人士透露，其他頂級人工智慧實驗室（Anthropic、xAI和DeepMind等）的研究人員，也一直在努力開發自己版本的技術。(作者/李睿萌)

更多一手新聞，歡迎下載鳳凰新聞客戶端訂閱鳳凰網科技。想看深度報道，請微信搜尋“鳳凰網科技”。