大模型發展遇困境,OpenAI等巨頭尋求破局之道

2024-11-12 01:31:01 2

鳳凰網科技訊 11月11日,據路透社報道,OpenAI等人工智慧公司正在嘗試新的訓練方法,來克服大型語言模型發展中遇到的意外延遲和挑戰。

模型困境

十幾位AI科學家、研究人員和投資者告訴路透社,他們認為這些技術(OpenAI最近釋出的o1模型)可能會重塑人工智慧軍備競賽的格局,並加劇人工智慧公司對能源、晶片型別等各類資源貪得無厭的需求。OpenAI拒絕就此事發表評論。

兩年前,病毒式的ChatGPT聊天機器人釋出後,從人工智慧熱潮中獲益的科技公司公開表示,透過增加資料和計算能力來“擴大”現有模型,會不斷改進人工智慧模型。

但現在,一些最傑出的人工智慧科學家則指出這種“越大越好”理念的侷限性。

人工智慧實驗室Safe Superintelligence(SSI)和OpenAI的聯合創始人伊利亞-蘇茨克沃爾(Ilya Sutskever)最近告訴路透社,擴大預訓練(即用大量未標記資料來訓練大模型)的結果已經趨於穩定,該訓練模式下的大模型發展空間已接近瓶頸。據訊息人士透露,為超越OpenAI的GPT-4模型,各大人工智慧實驗室都在競相釋出大模型,但這一過程一直伴隨著延遲以及種種令人失望的結果。

大型模型的所謂“訓練執行”是透過耗資數千萬美元,同時執行數百個晶片來進行的。由於系統非常複雜,它們更容易出現硬體故障;研究人員可能要到執行結束後才能知道模型的最終效能,而這可能需要幾個月的時間。

另一個問題是,大型語言模型會吞噬大量資料,而人工智慧模型已經耗盡了世界上所有容易獲取的資料。電力短缺也阻礙了訓練執行,因為這一過程需要大量能源。

探索新途徑

為了克服這些挑戰,研究人員正在探索“測試時間計算”,這種技術可以在所謂的 “推理”階段,或者在使用模型時,增強現有的人工智慧模型。例如,模型可以實時生成並評估多種可能性,最終選擇最佳前進路徑,而不是立即選擇單一答案。

這種方法可以讓模型將更多的處理能力用於具有挑戰性的任務,如數學或編碼問題,或者用於需要像人類一樣進行推理和決策的複雜操作時。

上個月在舊金山舉行的TED人工智慧大會上,曾參與o1研究的OpenAI研究員諾姆-布朗(Noam Brown)說:“事實證明,機器人在撲克牌遊戲中思考20秒鐘,與將機器人背後的模型放大10萬倍、訓練時間延長10萬倍,兩種方式所獲得的提升效能是一樣的。”

與此同時,據相關人士透露,其他頂級人工智慧實驗室(Anthropic、xAI和DeepMind等)的研究人員,也一直在努力開發自己版本的技術。(作者/李睿萌)

更多一手新聞,歡迎下載鳳凰新聞客戶端訂閱鳳凰網科技。想看深度報道,請微信搜尋“鳳凰網科技”。