2024年，每一個大模型都躲不過容嬤嬤和紫薇

2024-10-20 01:32:33 7

文｜鄧詠儀

編輯｜蘇建勳

連最積極搞AI的李彥宏，在這件事上也遲疑了。

“百度不碰Sora類的影片生成方向。”李彥宏在近期的2024年Q3總監會上說道。原因在於，10年、20年都可能難以商業化應用。

從OpenAI Sora橫空出世，再到6月的快手可靈全量上線，影片生成成為2024年最火熱的AI話題。

廠商們紛紛開始你追我趕。從4月至今，影片生產模型如同雨後春筍一般——除了快手、位元組、阿里等大廠，頭部大模型公司如智譜、MiniMax，以及生數科技、智象未來等垂類廠商，均釋出了影片生成模型。

國內影片模型的湧現，也讓“容嬤嬤和紫薇”的鬼畜形象再次翻紅，她倆活在不同的影片模型demo和網友二創中，考驗著不同模型的效果：

△圖源：可靈，來自公開網路

△圖源：即夢AI，智慧湧現製圖

行業對“超級應用”的渴望溢於言表，甚至影響到了如今大模型的路線——到底做不做影片大模型，影響國內“大模型六小虎”（智譜、月之暗面、MiniMax、百川智慧、階躍星辰、零一萬物）走勢的關鍵決策。

不過，對於做不做影片模型，國內大模型廠商仍未達成共識，而是分成了截然不同的幾派：

有廠商迅速跟進。7月，智譜就推出了類Sora的影片生成模型“智譜清影”；8月，MiniMax釋出影片模型Video-01。

而階躍星辰釋出新影象模型，也在今年7月的上海世界人工智慧大會上，做了少量的影片生成嘗試。

也有旗幟鮮明的反對者。“百川不會做Sora。”今年5月，百川智慧CEO王小川就在《智慧湧現》的專訪中就表示。他認為，Sora並不在AGI（通用人工智慧），即提升模型智力水平的主線上。

也有在探索後暫緩的廠商。最受關注的月之暗面，6月被媒體報道在海外試水兩個新應用——角色扮演應用Ohai，以及AI音樂/影片生成應用Noisse。據《智慧湧現》瞭解，這兩個應用因為效果不達預期，後來並沒有被單獨立項，停留在試驗階段。

而在近期的“Kimi探索版”上線後，月之暗面還將釋出多模態相關能力。不過，還不確定是否會有影片生成相關功能。

直到國慶前後，影片生成領域迎來兩位重磅玩家：9月24日，位元組跳動低調甩出了Seaweed和Pixeldance兩款產品。

而緊接著的10月5日，Meta放出的系列模型Movie Gen，則又一次炸場。

△圖注：2024上半年，全球已湧現了不少影片模型和產品，在中國尤其熱鬧。

在語言模型迭代放緩的當下，影片生成模型似乎成了那個更有希望的AI應用新方向——大廠也還沒形成壟斷。對初創公司而言，這更是一次重要選擇——到底要不要做Sora？

分叉路，要選哪條？

首先需要釐清的一個概念是，大廠、創業公司如今普遍標配的“多模態能力”（影象、語音等模態），以及類Sora的影片生成模型，並不是同樣的東西。

“多模態能力，相當於是讓模型能夠理解影象、音訊、影片等形式，但還是基於大語言模型延伸的能力。”一位大模型從業者對《智慧湧現》分析，“將影片、圖片、語音輸入到大模型裡，是基於大語言模型做‘理解’；但生成影片，則是依靠影片模型的能力。”

“類Sora”產品所依靠的影片生成模型，借鑑了大語言模型（LLM）中Transformer架構等技術思路，但和大語言模型（LLM）是兩種不同的事物。

這意味著，如果要做一個影片生成模型，相當於另起爐灶，從0到1重新搭模型。

可以肯定的是，要做影片生成模型，當前還註定是少數人的遊戲。

再造一個“Sora”，成本高昂。

據Meta的資料，Movie Gen用了6144張H100進行訓練，影片模型引數達到30B（300億）。在國內，擁有此等訓練資源的廠商，本就不多。

而眼下，國內大模型廠商基本都已經上齊了多模態能力，至於是否做影片生成方向，還處於搖擺狀態。

對擁有短影片相關業務的大廠，如抖音、快手等，影片生成是不能輸的方向。據矽星人報道，對可靈的大力投入，一個重要動力是為了服務於快手的內容生態——2023年，首次在快手釋出短影片的創作者就有1.38億。

另外，快手做可靈，也意在服務快手的電商生態，比如為MCN、電商商家提供商品相關的AI內容生成服務。

但對初創玩家來說，在AI應用方向不明朗的當下，大家都在忐忑地摸著石頭過河。

有玩家早早堅定了自己選擇的道路。一開始打定不做Sora的百川，在2024年全力落地醫療場景，並推出了自己的醫療AI助手。

專門做影片生成的垂類廠商，也拿到了階段性的結果，比如生數科技旗下的Vidu，在8月上線後，兩個月內，VIdu的月訪問量就已經達到552萬。

但能不能把新故事講成自己的，還得看各家的真本事。影片生成領域的技術路線尚未收斂，市面上的頂級影片生成模型幾乎都選擇了閉源。

這意味著，玩家們需要投入真金白銀去試錯——選什麼技術路線和應用場景，才決定AGI大潮退去後，誰能真正留在岸上。

文字太卷，Agent太遠，影片生成剛剛好？

OpenAI的Sora尚且沒有放開使用，為什麼影片生成如今成了國內的香餑餑？

以GPT-4作為參考標杆，國內頭部的大模型廠商和大廠，在今年上半年都已慢慢接近GPT-4的水平，在OpenAI後續釋出GPT-4o後，廠商也都陸續跟進了多模態能力。

但GPT-5遲遲未出，意味著在語言模型上，國內大模型的廠商基本難以拉開代際差距。

另一方面，大模型跑了一年多，其落地和商業化成果還未讓市場信服。

在國內，大部分的AI應用方向都陷入叫好不叫座的困境。細數這兩年火過的AI應用方向——ChatBot/情感陪伴等類ChatGPT產品、文生圖、AI音樂、AI搜尋，都迅速陷入同質化競爭的局面。

以國內頭部的AI應用舉例，豆包、Kimi等在今年上半年經歷了激烈的投流競爭，使用者數最高已達千萬級別，但商業化情況並不理想。

不少從業者認為，應用難以商業化，很大程度要歸結到文字模型迭代放緩，能力提升變慢。這也讓一些更遙遠的，能完成更多複雜任務的方向——比如Agent（智慧體），越發模糊。

《智慧湧現》瞭解到的一個例證是，位元組旗下的AI開發平臺釦子的Agent業務，在今年就經歷了一輪縮減。

而近期圈內熱切討論的放棄大模型的預訓練階段，意味著不少廠商要走下追求的牌桌，轉向AI應用落地，繼續活下去。

廠商們需要新故事，影片生成方向則剛好站在中間點：既有足夠技術和開發壁壘，但壁壘不會高到玩家摸不著，前景也足夠大。

“語言模型的商業化就不提了，初創公司至少還要想象力。如果頭部初創公司不轉其他應用方向，就什麼都沒有，怎麼撐起這麼高的估值？”一位從業者直言。

2023年，不少做影片生成的創業者都對《智慧湧現》表示，如今的影片生成領域可類比處在GPT-2到GPT3階段。這意味著比ChatGPT的效果稍稍略落後，比語言模型所處的發展階段早很多。

但Sora釋出後，影片生成領域已經看到了GPT-3.5階段的曙光。“這個階段意味著，讓你看到這個賽道的巨大潛力，市場願意投入。”一位從業者對《智慧湧現》表示。

共識搖擺的背後，源於賽道仍處發展早期，還有不少探索機會。比如，剛剛釋出的Meta Movie Gen。在Transformer架構基礎上，使用了Flow Matching（流匹配技術），這就與Sora的路線有很大不同，也意味著整個賽道的技術路線尚未收斂。

在國內，這個方向上也有得天獨厚的短影片生態，影片生成方向的模型探索，也因此站在全球前沿。

6月爆火的快手影片模型“可靈”，就是典型例子——在大廠中，快手並不是AI人才、資源的制高點，但經歷短短數月攻堅，快手可靈僅憑20多人的小團隊，硬是在一眾大模型廠商中闖出一條路，可靈憑藉懷舊照片等一系列策劃，熱度一度傳到大洋彼岸的矽谷。

△Stability.ai創始人轉發可靈產品，評論“中國在AI上有著巨大優勢” 來源：X

並且，影片生成方向還處在早期，算力成本仍處高位，一旦開始商業化，付費已是必選項。

在海外，影片生成已經走出了不同路線——頭部的影片廠商Runway和Pika都專注做B端的生產力工具，Runway甚至已經打入好萊塢，達成了不少影視界的合作。在國內，可靈、Minimax等廠商也早早開始了付費嘗試。

歸根結底，很少人願意錯過這個方向。畢竟，影片已經取代文字，成為網際網路上流量佔比最高的資訊內容。據Sandvine《2023全球網際網路現象報告》，2022年全球網際網路影片服務，就佔到總流量的65.93%。

隨著影片生成技術不斷成熟，這也許不會只是大廠的遊戲。初創公司可以結合技術，以及巧妙的運營手段，快速闖出一條自己的道路。

△來源：Pika

矽谷影片生成明星初創Pika，就摸到了不少流量密碼：一出道，就選擇先在開發者聚集的Discord運營，並且迅速獲得50萬使用者。

到了今年10月，Pika新發布的1.5模型中，還帶來了更多社交運營玩法：內建了充氣、融化、爆炸、捏揉、壓扁等模板，引來全球網友“整活兒”，伺服器甚至因為湧入的使用者太多而崩潰——有網友就不禁回憶起當年：與早期的TikTok冷啟動時期如出一轍。

本文標籤2024年每一個大模型都躲不過嬤嬤紫薇

坦克300第12次OTA正式推送：新增CarPlay、智慧關閉車窗

« 上一篇 2024-10-20

前高盛亞洲董事總經理潘登加入哪吒汽車，擔任副總裁一職

2024-10-20 下一篇 »

2024年，每一個大模型都躲不過容嬤嬤和紫薇

坦克300第12次OTA正式推送：新增CarPlay、智慧關閉車窗

前高盛亞洲董事總經理潘登加入哪吒汽車，擔任副總裁一職

相關文章

大模型頂流CP由甜轉虐：互相不滿，都找備胎，因為錢鬧不愉快

宋紫薇離職理想後不少網友私信表示想加入其團隊