叫板Sora出圈後，Luma AI如何接住潑天的流量？

2024-11-28 01:35:05 1

Luma AI在影片領域叫板OpenAI故事，好比中途改打網球的杜蘭特，打贏了網球男單大滿貫納達爾。

最近，這家成立於2021年的矽谷AI公司，在和《智慧湧現》的交流中，覆盤了影片生成模型Dream Machine AI爆火的過程。

在矽谷率先發布一款效果能對標OpenAI Sora的影片模型，對一家初創公司而言並不容易——更何況，Luma AI在影片生成領域算得上是“半路出家”：

2024年前，這還是個主攻3D生成、規模在10人左右的小公司。Luma AI資料產品負責人Barkley Dai告訴《智慧湧現》，2023年12月決定轉型做影片生成後，團隊才擴充了影片領域的人才，規模增加到了50人。

他提到，Luma AI能成為影片生成領域的螞蟻雄兵，技術實力、釋出時機和運營策略缺一不可。

人才，是這家公司認為做出影片模型最重要的資產。2023年12月，決定從3D轉型做影片生成後，Luma AI吸納了40個AI領域的人才。

而和OpenAI、Google打擂臺，Luma AI又對模型的演算法和Infra做了諸多最佳化。Barkley對《智慧湧現》表示，團隊在Sora同款DiT架構的基礎上，採用了獨家改進的架構，保證生成效果的同時，還節省了訓練和推理成本。

影片模型“Dream Machine AI”的釋出時間，2024年6月13日，踩中了影片模型賽道的空白點——這也讓Dream Machine AI具有了稀缺性，除了快手“可靈”之外，這是唯一真正對大眾開放的影片模型；

而模型的“限免”策略，又立刻吸引了大量試用者：上線4天，Dream Machine AI的使用者量就破了百萬。Barkley對《智慧湧現》透露，Dream Machine AI的投流費用是0，全靠KOL自發安利，和使用者的口碑發酵。

爆火之後，提高使用者留存，不讓輝煌曇花一現，是Luma AI如今的命題。

2024年11月26日，在影片模型釋出後近6個月，Luma AI在iOS和web端上線了Dream Machine AI創意平臺。與之配套釋出的，還有Luma AI自研的首款影象生成模型，Luma Photon。

△Dream Machine iOS介面。

Luma AI產品設計師Jiacheng Yang（楊家誠）告訴《智慧湧現》，與Midjourney、Adobe等專業設計工具不同，Dream Machine不需要使用者學習如何寫Prompt（提示詞），也不需要使用者懂設計，“我們的目標就是做一款AI小白和設計小白都能輕易上手的AI視覺工具”。

據他介紹，Dream Machine共有5個核心功能：

（1）用自然語言進行對話，實現圖片的創作生成和編輯；

（2）由AI提供創意點子，根據使用者輸入的Prompt，自動提供創意、風格選項；

（3）視覺參照，根據使用者輸入的照片，生成帶有相同主體或者風格的圖片；

（4）將AI設計的圖片轉化為影片，供使用者檢視圖片中主體在不同角度下呈現出的細節；

（5）將所有AI生成的素材釋出在面板上，並生成可供分享的連結，有助於團隊進行頭腦風暴。

△Dream Machine視覺參照功能。

為什麼選擇用影象設計平臺，去承接影片模型的使用者？“想要擴大AI視覺領域使用者的盤子，只有影片生成是不夠的。影象生成的應用場景會更廣泛，所以我們想做一個很好上手的設計平臺，使用者能夠輕易上手的同時，也能展現我們的模型能力。”Barkley提到。

行業競爭，是作為初創企業的Luma AI不得不面對的問題。他們認為，打出差異化優勢，是讓模型和產品在行業中具有辨識度和獲客的關鍵。

比如面對Midjourney等影象產品的競爭，Dream Machine把語言理解能力做到了“天花板”。以及，這也是一個最會設計字型的模型——相較於Midjourney和GPT生成的帶文字的圖片，Dream Machine圖片中文字的設計感和清晰度是最高的。

△Dream Machine在圖片中生成的配文。

和影片模型一樣，Luma AI給Dream Machine花費的投流預算，是0。在Barkley看來，燒錢營銷看的是回報率，這意味著最終還是要用產品說話。以及，“AI市場還很小，我覺得對AI公司來說，燒錢營銷還為時尚早。還不如把營銷的錢，投到產品研發上”。

以下《智慧湧現》與Luma AI增長負責人Barkley Dai、Luma AI產品設計師Jiacheng Yang的交流，內容略經《智慧湧現》編輯：

燒錢營銷，AI公司還為時尚早

《智慧湧現》：2024年6月釋出影片模型Dream Machine的時候，團隊有沒有預料到會爆火？

Barkley：其實當時是遠超我們預期的，我們一度出現伺服器和GPU資源沒有辦法承受的情況。

《智慧湧現》：如果要總結爆火的經驗，你覺得是什麼？

Barkley：其實最早釋出的版本，還不是效果最好的版本。但我們決定全量免費放給所有的使用者去使用。

在當時，還沒有一個影片模型能夠做到這樣。所以短時間內吸引了很多使用者的關注。

《智慧湧現》：對於創業公司來說，做免費的決定是不是還挺不容易的？

Barkley：其實我們當時也給免費設定了一個額度，我覺得這是一個行業的standard practice（基本操作）。

只是當時的峰值對我們來說過高，大量的使用者在短時間內湧入，伺服器後臺收到了太多的request。

《智慧湧現》：公司能負擔流量帶來的推理成本嗎？

Barkley：其實我們還是在技術層面做了很多成本的最佳化，比如不斷去提升影片生成的速度，最開始我們的模型生成5秒的影片需要120秒，現在只需要20秒。

以及在保持原有生成質量的情況下，影片模型的推理還有很多最佳化的空間。所以在半年時間裡，影片模型的成本是在下降的。

所以我覺得推理成本對我們來說不是特別大的負擔，當然也是一筆開支，但未來會變低。

《智慧湧現》：你提到Dream Machine是有免費額度的，那麼使用完免費額度後的使用者付費率怎樣？

Barkley：說實話我們對付費率完全沒有任何預期。因為當時我們對Dream Machine的定位是教育使用者的產品，讓使用者知道Luma AI影片生成的潛力有多大。當時市面上還沒有一個影片模型是按照對標Sora的水平釋出的，所以我們對付費率完全沒有對標的物件。

但現在釋出的AI設計平臺，我們的定位是最終去獲客的產品。所以現在我們對它的收入和付費率有更高的期待。

《智慧湧現》：Dream Machine在營銷上投入了多少？

Barkley：0，我們在釋出的時候沒有做任何的營銷付費。

當然我們提前去聯絡了很多創作者，他們試用後都覺得很興奮，甚至大多數人之前用過Runway，還有人用過可靈。但他們用了我們的產品後，都覺得說“This is the next big thing”，在推特上自發幫我們推廣。

但我們沒有做任何的投放，因為我們還是堅信成功的因素就是產品本身。

《智慧湧現》：燒錢營銷，這一套打法在矽谷AI公司常見嗎？

Barkley：我感覺矽谷大部分還是比較產品驅動的，運營這一套主要是中國公司。

視覺領域的市場還很小，我覺得對AI公司來說，燒錢營銷還為時尚早。即便ChatGPT的使用者很多，但是像一些視覺模型，使用者還是很少數。

這個時候如果你做投流，去做跑馬圈地，留存肯定不高，還不如把這些錢投入到模型和產品的研發上，用更好的模型和產品吸引使用者的增長。

《智慧湧現》：在釋出影片模型之前，Luma AI的技術和產品還是圍繞3D生成的。團隊是什麼時候決定做影片生成模型的？

Barkley：大約在2023年12月。

《智慧湧現》：為什麼從3D轉向做影片和影象模型？

Barkley：我們原來其實也不會說自己是一個3D公司，公司的定位還是視覺領域的AI公司，我們想去理解這個世界在視覺上的構造，是如何幫助AI對世界進行理解的。

從創始團隊的研究背景來看，一開始3D是Luma AI比絕大多數公司和團隊更擅長的事。後續我們也確實做了很多3D生成上的技術突破。

但是3D可以被用於訓練的資料量級，相較於圖片和影片來說都會少很多。同時在使用場景上，目前手機和電腦還是主要的產品載體，但3D也會比影片更受到限制。

但是當我們有更多的算力、更多的人才，也有更多的能力去推進我們的願景，也就是更好地瞭解世界，我們也自然地會從3D轉向做影片。

《智慧湧現》：這會不會讓公司看起來戰略有些搖擺？

Barkley：從我作為一個內部成員的視角來看，我覺得不管是3D還是影片生成，一直都是合理的。

因為不管是3D，還是影片和圖片，都只是一種模態。如果我們最終想做到的是對這個世界的理解，那麼不管是一種模態、一種生成，還是一種創意的發揮，我覺得只要目標不變，這些媒介就只是幫我們達成目標的手段。

《智慧湧現》：從3D轉型做影片生成，期間有遇到什麼困難嗎？

Barkley：我覺得整個過程還是比較順利的，因為我們在做3D生成的時候，團隊也就在十幾人的規模，但當我們做影片生成以後，引入了很多影片領域的人才，現在團隊規模已經超過了50人。

這個過程其實是吸納了更多新成員去推進目標的實現，而不是說原來大家就在頻繁地換方向。只是原來做3D的人，現在也在逐漸開始做影片方面，比如資料等各方面的工作。

《智慧湧現》：做3D的經歷對影片生成有幫助嗎？很多反饋說Dream Machine的運動軌跡做得很好，這和3D積累下的空間理解能力有關嗎？

Barkley：我覺得可能不一定有那麼直接的關係。

但從我們釋出最早版本的影片模型開始，我們對相機的軌跡運動，包括影片裡有多少機位的變化，是十分側重的。

所以當時使用者也會普遍反饋說，Luma AI的模型雖然有時候生成結果不是那麼穩定，但是它能給到很多的機位的移動，以及複雜的人物運動軌跡。

我覺得過去在3D上的一些經驗，能夠讓我們在做視覺模型的時候，意識到提升機位的豐富度和運動軌跡的複雜度，能夠提高使用者對影片生成內容的消費意願。

不過我覺得過去的經驗，包括模型本身之間，其實沒有那麼大的關聯性和借鑑意義。

《智慧湧現》：所以技術轉型最重要還是補充新的技術人才是嗎？

Barkley：是的。

承接住模型的爆火，需要有產品

《智慧湧現》：6月份Dream Machine走紅後，你們怎麼考慮使用者留存的問題？

Barkley：我們釋出Dream Machine的時候，就知道後面一定要有產品去承接使用者持續穩定的需求。

比如你作為一個ChatGPT的長期使用者，即便後續會出來很多能力做得和GPT差不多的模型，你還是大機率會選擇使用ChatGPT。因為ChatGPT透過長期的深度學習，已經把握了使用者習慣，能夠更好地理解你的意圖。

行業裡永遠會有更好的模型出現，但產品最終是能夠讓使用者留存的點。

《智慧湧現》：團隊是從什麼時候計劃做這樣AI設計平臺的？

Barkley：這個想法其實在我們最開始做影片模型的時候就有了。所以產品的想法是去年（2023年）12月和影片模型同步推進的。

只是在產品的設計過程中，我們後來意識到，要想把整個設計流程涵蓋，也必須要做到能夠生成圖片。所以在影片模型釋出5個月以後，我們覺得圖片模型也足夠好的時候，把兩部分同時整合成一個產品。

《智慧湧現》：平臺的目標使用者是哪些人？專業設計師還是大眾？

Barkley：其實我們覺得原來的Dream Machine，更多的使用者還是偏專業的，至少是有做AI電影的經驗，或者知道怎麼用Prompt去生成更好的效果。

但其實我們更希望現在的產品，讓之前沒有用過AI甚至沒有設計經驗的人用起來。比如，如果他們在工作中需要用這樣的流程，可以非常容易地透過一輪一輪地和AI進行對話去實現。

我們在6月份釋出的影片模型Dream Machine，其實還是需要一些使用門檻的。我們在那時候就在想，希望普通人也能access這些視覺工具，就好比視覺裡的GPT。

但視覺是一個很小眾的垂類領域。我們做設計平臺的想法就是，如何去擴大這個群體。只有擴大群體，才能讓視覺領域的AI獲得更好的發展。

《智慧湧現》：非專業設計師很難把一整套設計的工作流用得很深入。我的大部分生圖需求，可能輸入一個簡單的Prompt，用GPT，或者Midjourney就能滿足。

Jiacheng：我們的想法是，把使用者能輕易感受到差別的功能做到最好，比如我們影象能力比GPT好，但是語言理解能力比Midjourney要好。

我用同一個最基礎、完全不復雜的Prompt，讓Dream Machine和Midjourney對比一下：i want to make a poster for my brother band “crazy avocado”.（我想為我兄弟的樂隊“瘋狂牛油果”做一張海報。）

△Dream Machine根據“i want to make a poster for my brother band ‘crazy avocado’”生成的樂隊海報。

△Midjourney根據“i want to make a poster for my brother band ‘crazy avocado’”生成的樂隊海報。

你看Midjourney生成的海報，既不Crazy，也沒有Avocado的元素，也看不出來是個樂隊的海報。

語義理解的能力其實比你想象的重要，會影響很多場景的落地。因為生成隨機的、好看的圖片，在實用場景中意義不是很大。

如果要讓Midjourney真正還原你的意圖，你需要寫很多Prompt，包括海報的設計、上面寫的文字、解釋Crazy的風格等等。學會寫Prompt，我大概花了兩三個月時間。

但我相信ChatGPT的大部分使用者是不會去學的，他們就是進來問一個問題，得到一個結論。

我們做設計產品的思路，也是一樣的。按照之前市面上的產品，如果我想要得生成還原我意圖的圖片，首先，我要花20美金買Claude或者GPT，幫我生成Prompt；其次，我要再花20美金到40美金買Midjourney，生成圖片；最後我還要花20美金的訂閱，把這些圖片變成影片。

算下來，文生影片起碼要花60-80美元。現在用Dream Machine，可能10美元就能搞定了。

《智慧湧現》：Dream Machine語言理解能力的來源，也是自研模型嗎？

Barkley：語言模型用了第三方的API，我們再去構建了一個Agent。這個Agent能夠理解使用者意圖，然後透過不同的Prompting的方式，把使用者意圖轉化為影象和視覺模型能夠理解的指令。

《智慧湧現》：Luma AI現在既有模型，又有產品，怎麼去做商業化？

Barkley：產品還是會採用訂閱的方式。模型就是提供API。

《智慧湧現》：不做定製化？

Barkley：定製化不太適合初創公司，會分散精力。

目前沒有專業視覺工具，在定義互動正規化

《智慧湧現》：一個俗套的問題，你們怎麼看待巨頭下場？按照國內的情況，位元組和快手的下場，已經給很多初創公司帶來了融資和獲客上的壓力。

Barkley：我們發現，這個問題其實是公司和股東之間的問題。只有股東才會關心：如果哪天一個巨頭把你這個事情做了，會怎麼樣？

但實際上，我們公司很多Research都有這樣的感覺：當公司達到一定規模，需要你去協調各種各樣的東西的時候，你推進的速度會變得特別慢，創新的速度也會掉下來。

雖然Luma AI的團隊在過去一年多的時間裡也擴張了很多，但還是保持著快速創新、快速迭代的節奏。

我覺得有一個類位元別好：其實你在大公司裡，真正去做影片模型和相應產品的團隊，可能也只有幾十個人。比如OpenAI看起來很大，但Sora的團隊也就這麼多。

當然說到更大的公司，比如Google，他們可能有比我們更好的distribution channel（擴散渠道），但他們同樣會受制於各種流程上，一個新產品會有商業化等很多方面的concern，推進的速度不會那麼快。

《智慧湧現》：Luma AI的迭代節奏有多快？

Barkley：整體迭代速度一直是以幾個月，甚至是1-2個月來計算的。期間會加入新的功能，底層模型的效果也在提升。

就像Dream Machine 1.0在2024年6月釋出，1.5版本是在8月釋出。1.6版本加了camera control（鏡頭控制）功能，在9月底釋出。

《智慧湧現》：一個新的設計工具型產品，怎麼去獲客？

Jiacheng：我覺得首先可以去分析ChatGPT是怎麼獲客的。你會發現，ChatGPT不光最好的程式設計師在用，你隔壁的大叔大媽也在用。

我覺得AI工具帶來的最大的變化是，由於它本身的可塑性和靈活性，它可以服務幾乎所有有視覺需求的人。

我並不覺得目前特定的視覺專業的軟體，有非常好的互動，換句話說，目前沒有專業視覺工具定義了整個行業的互動正規化。

《智慧湧現》：你怎麼定義“好的互動正規化”？

Jiacheng：比如ChatGPT就定義了整個行業ChatBot的互動正規化，像現在美國的小孩都不是說ChatGPT，他都是說你有麼有問你家的“Chat”。

這裡的“Chat”，已經成了一個像“Google一下”的行為。

我們做Dream Machine也是一樣的。誰能先把普通大眾的想象，透過一個流暢、簡單的方法，呈現出一個好看有趣，然後能分享給別人的或者有用的圖片，誰就能在這個領域有優勢。

《智慧湧現》：從立項到上線，期間你們對互動形式進行了哪些探索？

Jiacheng：我們目前來說，包括行業對我們的認知，都是一個影片模型科研公司。

但是如今的AI技術是一個非常以使用者體驗為核心的產品，技術型產品的目標和迭代過程很明顯，就是最好的使用者體驗。

我們能想到的最好的使用者體驗，就是用最自然的交流方式，把Dream Machine當成一個創意助手或者Creative Partner。你怎麼和設計師互動，就怎麼和系統互動。

有了這樣一個目標，我們就會去了解我們的圖片和影片模型，能夠提供怎樣的能力。同時也去了解整個行業處於怎樣的發展階段，第三方的語言模型能夠給我們怎樣的幫助。

期間，各種各樣的Agent軟體工具也在迭代，大家對於AI應用層的思考也有變化。所以一年以來，我們的產品就是一個持續迭代的過程，具體就是一個月根據行業變化打磨，再花一個月去修改。

這些東西總體統籌、融合起來，才有了現在這樣的效果。

Barkley：期間我們也發現，在AI影片生成領域，目前圖生影片比文生影片更加受歡迎，因為使用者在乎可控性。

所以所有能夠提升可控性的，都是使用者非常需要的功能點。

《智慧湧現》：期間行業哪些產品或者認知的動向，會對公司的產品研發節奏產生影響？

Barkley：其實我覺得過去一年時間裡，我們的產品策略沒有變太多，還是一直想做能讓所有人輕鬆使用模型的產品，不會隨著其他AI產品的釋出去做任何的策略調整。

我覺得產品團隊更關心的事一些Research上的動態和進展，比如我們想做風格轉換、風格遷移的功能，就會去查有哪些最新的學術研究和論文，甚至產品團隊會加入Research團隊的討論，去看研發功能的可行性。

《智慧湧現》：產品團隊在日常工作中是怎麼和演算法團隊交流的？

Barkley：立項的時候，我們會從使用者的角度，覺得風格借鑑這樣的功能很重要。

但是從Research的角度，其實他們不確定這個功能能不能做出來，以及能達到怎樣的效果。所以Research會先去做很多的實驗，直到他們把演算法做出來以後，我們看到這個功能的極限，再去思考怎麼把功能融入到整體產品和體驗上。

所以其實Research是一個更加不確定的過程，往往需要比較長的時間，也不知道要花多長時間訓練。

《智慧湧現》：期間也會捨棄很多暫時不夠好的功能。

Barkley：對。所以其實很多功能我們會從使用者的角度去想，有的功能Research團隊能夠在短時間內做出來，有的功能我們又繼續投入，去做更長的研判，體現在未來的產品裡。

本文標籤叫板 sora 出圈 luma ai 如何接住潑天的流量

AI卷翻科研！DeepMind36頁報告：全球實驗室被AI科學家指數級接管

« 上一篇 2024-11-28

“AI搜尋新貴”Perplexity要做硬體，CEO：價格低於50美元

2024-11-28 下一篇 »

叫板Sora出圈後，Luma AI如何接住潑天的流量？

AI卷翻科研！DeepMind36頁報告：全球實驗室被AI科學家指數級接管

“AI搜尋新貴”Perplexity要做硬體，CEO：價格低於50美元

相關文章