當前位置：人工智能實驗室> 企業(yè)新聞 > 這家AI公司，做出了全球最大的原生3D大模型

這家AI公司，做出了全球最大的原生3D大模型
來源：互聯(lián)網發(fā)布日期：2024-10-18 18:34:28 瀏覽：2091次

導讀：劃重點 01成立僅9個月的AI創(chuàng)業(yè)公司DreamTech專注于原生3D生成，團隊擁有豐富的3D領域經驗。 02該公司發(fā)布了全球首個公開發(fā)布的具備可擴展性的原生3D生成大模型Direct3D，具備50億參數(shù)規(guī)模。 03Direct3D模型參數(shù)每增加4倍，生成結果質量精度提高2倍，尤其在動...

劃重點

01成立僅9個月的AI創(chuàng)業(yè)公司DreamTech專注于原生3D生成，團隊擁有豐富的3D領域經驗。

02該公司發(fā)布了全球首個公開發(fā)布的具備可擴展性的原生3D生成大模型Direct3D，具備50億參數(shù)規(guī)模。

03Direct3D模型參數(shù)每增加4倍，生成結果質量精度提高2倍，尤其在動畫人物手指等精細部位表現(xiàn)明顯。

04除此之外，DreamTech還推出了二次元創(chuàng)作神器Neural4D和聊天應用程序AnimeIt，旨在滿足創(chuàng)作者和普通用戶的需求。

05目前，DreamTech正致力于研發(fā)更大規(guī)模的模型，如16B版本的Direct3D-XL，以提升生成結果質量精度。

以上內容由騰訊混元大模型生成，僅供參考

這家AI公司，做出了全球最大的原生3D大模型

“實際上大眾都是3D內容的消費者。”

作者｜八度

“在淘寶上，有特別多做3D創(chuàng)意設計的店鋪，他們一年的銷量能達到幾十萬件。原先他們是半人工操作，現(xiàn)在我們現(xiàn)在能夠借助AI、通過3D生成直接打印就可以了。”DreamTech創(chuàng)始人張飛虎向「甲子光年」展示道。

DreamTech雖然是一家成立僅9個月的AI創(chuàng)業(yè)公司，但其戰(zhàn)略路線明確，專注于原生3D生成，并且團隊在這一領域的經驗豐富。

CEO張飛虎博士畢業(yè)于牛津大學，師從英國皇家科學院、皇家工程院兩院院士Philip Torr。Philip Torr教授在3D建模方面有重點研究。此外，DreamTech創(chuàng)始團隊成員還曾成功創(chuàng)立多家3D領域標桿公司，后被蘋果、谷歌等業(yè)界巨頭收購。

這一次，DreamTech的成立，對于張飛虎和其團隊來說，都是新的出發(fā)。不過在張飛虎看來，創(chuàng)業(yè)并非心血來潮，而是籌備已久：3D生成，終于走到了商業(yè)化的門前。

2023年下半年，DreamTech團隊發(fā)現(xiàn)了3D技術的新方向能夠實現(xiàn)端到端的生成模型，類似于圖像或視頻的處理方式。緊接著，他們又攻克了3D模型表征的關鍵難題。這兩者技術突破，讓張飛虎和他的團隊看到了希望，隨即開展了一系列緊鑼密鼓的動作。

2024年5月，DreamTech團隊公布了其研發(fā)的3D生成大模型Direct3D的算法研究論文，這也是全球首個公開發(fā)布的具備可擴展性的原生3D生成大模型。該學術成果受到行業(yè)的廣泛關注，Meta、Apple、Adobe等企業(yè)相繼跟進該研究論文。

8月份，DreamTech團隊又推出了最新的Direct3D-5B版本，具備50億參數(shù)規(guī)模，成為目前全世界參數(shù)規(guī)模最大的3D生成大模型，這一模型具備scaling up能力，基本結論為：3D生成模型參數(shù)量每增加4倍，生成結果質量精度提高2倍。

具體來說，在3D領域，動畫人物的手指等精細部位也可以被立體地生成。在模型幾何結構規(guī)整度、細節(jié)精度上，Direct3D-5B也都實現(xiàn)了明顯的提升。

這家AI公司，做出了全球最大的原生3D大模型

Direct3D-1B（上）與Direct3D-5B（下）對比

在產品即將正式上線前夕，張飛虎接受了「甲子光年」的專訪，詳細介紹了3D生成過去的痛點、如今在3D數(shù)據(jù)合成、算力、scaling law等方向上的突破。同時他還講述了今年對DreamTech團隊來說，最為重要的一件事。

以下為采訪內容，經過編輯整理。

1.3D技術創(chuàng)業(yè)：DreamTech的端到端原生3D之路

甲子光年：去年12月，DreamTech公司成立。當時，是什么契機促使你們決定回國創(chuàng)業(yè)？

張飛虎：實際上，創(chuàng)業(yè)這個想法我準備了比較長的一段時間，但確實在去年下半年才開始融資。

當時，我們發(fā)現(xiàn)了一個核心的技術收斂：3D領域可以像圖像或視頻一樣做出端到端的生成模型，這是其他公司或研究人員尚未發(fā)現(xiàn)的。我們看到了3D領域scaling law的能力。

去年上半年還出現(xiàn)了一項新的技術進展，叫DiT架構，它被應用于文生圖。緊接著，我們自己解決了一個3D模型表征的問題，這是一個關鍵問題。將這兩者結合起來，我們看到了希望，認為這個項目可以開始實施，并有望在今年（2024年）商業(yè)化。

簡單來說，去年下半年我們判斷今年可以開始進行3D生成的商業(yè)化，而在此之前這是不可能的。

甲子光年：你剛提到為創(chuàng)業(yè)籌備了很久，是你在此之前一直在等這個時機？

張飛虎：對，其實在2022年初，我們就開始進行相關的研究和開發(fā)。那年，我們在WAIC大會上展示了相關的demo，當時關注度也比較高。但當時的技術水平僅限于制作一些演示，而且速度非常慢，可能需要一個小時才能生成一個3D模型，效果也不理想。我當時看到這個情況，就覺得它還沒有達到商業(yè)化的程度，所以我們一直在不斷地打磨和完善相關的技術。

直到去年，我們發(fā)現(xiàn)了新的算法實現(xiàn)方案，情況不一樣了。只要算力夠，我們能立馬去訓練這個模型并開展商業(yè)化，所以我們在去年下半年啟動創(chuàng)業(yè)。

甲子光年：聽起來，你們關于創(chuàng)業(yè)的整個決策過程是比較順其自然的，并沒有太多困惑和矛盾？

張飛虎：我認為這是我們最自豪的一點。我們的戰(zhàn)略決策做得就比較對，比如與市場上其他一些做3D生成的公司相比，包括海外的公司，他們在開始時選擇了2D轉3D這樣一套方案，花費了幾千萬去做這樣一個模型或者上線產品。

但我們一直堅持做端到端的原生3D，當我們推出新方案后，舊的方案就全部被淘汰了。即便你投入了數(shù)千萬甚至上億的資金，在新的方案出來之后，所有的資源都要推倒重來。

我們在戰(zhàn)略決策上，由于我們自身的經驗比較豐富，我們團隊是做3D領域起家的，也做過公司并出售過，在3D領域有十年以上的一個積累。所以我們在戰(zhàn)略決策時判斷哪些算法可行，哪些事情該做，我們的方向就比較準確。

在融資拿到錢之后，我們就立馬就把這套方案給做出來了，基本上沒有浪費什么時間和資源。

甲子光年：在你看來創(chuàng)業(yè)最重要的是什么？或者說，你在創(chuàng)業(yè)之初的一個目標是什么？

張飛虎：我的目標其實當時考慮得很簡單。我2022年博士畢業(yè)前，也就是2021年，我已經拿到了包括Google、Facebook等大公司的offer，也拿到了教職的邀請。

但我當時想的是，我想要做出一些影響力較大的東西，而不是僅僅在學校或大公司的研究所里繼續(xù)做一些小規(guī)模的研究。

比如，我想要開展一些大型項目，但無論是在學校還是在大公司，我都做不到這一點。因為在大公司，我不可能一進去就能獨立開展一個非常大的項目，比如像現(xiàn)在的3D生成項目。

另外，在學校里，資源是有限的，尤其是數(shù)據(jù)和算力資源，這是學校無法提供的。因此，我當時就想，如果想要做一個有影響力的大型項目，我就出來自己搞唄。這就是我當時的想法。

2.3D技術突破：解鎖3D生成的scaling law潛力

甲子光年：你剛剛提到，在高校中進行這項工作時，數(shù)據(jù)和算力無法滿足需求，是嗎？

張飛虎：對，首先，數(shù)據(jù)方面確實是一個難題。比如我們現(xiàn)在動輒需要處理的數(shù)據(jù)量達到1PB級別，這對于高校來說是無法支撐的。不僅是國內高校，即便是世界頂尖的學府，像牛津大學這種，盡管有龐大的經費，但它的算力也是有限的。

實際上，我們要做一些好的工作，其實大部分情況下還是需要跟外部公司做合作的，算力和數(shù)據(jù)，都存在這樣一個瓶頸。

甲子光年：創(chuàng)業(yè)時，如何解決數(shù)據(jù)算力難題？

張飛虎：第一個是數(shù)據(jù)這塊，3D數(shù)據(jù)的獲取實際上非常困難。我們采取的策略是數(shù)據(jù)合成。

在我博士研究期間，我的課題是3D AI結合數(shù)據(jù)合成。因此，我們從2022年開始到2023年初，持續(xù)在做3D數(shù)據(jù)合成的工作，合成了非常多3D的數(shù)據(jù)。比如你剛才看到的那些二次元角色的數(shù)據(jù)，都是我們合成的成果。

利用合成的3D數(shù)據(jù)訓練AI，這是我們的獨家秘籍。

甲子光年：你們已經合成了2000萬的數(shù)據(jù)？

張飛虎：對，3D數(shù)據(jù)的成本非常高，單個3D資產的平均制作成本大約是1000美元一個。

如果人工制作這些數(shù)據(jù)，成本將是2000萬乘以1000美元，所以人工制作是不現(xiàn)實的，全世界沒有那么多人力可以完成這樣的工作，因此3D制作的難度非常大。唯一的解決方案就是數(shù)據(jù)合成。

我們在這塊做了比較領先的一些方案，而且把它做到了一個全球領先的程度，甚至有些大公司可能會來挖我們的人才。核心原因在于，我們不僅理解了算法，而且擁有大規(guī)模的數(shù)據(jù)支撐。這些數(shù)據(jù)的規(guī)模可能比世界上任何一家公司都要大。

數(shù)據(jù)合成是一套非常復雜的系統(tǒng)，它需要日積月累的的經驗和系統(tǒng)構建，以及反饋機制。它是一個機器學習系統(tǒng)，類似于我們早年看到的AlphaGo，涉及強化學習和監(jiān)督學習，然后通過整個反饋過程，組合出一些真正有用的成果。

甲子光年：數(shù)據(jù)合成是從去年開始的嗎？

張飛虎：是的，去年年初開始，到現(xiàn)在有一年半了。

相比之下，其他公司可能需要購買數(shù)據(jù)，或者花錢去爬取數(shù)據(jù)，這當然存在一定的法律風險，屬于灰色地帶。另外，購買數(shù)據(jù)的成本非常高。所以我們的優(yōu)勢在于可以用低成本獲取大量合成數(shù)據(jù)。

甲子光年：你們是最開始就意識到數(shù)據(jù)是一個痛點，所以很早就往這個方向去突破了，是嗎？

張飛虎：確實，我們在算法之前，去年上半年，我們已經開始搞數(shù)據(jù)了。

因為我們堅定認為（數(shù)據(jù)）這件事比較重要，我對這方面的認識比較足。我所在的牛津實驗室是世界上非常知名的能夠進行數(shù)據(jù)合成的實驗室，為蘋果公司提供過相關的服務。我的導師認為，在算法層面，它并沒有大家想象的那么困難，你不去做別人也會去做，但數(shù)據(jù)工作屬于基礎研究的領域。

整個AI領域都是建立在數(shù)據(jù)基礎之上的。例如，我們看大語言模型，F(xiàn)acebook開源的Llama 3與Llama 2相比，它的模型本身并沒有大改，它只是更新了數(shù)據(jù)，將訓練數(shù)據(jù)清洗得更干凈，并使用了更多的訓練數(shù)據(jù)，它的效果就直線提升了。實際上，數(shù)據(jù)才是AI的一個本質問題。

有了數(shù)據(jù)的支撐，我們可以疊scaling law了。我們最近在研究中發(fā)現(xiàn)了一個非常重要的規(guī)律，在5月份時我還沒有完全搞清楚，但最近我們迭代出新版本的模型后，發(fā)現(xiàn)了一個特別重要的事情：3D生成領域的scaling law，咱們看大語言模型生成了scaling law，圖像模型生成了scaling law。

那到3D生成領域的scaling law是怎樣的呢？

我們發(fā)現(xiàn)：模型參數(shù)每提升4倍，模型的精細度就能提高2倍，也就是說我們生成的圖像質量可以提高2倍。比如原來我能做1厘米厚度的東西，我現(xiàn)在就能做到5毫米。

比如從1B到現(xiàn)在公開的5B，精細度的提升非常明顯。1B的手指有些彎曲，但5B的手指就非常直了。

甲子光年：在你看來，目前市場上有哪些算是DreamTech的競品？

張飛虎：我們在數(shù)據(jù)上的優(yōu)勢是任何一家公司都不具備的，哪怕是大公司。在算法層面上，我們迭代得非�？�，實際上各家可能主要在參考我們的一些相關研究，我們推動了這一波的技術革新。

長遠看，數(shù)據(jù)一定是DreamTech最大的優(yōu)勢。

短期內，比如半年內，我們在算法上的優(yōu)勢也很大。從長遠來看，可能取決于我們擁有多大規(guī)模的數(shù)據(jù)。這是一個持續(xù)的過程，而且是一個門檻非常高的領域。

3.3D技術革命：DreamTech的二次元創(chuàng)作神器

甲子光年：我看過資料，你們目前已經開發(fā)了兩款產品，這其中哪款產品會被優(yōu)先開發(fā)？

張飛虎：你所看到的是Neural4D，這個產品是為創(chuàng)作者設計的。

另一款產品則是名為AnimeIt的應用程序，它具備聊天和陪伴等功能，更偏向于C端市常

我們的商業(yè)化進程是有明確時間節(jié)點的，特別是在10月份，我們將重點放在創(chuàng)作者產品這一部分，并計劃做一些活動，例如近期我們做了一個CuteMe的創(chuàng)意玩法，用戶可以通過照片創(chuàng)作Q版風格化的3D形象，讓普通用戶也可以自由發(fā)揮創(chuàng)意。

這家AI公司，做出了全球最大的原生3D大模型

Direct3D-1B 3D打印件效果

甲子光年：你們會為客戶提供哪些服務模式？

張飛虎：我們的服務模式之一是創(chuàng)意平臺，通過我們的產品，設計師可以注冊賬號，并推出一些增值功能，例如付費用戶能夠體驗到更多的功能。用戶在網站上生成內容后，可以進行編輯，并利用工具制作動畫，這些操作都可以在網站上完成。

用戶可以根據(jù)自己的需求使用這些內容，比如游戲開發(fā)者可以將其用于游戲開發(fā)，動畫師可以用于動畫制作，或者3D設計師可以將其打印出來，這是針對創(chuàng)作者的服務，我們稱之為小B端的創(chuàng)作群體。

對于普通用戶，可能平時沒有意識到自己是3D資產的消費者，但實際上大眾都是3D內容的消費者。

例如，在玩游戲時，我們可以為普通用戶開放一個APP。這個APP的功能允許用戶創(chuàng)造角色，包括Q版或二次元風格的角色，并與之進行互動，比如聊天和社交體驗，還可以為角色裝扮，類似于過去的QQ秀。

此外，用戶還可以將這些角色打印出來作為禮物送給他人，比如將家人的形象轉換成風格化的角色后，作為禮物送給朋友或家人。

用戶還可以在APP上玩游戲，甚至自己制作小游戲，因為我們的生成技術非常強大，用戶可以創(chuàng)造出場景，拼接資產，享受無限的可能性，比如自己創(chuàng)造游戲等。

甲子光年：現(xiàn)在生成需要多長時間？

張飛虎：大約1～2分鐘，這取決于后臺用戶排隊的情況。如果等待時間較長，很可能是因為后臺用戶太多。去年這個時候，可能最快也需要20分鐘。

甲子光年：你們是什么時候確定走二次元路線？

張飛虎：我們在做3D生成的時候進行過市場調研，普通用戶大多不喜歡那種真實還原的效果。比如我給自己拍一張照片，然后做成100%還原的樣子，普通用戶并不喜歡，他們喜歡的是風格化、可愛、卡通化的效果。

而且，這種風格的受眾和市場規(guī)模要比其他風格大得多。比如二次元在整個3D內容消費市場中占據(jù)了50%的份額，加上Q版風格的，兩者加起來超過了80%。

所以去年我們確定以風格化作為主要的路線。我們不會追求100%的真實還原，而是會進行風格化處理，比如你輸入的是一個人的真人圖像，我們可能會將其轉換成二次元形象，或者轉換成Q版形象。

甲子光年：基于你剛剛提到的全世界最大，包括之前也有資料顯示是全球首個原生3D大模型。我如何辨別或證明是否為全球首個？

張飛虎：你可以看到我們5月份最早發(fā)表的一篇關于原生3D的論文。這是目前公開發(fā)表的第一篇達到這種水平的論文。在此之前，確實還沒有類似的研究，大家都在嘗試其他的方案，但我們的這套方案是目前大家公認的。例如，我們了解到歐美的大企業(yè)都在跟進這套方案，都在朝這個方向去做。

甲子光年：外界會對3D市場有刻板印象，認為3D的AI應用會是一個相對小眾的市場，更適合設計師人群。你怎么看待這種觀點？

張飛虎：其實我剛才介紹行業(yè)的時候，每一個行業(yè)都非常非常大。當時我們在做市場調研的時候，就發(fā)現(xiàn)一個問題，比如現(xiàn)在非常熱的圖像和視頻，大家傳統(tǒng)意義上認為市場比較大，但大家會發(fā)現(xiàn)一個點，就是大眾不太愿意為這些付費，因為互聯(lián)網上這些東西都是天然存在的，是免費的。

但在3D領域，并不是如此。在3D領域，我們平時獲取資產時，要么自己訂閱軟件，比如在海外，當付費習慣較好時，使用的都是正版軟件，如3D Max等建模軟件，年訂閱費用約為1萬美元。

而當用戶需要購買模型時，這與圖像和視頻也不一樣，因為圖像和視頻可以輕易地截圖或錄制。但購買3D資產或虛擬資產時都需要付費，比如在sketchfab上購買一個最簡單的資產，可能需要花費大約10到15美元。即使在國內，用戶不太愿意付費的情況下，他們也會知道在淘寶上購買盜版模型可能需要花費幾塊錢。

所以這些是3D領域與其它領域不同的地方，我們不必擔心用戶不愿意付費的問題，他們的付費習慣非常好，也愿意為這些3D資產付費。

另一個支撐這個行業(yè)龐大的因素是其下游應用場景非常廣泛。

例如，游戲行業(yè)就是一個非常大的市常再比如3D設計行業(yè)，它是一個萬億級別的行業(yè)。我們接觸到的許多用戶，比如珠寶設計師、鞋類設計師，或者其它類型的設計師，他們可能會設計出某個產品，生成一個3D模型，并將其制作成3D打印產品。此外，有些用戶可能會購買一個花瓶，如果只是普通購買，可能只需要花費10元錢，但如果這個花瓶是用戶自己創(chuàng)造的、獨一無二的設計，那么他們可能愿意花費幾百元。

在歐洲和國內，年輕人在創(chuàng)業(yè)和設計領域的需求非常大。具體來說，有幾個非常大的行業(yè)。首先是創(chuàng)意設計領域，我們一直認為它是一個千億甚至萬億級別的市場，這完全依賴于3D技術，因為它需要制作實物。另一個是游戲行業(yè)，我們看到了《黑神話：悟空》上線幾天就賺取了十幾億的收入，它完全是基于3D技術。

當我們的3D生成技術成熟后，我們認為即使是小團隊也能夠開發(fā)3A級別的大作。

目前3D應用最困難的部分還是模型的制作，可能需要花費數(shù)年時間進行建模和掃描。但在3D技術成熟后，開發(fā)這類3A大作游戲將變得非常簡單。還有動畫行業(yè)，現(xiàn)在3D動畫正成為主流，動畫也是一個千億級別的市常

為什么說3D動畫的體驗感要比2D好很多？2D動畫是一張張圖畫，然后將它們連接起來使動畫動起來。而3D動畫則是先建立3D模型，然后通過動作捕捉技術，讓人的表情和動作驅動模型，最后渲染出一部動畫，其流暢性和連貫性都非常好。還有大家期待非常高的AR和VR行業(yè)，整個生態(tài)完全依賴于3D技術。

甲子光年：3D其實是在迭代這些行業(yè)？

張飛虎：對，它會讓這些行業(yè)做得更好玩，而且讓每一個用戶都可以獨立創(chuàng)作。同時，比如我們期待的元宇宙和AR、VR技術，為何之前的發(fā)展并不成熟，沒有起來？核心原因有兩個：一是內容太少，無法生產出好玩的內容。3D建模太難了，沒有這類資產和數(shù)據(jù)，不像圖像或視頻那樣簡單，3D建模的難度確實很大。

另一個原因就是硬件設備還不成熟。設備的成熟可能是一個漸進的過程，當然，這需要硬件公司來解決。

我們把3D內容這塊做好，這是3D生態(tài)的一個基礎技術，它的重要性就像現(xiàn)在的文字和圖像在互聯(lián)網上的重要性一樣，在XR這個生態(tài)系統(tǒng)中，3D是一個基礎元素級別的關鍵要素。

甲子光年：你認為今年對DreamTech來說最重要的一件事是什么？

張飛虎：我們認為最重要的是在年底前完成15B至16B模型，也就是我們稱之為XL模型的迭代。

這個模型對我們的數(shù)據(jù)處理要求非常高，它意味著我們從數(shù)據(jù)合成階段進入到數(shù)據(jù)閉環(huán)階段。同時，在這一基礎上，我們將開發(fā)出更多的商業(yè)應用。這是我們今年年底的目標，就是訓練出一個具有160億參數(shù)的模型。

目前，由于算力限制，我們實際上并沒有使用全部數(shù)據(jù)進行訓練，例如我們的5B版本模型僅使用了大約400萬數(shù)據(jù)。而XL模型將使用全部2000萬訓練數(shù)據(jù)。

這家AI公司，做出了全球最大的原生3D大模型

Direct3D 迭代路線圖，DreamTech下一個目標：Direct3D-XL（16B）版本，將進一步提升生成結果質量精度

甲子光年：這個一旦做成其實也是一個里程碑。

張飛虎：對，它將是一個非常大的里程碑。我們自己的C端產品都可以在這個基礎上做得非常好。而在明年上半年，基于這個模型，我們可能會經歷一個用戶數(shù)量激增的階段。

（封面圖來源及文中圖片來源：DreamTech）

相關熱詞： 這家公司出了全球大的原生大模型

上一篇：科技六巨頭共話AI之際，我們對智能體也有一些思考

下一篇：諾獎得主哈薩比斯最新訪談：僅僅將AI視作一種技術是錯誤的

這家AI公司，做出了全球最大的原生3D大模型
來源：互聯(lián)網發(fā)布日期：2024-10-18 18:34:28 瀏覽：2091次

相關內容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內容

在線客服

熱門欄目HotCates

關于我們

版權聲明

這家AI公司，做出了全球最大的原生3D大模型 來源：互聯(lián)網 發(fā)布日期：2024-10-18 18:34:28 瀏覽：2091次

相關內容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內容

在線客服

熱門欄目HotCates

關于我們

版權聲明

這家AI公司，做出了全球最大的原生3D大模型
來源：互聯(lián)網發(fā)布日期：2024-10-18 18:34:28 瀏覽：2091次