展會信息港展會大全

吳恩達(dá):從文本AI革命到視覺AI大變革
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-10-07 20:27:42   瀏覽:7169次  

導(dǎo)讀:Tranformer再一次改變世界 芝能智芯出品 原文《AI Text Revolution is Coming to Images》。 著名計算機(jī)科學(xué)家Andrew Ng在近期的AI硬件峰會上宣稱: 我們在文本領(lǐng)域所見到的革命將會出現(xiàn)在圖像領(lǐng)域。 Ng展示了一項他稱之為視覺提示的技術(shù),使用Landing.ai的...

Tranformer再一次改變世界

芝能智芯出品

原文《AI Text Revolution is Coming to Images》。

著名計算機(jī)科學(xué)家Andrew Ng在近期的AI硬件峰會上宣稱:“我們在文本領(lǐng)域所見到的革命將會出現(xiàn)在圖像領(lǐng)域。” Ng展示了一項他稱之為“視覺提示”的技術(shù),使用Landing.ai的用戶界面,通過在圖像上涂鴉來提示AI代理識別圖像中的對象。在舞臺上的短短幾分鐘內(nèi),演示了如何提示代理識別一只狗,并計算培養(yǎng)皿圖像中的細(xì)胞數(shù)量。

Ng告訴觀眾:“在計算機(jī)視覺領(lǐng)域,就像三年前的自然語言處理(NLP)會議上的情況一樣,目前有一種特殊的氛圍。”他解釋說,進(jìn)展主要是由大型transformer 網(wǎng)絡(luò)推動的。這對于文本處理中的大型語言模型(LLMs)是成立的,而且在視覺領(lǐng)域,使用未標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練以及擴(kuò)大模型規(guī)模也正在成為事實,“這有助于[視覺]模型的泛化能力”。

Ng指出大規(guī)模視覺模型(LVMs)的技術(shù)尚未成熟,盡管人們對其充滿期待。在討論中,Ng提出了一個未解之謎:如何為訓(xùn)練大規(guī)模LVMs所需的數(shù)據(jù)提供來源?目前,最大的文本生成LLMs通常依賴于互聯(lián)網(wǎng)上的大量語料庫進(jìn)行訓(xùn)練。互聯(lián)網(wǎng)能夠提供大量未標(biāo)記、非結(jié)構(gòu)化的訓(xùn)練數(shù)據(jù),而少量標(biāo)記數(shù)據(jù)可以用于微調(diào)和指導(dǎo)調(diào)優(yōu)。

通常,視覺AI需要使用標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,但Ng認(rèn)為情況可能不會總是如此。采用將圖像的部分區(qū)域隱藏起來,然后由神經(jīng)網(wǎng)絡(luò)填補(bǔ)這些區(qū)域的技術(shù)可以在未標(biāo)記數(shù)據(jù)上進(jìn)行視覺網(wǎng)絡(luò)的訓(xùn)練。

另一種途徑可能是合成數(shù)據(jù),但至今為止,合成數(shù)據(jù)對于生成數(shù)以萬計文本標(biāo)記所需的代ChatGPT大小模型的代價太高。

Transformer網(wǎng)絡(luò)在語言AI中占據(jù)主導(dǎo)地位,并且正在進(jìn)入視覺AI領(lǐng)域。Ng認(rèn)為,Transformer最終會成為所有形式AI的事實上的神經(jīng)網(wǎng)絡(luò)架構(gòu)嗎?

他表示:“不,我不這么認(rèn)為。Transformer是我們工具箱中的絕佳工具,但我認(rèn)為它們不是我們唯一的工具。”盡管生成式AI為大量可用的非結(jié)構(gòu)化數(shù)據(jù)帶來了奇跡,但它對于我們處理結(jié)構(gòu)化數(shù)據(jù)的能力并沒有提供幫助。結(jié)構(gòu)化數(shù)據(jù),比如電子表格中的數(shù)字列,不適合Transformer,因此仍然需要采用其他方法進(jìn)行AI處理。

在當(dāng)前的趨勢中,LLMs越大,它們在泛化方面的能力就越好。但是LLMs可以變得有多大呢?是否存在實際上的極限?Ng表示:“我認(rèn)為我們還沒有用盡擴(kuò)展的可能性。但現(xiàn)在它變得困難了,我認(rèn)為還有其他創(chuàng)新途徑。”他指出,在許多用例中,一個含有130億參數(shù)的模型和一個含有1750億參數(shù)的模型的性能可能是一樣的。對于像語法檢查這樣簡單的任務(wù),一個運(yùn)行在筆記本電腦上的30億參數(shù)模型可能就足夠了。

對于基本的文本處理任務(wù),比如情感分類,10億參數(shù)可能已經(jīng)足夠了,可以運(yùn)行在移動設(shè)備上,而處理對世界有“相當(dāng)多知識”需求的任務(wù)可能需要數(shù)百億的參數(shù),更復(fù)雜的推理可能需要千億級的參數(shù)。

他說:“有可能未來我們將看到更多的應(yīng)用在邊緣設(shè)備上運(yùn)行。當(dāng)您需要進(jìn)行真正需要1000億參數(shù)模型的復(fù)雜任務(wù)時,我們將退而求其次,但我認(rèn)為許多任務(wù)可以使用更適中規(guī)模的模型運(yùn)行。”

Transformer及其基于的注意力機(jī)制是六年前發(fā)明的,但到目前為止,硬件制造商只是在謹(jǐn)慎地開始專門為這個重要工作負(fù)載定制加速器。對于Transformer的架構(gòu)是否已經(jīng)開始成熟,或者我們應(yīng)該期待這個工作負(fù)載在未來會有更多的演變?

他表示:“這很難說。”他說:“原始論文是在2017年發(fā)表的……如果這是最終架構(gòu),我會感到有點(diǎn)失望,但我也愿意接受震驚。注意力機(jī)制效果非常好。生物和數(shù)字大腦有很大的不同,但在生物智能中,我們的大腦就像演化將各種元素組合在一起一樣但它確實非常高效。在Transformer之前,神經(jīng)網(wǎng)絡(luò)也能做得很好。再看看x86架構(gòu)已經(jīng)持續(xù)了多久!”

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港