當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 為什么說AI現(xiàn)在還不行？

為什么說AI現(xiàn)在還不行？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-12-11 17:41:16 瀏覽：4669次

導(dǎo)讀：圖片來源@視覺中國文 | 李智勇 AI最近有點(diǎn)被妖魔化了，很像一個(gè)老虎在還沒有橘貓大的時(shí)候，就已經(jīng)被天天當(dāng)成虎力大仙來討論。這種普遍的高預(yù)期其實(shí)是有害的，尤其是當(dāng)事情本身還需要耐心細(xì)致深耕且長跑的時(shí)候。資本、品牌可以匹配高預(yù)期所對(duì)應(yīng)的增長倍數(shù)，...

圖片來源@視覺中國

文 | 李智勇

AI最近有點(diǎn)被妖魔化了，很像一個(gè)老虎在還沒有橘貓大的時(shí)候，就已經(jīng)被天天當(dāng)成虎力大仙來討論。這種普遍的高預(yù)期其實(shí)是有害的，尤其是當(dāng)事情本身還需要耐心細(xì)致深耕且長跑的時(shí)候。資本、品牌可以匹配高預(yù)期所對(duì)應(yīng)的增長倍數(shù)，業(yè)務(wù)則不行，業(yè)務(wù)先天擠出一切泡沫。也正因此最近寫了幾篇文章都在提應(yīng)該以一種更加理性的態(tài)度來看待AI的進(jìn)展，甚至設(shè)想了一種測試智能程度的方式：圖靈測試2.0。這篇文章則是對(duì)此前各文章的綜合。

AIGC的GC（內(nèi)容生成）是支點(diǎn)也是鎖鏈

顯然的AI是一種基礎(chǔ)設(shè)施，它在重定義計(jì)算的內(nèi)涵和方式。

如果和過去對(duì)比，那么過去的編程固化的是程序員的智能，程序員的智能通過程序在限定的邊界內(nèi)處理問題，所以泛IT的崛起伴隨著程序員群體的崛起，不管是程序員的人數(shù)還是收入。AI則在很大程度上折疊這個(gè)中間環(huán)節(jié)，對(duì)話即計(jì)算，同時(shí)讓這種計(jì)算變的更加泛化和無邊界。從這個(gè)角度看，AI的崛起注定伴隨著程序員群體的衰落（首先是人數(shù)上，但不是說這行當(dāng)就沒了）。

（用戶--程序員--程序--電腦--互聯(lián)網(wǎng)的計(jì)算模式）

（用戶--人工智能的計(jì)算模式）

基礎(chǔ)設(shè)施的最終成敗好壞一定在于外部，而不在于它自己的特征比如是否優(yōu)秀、大模型到底多大等。在過去微內(nèi)核操作系統(tǒng)一度眾望所歸，但其實(shí)不管Linux還是Windows都不是微內(nèi)核，純粹的微內(nèi)核系統(tǒng)比如Minix卻只是教具。

作為基礎(chǔ)設(shè)施的AI也一樣，要想成功那就必須走出單純內(nèi)容生成工具的范疇，變成一種通用計(jì)算平臺(tái)，為各種場合提供新計(jì)算方式。

過去不管Windows還是Linux都提供了這種通用性，從取款機(jī)到機(jī)場的大屏，再到家里的機(jī)頂盒，甚至有點(diǎn)智能的鬧鐘都是他們在提供基礎(chǔ)的計(jì)算能力。（有時(shí)候這些系統(tǒng)會(huì)崩潰，讓人驚訝的是不是崩潰而是看到好多系統(tǒng)其實(shí)是XP的）。

AI打破內(nèi)容生成工具的界限后，就會(huì)變成這個(gè)新的計(jì)算底座（通用人工智能的通用對(duì)應(yīng)的就是這個(gè)情境）。也只有成為這種通用的計(jì)算底座后，AI才真正迎來自己的星辰大海。

在現(xiàn)在的內(nèi)容生成式AI和這種通用計(jì)算底座之間現(xiàn)在橫亙著一道無形的基因鎖鏈一樣的界限。

這個(gè)基因鎖鏈就是內(nèi)容生成工具的邊界。

AIGC的GC（內(nèi)容生成）是支點(diǎn)也是鎖鏈。

在工具范疇里，這次AI其實(shí)已經(jīng)做的足夠好，就是池子太小，如果就做這個(gè)會(huì)憋死所有人。

GC工具池子太小做的人太多，會(huì)憋死所有人

我們拿個(gè)具體例子來看下為什么說這個(gè)池子太校

起點(diǎn)中文網(wǎng)上有個(gè)網(wǎng)文作家筆名叫做我吃西紅柿，這個(gè)1987年的同學(xué)本來是蘇州大學(xué)數(shù)學(xué)專業(yè)的一名大學(xué)生，按正常軌跡畢業(yè)后大概率不能繼續(xù)做數(shù)學(xué)相關(guān)的工作，那時(shí)候就業(yè)很可能會(huì)做程序員等相關(guān)方向。但他沒走尋常路，在大學(xué)期間開始了網(wǎng)文創(chuàng)作，取得了很好的成績，2012年11月以2100萬的版稅收入高居“中國網(wǎng)絡(luò)作家富豪榜”第2位。

假設(shè)他一年寫一部小說3百萬字，放大點(diǎn)算1000萬token。現(xiàn)在這部分自己不寫了，都用AI。隨便選個(gè)國內(nèi)某大模型的報(bào)價(jià)做參照，按1500元/5000萬token，那這部分給人工智能公司可以創(chuàng)造的收入是300塊，在2100萬收入里面占十萬分之一多一點(diǎn)。再放大下，如果有10000個(gè)我吃西紅柿，那AIGC在網(wǎng)文行業(yè)一共可以賺300萬。這還不夠一個(gè)團(tuán)隊(duì)一年的工資，特別高端人才的情況，這甚至不夠一個(gè)人的。

如果大模型只做內(nèi)容生成，創(chuàng)造的價(jià)值和行業(yè)現(xiàn)有價(jià)值大致就是這么個(gè)比例。

而已經(jīng)很多人沖進(jìn)來了，這就很像做一個(gè)很小的池子里養(yǎng)了一堆鯊魚，餓極了就只能拼命內(nèi)卷互相殘殺，然后大概率是都死掉了，一條不剩。

如果AI不能在GC之上再進(jìn)一步，就必然是這個(gè)結(jié)局：帶著快樂期望的高度內(nèi)卷。

這種內(nèi)卷對(duì)AI整體來講是徹底的負(fù)反饋和死路一條

每個(gè)人期望的都是新式通用計(jì)算平臺(tái)和應(yīng)用，實(shí)際上卻只是內(nèi)容生成工具，創(chuàng)造一點(diǎn)點(diǎn)新價(jià)值。長時(shí)間怎么可能不負(fù)反饋呢！

那AI怎么才能走出來呢？答案是需要通過圖靈測試2.0。

注3：關(guān)于AI的商業(yè)模式的匯總參見《AI能賺到錢了么？》

圖靈測試2.0

原始的圖靈測試這樣：

這是一個(gè)純粹的智能測試，本質(zhì)是追求在封閉系統(tǒng)里面的邏輯自洽性。

現(xiàn)在我們把Agent類似的概念加入這個(gè)測試：

這就是圖靈測試2.0。和1.0相比核心差異是什么呢？

去幻覺，有邊界。

1.0是一個(gè)凌空的系統(tǒng)，具有合理性的幻覺其實(shí)有助于通過測試，但2.0不行，測試者同時(shí)從真實(shí)場景和被測試者接受反饋；其次就是測試邊界的限定要求更高的智能深度。這很像趙括學(xué)兵法能說的天花亂墜，但不一定能打仗；會(huì)打仗不一定兵法上什么都懂，但水站、陸戰(zhàn)、馬站好歹得會(huì)一個(gè)。

能否打破內(nèi)容生成的邊界變成各種場合都用的新式通用計(jì)算平臺(tái)，關(guān)鍵取決于智能是否能跟上。而智能是否能跟上取決于是否在一個(gè)個(gè)場景下能通過圖靈測試2.0。

Linux和Windows等輸出智能的方式雖然老土，并且但他們提供了足夠的確定性，他們加上程序員達(dá)成了過去所謂的軟件吞噬世界。這是一種Good Enough的計(jì)算模式，但現(xiàn)在的AI還不是。

現(xiàn)在大模型等確實(shí)提供了更好的計(jì)算形式，但關(guān)鍵是它的不智能（過不了圖靈測試2.0）導(dǎo)致不能替換過去系統(tǒng)加程序員的組合。智能的邊界限制了應(yīng)用的邊界。

注4：圖靈測試2.0的展開參見《AI的進(jìn)展不是太快，而是太慢》

通過圖靈測試2.0后會(huì)怎么樣呢？

那時(shí)候不單客服、外呼會(huì)基于AI進(jìn)行構(gòu)建，每個(gè)現(xiàn)有應(yīng)用（Office等已經(jīng)開始、游戲大概率會(huì)爆真正的多維敘事高度隨機(jī)，主打智能的新式游戲）、廣告屏、智能音箱、電視甚至手機(jī)都會(huì)重整。因?yàn)?strong>基本計(jì)算范式變了，它的交互載體必然發(fā)生變化，這個(gè)變化的幅度可能大于PC互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)的更迭幅度。從這個(gè)角度可以進(jìn)機(jī)器人一定是下個(gè)通用計(jì)算平臺(tái)型產(chǎn)品。

極端講除了極其機(jī)械的那類產(chǎn)品比如霓虹燈，計(jì)算器，別的都會(huì)變。

這種視角可以描述成為場景的智能密度，顯然的擰螺絲的智能密度度低于算數(shù)學(xué)題。

智能密度越高的場景其計(jì)算方式和對(duì)應(yīng)的產(chǎn)品越會(huì)發(fā)生變化，因?yàn)閮r(jià)值更大。然后再匹配上從數(shù)字到物理的視角，有無幻覺的視角。以圖靈測試2.0為根基，加上這三個(gè)視角共同構(gòu)成也約束了未來智能應(yīng)用的發(fā)展路線。

這種路線的實(shí)現(xiàn)方式的具體體現(xiàn)就是我們經(jīng)常說的Agent。

如果我們把智能的密度（原點(diǎn)是0），物理的程度（原點(diǎn)是0，代表純粹數(shù)字應(yīng)用），幻覺有害度（原點(diǎn)是0，代表幻覺無害）畫一個(gè)坐標(biāo)系，并把這個(gè)圖放在正中心位置排列，那在下面這個(gè)示意圖里面，最頭部的是什么呢？

答案很可能是：游戲，多維敘事類的游戲。

Agent不是大模型的延伸而是新物種

通過圖靈測試2.0才能有真的agent。但需要注意的是agent不是大模型的延伸，而是一種新物種。做汽車發(fā)動(dòng)機(jī)和做汽車怎么都不是一回事，雖然汽車沒發(fā)動(dòng)機(jī)根本跑不了。

只有Agent才能啟動(dòng)AI的浪潮，而能啟動(dòng)AI浪潮的Agent還不是別的簡單融合AI特征的應(yīng)用，而是智能原生型Agent。這種情況下，Agent不單是輸送智能到具體場景的管道。

智能原生應(yīng)用的構(gòu)圖：

在這種思維模式，AI原生注定會(huì)被放到一個(gè)結(jié)構(gòu)的中心位置：

https://www.ericsson.com/en/reports-and-papers/white-papers/ai-native

在這里大模型等扮演的是引擎的模式，通過不了圖靈測試2.0，那么智能原生應(yīng)用會(huì)很像用騾子拉的汽車。

通過了這個(gè)測試，再補(bǔ)上上面提到的感知、目標(biāo)、反愧使能環(huán)節(jié)，Agent才能真正成為新式通用計(jì)算的實(shí)現(xiàn)載體。只有通過這種測試才能一步步的把引擎換成蒸汽機(jī)、內(nèi)燃機(jī)、渦輪增壓等。Agent范圍的擴(kuò)大注定也就是智能一步步提高的過程。

注6：智能原生相關(guān)展開參見《從手機(jī)App到AI原生應(yīng)用》

現(xiàn)在能不能過圖靈測試2.0呢？

答案是過不了。所以才說現(xiàn)在的AI還不行。

我們可以調(diào)低標(biāo)準(zhǔn)，讓標(biāo)準(zhǔn)更垂直，只要范圍收縮的足夠窄，那所有測試都能過，但那沒意義。我們看下前面這個(gè)具體例子，就能理解上面整個(gè)邏輯鏈條：過不了圖靈測試2.0，成為不了智能原生應(yīng)用的基座，只是憋在了AIGC這樣一個(gè)小池子里，所以現(xiàn)在的AI還不行。

假如你想開播了，但又不想自己上，而是希望做一個(gè)自己的數(shù)字代理或者說分身，那這個(gè)數(shù)字代理人真想取得效果都要搞定什么呢？（取得效果是指有人愿意看，有粉絲等）

首先是最基礎(chǔ)的產(chǎn)研部分：先打造自己的外殼，也就是形象要像那么回事，然后給它匹配上看、聽、說、想的能力（計(jì)算機(jī)的輸入輸出、存儲(chǔ)和CPU...）。這里面看、聽、說基本上是用過去十年反復(fù)打磨的技術(shù)，比如圖像識(shí)別、語言識(shí)別、語音合成等，想的部分則要基于大模型了，它負(fù)責(zé)綜合各種輸入產(chǎn)生自己的輸出。當(dāng)程序員把這些都連接起來，基本上就有了一個(gè)數(shù)字分身，它能基于觀眾的各種輸入做點(diǎn)反潰但產(chǎn)品做到這里基本上完成了手眼的部分，腦的部分屬于有了，但還不好使。這時(shí)候即使導(dǎo)入了最好的大模型，它也還是一個(gè)很傻的Bot，別說取得效果，基本上就沒人會(huì)看完任何一個(gè)直播段落。這時(shí)候在單純的單點(diǎn)技術(shù)上使勁內(nèi)卷是沒前途的（包括大模型），那樣搞不定粉絲也搞不定留存，回報(bào)大致為0。

改善起來第一步肯定是希望能加入人格特征，讓它的性格特征和你更像，比如是不是對(duì)人友善、表達(dá)是不是犀利，也要社會(huì)一點(diǎn)：會(huì)說話能聯(lián)絡(luò)感情等。這時(shí)候要盡可能記住過去和某個(gè)人說過什么。這部分不純粹是技術(shù)，但技術(shù)相關(guān)性還是很高，通常需要找找過去干過的老司機(jī)，純粹的干prompt估計(jì)搞不定（注1說的那課其實(shí)就是這個(gè)價(jià)值）。這步是個(gè)檻，搞定了算通過圖靈測試1.0，別人分不出到底是不是你了，但現(xiàn)在其實(shí)沒法徹底搞定這事，無邊界閑聊還行，限定到人格特征上表現(xiàn)就沒想的那么好。搞不定的情況下，會(huì)出現(xiàn)什么結(jié)果呢？會(huì)看著有點(diǎn)智能有點(diǎn)像你的一個(gè)人，在那里叨叨，但毫無特色和趣味性。能不能吸引到粉絲呢？這要看你到底播什么了。我估計(jì)播動(dòng)物世界沒準(zhǔn)行，娛樂估計(jì)夠嗆。這是下面的話題，關(guān)鍵因素進(jìn)一步從技術(shù)向產(chǎn)品偏移。

通過圖靈測試1.0的智能產(chǎn)品已經(jīng)有用了，在這之前是純粹工具，在這之后就有點(diǎn)Agent的意思，但價(jià)值還沒想的那么大。

通過圖靈測試1.0這樣的一個(gè)數(shù)字分身有什么用呢？

它優(yōu)點(diǎn)是信息吞吐量大，不知疲憊，人模人樣；壞處是智能還是不夠，做不出很好的性格、才藝、出眾的觀點(diǎn)、有趣的隨機(jī)應(yīng)變等。那適合做什么事呢？它適合做內(nèi)容本身有趣，主播是配角的事。

那些事是這類的呢？比如播動(dòng)物世界、講故事、播新聞，偶爾穿插點(diǎn)互動(dòng)。這本質(zhì)是一個(gè)更好用了的智能音箱。

這是在干什么呢？是在縮減場景對(duì)智能的需求。智能供給不足就只能降級(jí)。

那理想狀況是什么樣呢？

理想狀況是這個(gè)數(shù)字分身還要能接入實(shí)時(shí)的熱點(diǎn)，動(dòng)態(tài)的生成要輸出的內(nèi)容，比如圖片、視頻，然后做主播。這種熱點(diǎn)要匹配大家的關(guān)注點(diǎn)，要新穎，要匹配平臺(tái)的規(guī)則，不單是正向的規(guī)則，還要把握好反向的尺度，否則會(huì)被抬走或者封殺。這部分會(huì)衍生非常多的細(xì)節(jié)工作，比如那個(gè)主題是現(xiàn)在主推的，這得跟著平臺(tái)走才行，否則你權(quán)重不好它不推你，也白搭。對(duì)平臺(tái)這是個(gè)智能對(duì)智能的過程，對(duì)受眾這是個(gè)綜合分析的過程，對(duì)創(chuàng)作這是個(gè)創(chuàng)意創(chuàng)新的過程。這事能干了，算是通過圖靈測試2.0，一旦過了至少可以和人類二分天下。過不了，比如不管內(nèi)容的時(shí)效或者不管平臺(tái)熱點(diǎn)的捕捉，就都還是干半截活！是智能供給不足。這部分如果成功，那基本上可以有粉絲了。到這里也才算是腦子長成，并且培養(yǎng)出了自己的風(fēng)格。

假設(shè)這能做到了，就完了么？

也還沒有。這些都搞完了，主要解決了硅基智能和硅基智能的關(guān)系，相當(dāng)于能夠比較匹配平臺(tái)的規(guī)則和現(xiàn)實(shí)的熱點(diǎn)。

郭德綱捧人的主要方法就是反復(fù)提這個(gè)人。你做主播如果有人拉扯顯然效果會(huì)更好。那和誰合作，怎么合作還是需要人去做。把這個(gè)場景全覆蓋了，才算真正的你的代理。

上面說的可以總結(jié)成一張和自動(dòng)駕駛類比的圖：

從這個(gè)視角看現(xiàn)在能完成的百分之十不到。更何況這只是一個(gè)相對(duì)簡單的C端場景，B端場景比這個(gè)要復(fù)雜的多。

注7：這部分更詳細(xì)的描述參見《舉個(gè)例子：智能原生應(yīng)用的腦、手、意》

小結(jié)

AI這行當(dāng)一直是這么個(gè)狀態(tài)，一旦有一點(diǎn)突破，大家就歡欣鼓舞，然后預(yù)期就上去了，馬上能匹配這種預(yù)期的是什么呢？是資本和營銷熱度。所以很快就會(huì)變的滿地都是以及看到非常多的高估值。但業(yè)務(wù)和這種預(yù)期的匹配則要難的多，但這里才是行業(yè)的第一性。不同行業(yè)的這幾者間的速度差是不一樣的，互聯(lián)網(wǎng)的匹配速度其實(shí)最快，AI的匹配速度很可能是更像傳統(tǒng)軟件，次于互聯(lián)網(wǎng)，但快于消費(fèi)產(chǎn)品。