劃重點(diǎn)
01AI搜索產(chǎn)品進(jìn)入3.0時(shí)代,通過大模型調(diào)度系統(tǒng)提高搜索效率和準(zhǔn)確性。
02360AI搜索采用首創(chuàng)的CoE架構(gòu),實(shí)現(xiàn)多模型分工協(xié)作,提升搜索質(zhì)量。
03與傳統(tǒng)搜索引擎不同,AI搜索產(chǎn)品更注重知識(shí)引擎的建設(shè),實(shí)現(xiàn)更全面、深入的檢索。
04由于此,360AI搜索在用戶群體中取得了顯著優(yōu)勢(shì),尤其在中小學(xué)生群體中表現(xiàn)突出。
05未來(lái),AI搜索產(chǎn)品將繼續(xù)優(yōu)化算法、提升算力和豐富數(shù)據(jù),為用戶帶來(lái)更智能、更便捷的使用體驗(yàn)。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
AI原生、智能索引庫(kù),以及大模型調(diào)度系統(tǒng),是AI搜索的三條護(hù)城河。誰(shuí)能把這些護(hù)城河挖得更深,誰(shuí)就有可能成為引領(lǐng)下一代搜索引擎發(fā)展的主要玩家。
作者|王藝
從遠(yuǎn)古的巖壁記事,到現(xiàn)代的數(shù)字屏幕,幾千年來(lái),人們對(duì)信息的追求與渴望從未停止。
無(wú)論是公元前記錄了演講和情報(bào)的一卷卷莎草紙,還是蒸汽印刷機(jī)的出現(xiàn)、收音機(jī)和電報(bào)電話的發(fā)明、廣播電視的興起,大眾傳播技術(shù)以空前的效率和速度把信息傳遞給大眾;互聯(lián)網(wǎng)的發(fā)明,更是將全球連接成了一個(gè)巨大的信息網(wǎng)絡(luò),使得信息的獲取變得前所未有的便捷和及時(shí)。
可以說,人類發(fā)展的歷史,就是一部信息不斷進(jìn)化與傳播的歷史,也是一部文明交流互鑒、知識(shí)共享與智慧碰撞的歷史。
然而,隨著技術(shù)的革新,人類社會(huì)的信息也在從稀缺走向豐盈、從匱乏走向冗余。
如今,全世界每年產(chǎn)生1EB到2EB (1EB≈1018B)信息,相當(dāng)于地球上每個(gè)人每年大概產(chǎn)生250MB信息。其中,紙質(zhì)信息僅占所有信息的0.03%,靜態(tài)網(wǎng)頁(yè)有上百億,動(dòng)態(tài)及隱藏網(wǎng)頁(yè)則至少是靜態(tài)網(wǎng)頁(yè)的500倍。而與之相對(duì)的,人的一生只能接觸約6GB信息,大腦則只能存儲(chǔ)約200MB信息。
為了解決人類“針對(duì)性尋找信息”的需求,搜索引擎應(yīng)運(yùn)而生。從1991年,加拿大麥吉爾大學(xué)開發(fā)了能定期搜索并分析FTP服務(wù)器上文件名的Archie開始,搜索引擎的發(fā)展一直隨著計(jì)算機(jī)技術(shù)的發(fā)展而不斷演進(jìn):從分類目錄時(shí)代的Yahoo,到文本檢索時(shí)代的AltaVista,到整合分析時(shí)代的Google、百度,再到用戶中心時(shí)代的微信、抖音、小紅書,搜索引擎不僅極大地提高了人們信息檢索的效率和準(zhǔn)確性,更是極大推動(dòng)了互聯(lián)網(wǎng)生態(tài)的繁榮與發(fā)展。
那在人工智能時(shí)代,搜索引擎是什么樣的?無(wú)疑是AI搜索。
微軟CEO納德拉曾經(jīng)在2023年2月對(duì)外表示,AI加持的搜索引擎,是他在任CEO 9年來(lái)微軟公司“最重要的產(chǎn)品”,堪比15年前的云計(jì)算;百度創(chuàng)始人、CEO李彥宏也表示,“生成式AI與搜索是天作之合”。
一時(shí)間,幾乎已經(jīng)有二十多年未發(fā)生重大變化的搜索引擎好像被按下了“變身按鈕”;沉寂已久的通用搜索引擎市場(chǎng),也再度風(fēng)云變幻,群雄競(jìng)相逐鹿中原。
然而,各路群雄的“打法”和“門派”卻各不相同。
1.搜索引擎3.0Don't make me think
毫無(wú)疑問,如今AI大模型已經(jīng)成為了搜索引擎的最大變量。
如果我們以時(shí)間的維度,審視近二十年市場(chǎng)上陸續(xù)出現(xiàn)的搜索產(chǎn)品,那么或許可以將搜索引擎的發(fā)展分為個(gè)階段:
2000至2022年是搜索引擎1.0時(shí)代,以網(wǎng)頁(yè)信息的分發(fā)為主,代表產(chǎn)品是Google搜索、百度搜索;
2022至2024上半年是搜索引擎2.0時(shí)代,可以就網(wǎng)絡(luò)內(nèi)容進(jìn)行提煉、生成簡(jiǎn)單答案,代表產(chǎn)品是Microsoft New Bing、Google AI Overviews;
2024下半年至今是搜索引擎3.0時(shí)代,可以通過對(duì)內(nèi)容的結(jié)構(gòu)化整合解決問題、發(fā)現(xiàn)和獲取新知,代表產(chǎn)品是Perplexity AI、360AI搜索、天工AI搜索等。
其中,2.0和3.0時(shí)代的搜索引擎幾乎都加入了AI大模型的能力,都可以稱為“AI搜索”產(chǎn)品。然而,2.0時(shí)代的Microsoft New Bing、Google AI Overviews都是通過在自己原有的搜索引擎上增加了一個(gè)AI模塊的方式實(shí)現(xiàn)的,大模型只是對(duì)原有搜索引擎索引到的網(wǎng)頁(yè)進(jìn)行了簡(jiǎn)單總結(jié)提煉,仍然是一種“縫合”的思路;而3.0時(shí)代的Perplexity AI、360AI搜索等則是充分發(fā)揮了大模型的能力,用AI重構(gòu)了搜索的底層鏈路,是一種真正意義上的“AI原生搜索引擎”。
而3.0時(shí)代的AI 搜索產(chǎn)品, 也可以根據(jù)所面向領(lǐng)域的不同,劃分為三類:
比如最為知名的Perplexity AI,它和360AI搜索等都面向全網(wǎng)最廣泛的用戶,是通用AI搜索產(chǎn)品;Devv AI是一款面向程序員和開發(fā)者群體的代碼搜索工具,Reportify AI則是一款利用 AI 技術(shù)為投資者提供深度內(nèi)容問答的工具,它們都屬于垂直AI搜索產(chǎn)品;除此之外,還有Hebbia(企業(yè)文檔和知識(shí)庫(kù)搜索)、Seek AI(企業(yè)數(shù)據(jù)庫(kù)搜索)為代表的企業(yè)級(jí)AI搜索產(chǎn)品。
而這其中,用戶體量最大也最具有商業(yè)化潛力的,無(wú)疑是通用AI搜索產(chǎn)品。
榜單數(shù)據(jù)可以證明這一點(diǎn):在今年7月的AI產(chǎn)品榜全球總榜中的前二十名中,通用AI搜索產(chǎn)品就占了四席(New Bing、Yandex、360AI搜索、Perplexity AI);而在AI產(chǎn)品榜國(guó)內(nèi)總榜6-8月前二十名的產(chǎn)品里,通用AI搜索產(chǎn)品也占據(jù)了至少三席。
這其中,表現(xiàn)最為亮眼的,就是360AI搜索:
2024年1月,360AI搜索Web端和App先后上線。3月份,訪問量增速高達(dá)1798.76%;4月份,訪問量達(dá)到了1188萬(wàn)次;到了6月份,和360AI瀏覽器一同升級(jí)發(fā)布之后,360AI搜索排名一躍而升至國(guó)內(nèi)AI產(chǎn)品第二名、AI原生產(chǎn)品第一名。
7月,360AI搜索Web端的月訪問量達(dá)到了9369萬(wàn)次,增速為82.48%,已經(jīng)超過了全球知名的AI搜索產(chǎn)品Perplexity AI,在AI產(chǎn)品榜全球總榜中排名第十一。8月,訪問量則達(dá)到了2億次,增速為113.92%,同時(shí)成為國(guó)內(nèi)第一個(gè)月獨(dú)立訪客量(UV)超過8000萬(wàn)的AI產(chǎn)品。
AI產(chǎn)品榜國(guó)內(nèi)總榜6、7、8月前五名
在眾多通用AI搜索產(chǎn)品中,為什么360AI搜索成為了率先跑出來(lái)的那匹黑馬?
如果要用一句話總結(jié),這句話或許可以是“所見即所得”;如果要用一個(gè)詞來(lái)總結(jié),這個(gè)詞或許可以是“開箱即用”。
騰訊創(chuàng)始人、有著“互聯(lián)網(wǎng)首席產(chǎn)品經(jīng)理”之稱的馬化騰曾經(jīng)給很多人推薦過一本書《Don't make me think》,書名意思為“別讓我思考”。它講的是產(chǎn)品設(shè)計(jì)的一個(gè)原則,即把用戶需要的信息以最直接的形式展示出來(lái),而且要展示得既全面又準(zhǔn)確、讓用戶拿來(lái)就能用。
《Don't make me think》,作者Steve Krug
“Don't make me think”原則之所以重要,主要是因?yàn)?strong>做產(chǎn)品是被動(dòng)的藝術(shù)。從心理學(xué)的角度來(lái)說,做產(chǎn)品和做銷售是兩套完全不同的邏輯:做銷售需要的是“打破防御”,一個(gè)好的銷售人員需要充分調(diào)度自己可以呈現(xiàn)的所有資源,抓住用戶心理上小小的滿足或不安,打破用戶的防御,說服用戶,促成用戶的選擇;而一個(gè)好的產(chǎn)品經(jīng)理,則可以通過提升產(chǎn)品“易用性”,根本不讓用戶啟動(dòng)防御。因?yàn)橐庾R(shí)即防御,所有的思考,都會(huì)讓用戶產(chǎn)生顧慮。一個(gè)產(chǎn)品如果引發(fā)用戶的啟動(dòng)意識(shí),讓用戶思考,某種意義上,就是在推開用戶。
而AI搜索作為互聯(lián)網(wǎng)產(chǎn)品的一種,同樣脫離不了這個(gè)邏輯。
在所有AI搜索產(chǎn)品中,360AI搜索幾乎把“所見即所得”和“開箱即用”做到了極致不僅能給出準(zhǔn)確性、權(quán)威性強(qiáng)的答案,無(wú)需進(jìn)行事實(shí)核查和交叉驗(yàn)證,而且可以一鍵復(fù)制和導(dǎo)出,極大便利了用戶對(duì)所需答案的使用。
比如用戶在搜索中“9.11和9.8哪個(gè)大”,很多AI搜索給出的答案都是“因?yàn)?.11的十分位數(shù)是1,9.8的十分位數(shù)是8,因此9.11大于9.8”,鬧出了笑話。
問9.11和9.8哪個(gè)大,某AI搜索給出的答案
然而,360AI搜索卻能正確比較這兩個(gè)數(shù)字小數(shù)點(diǎn)后的十分位數(shù),給出正確的答案。
問9.11和9.8哪個(gè)大,360AI搜索給出的答案
比如,在9月12日上午搜索“臺(tái)風(fēng)摩羯在越南造成了多少人死亡”,360AI搜索給出了截止到9月11日17:30的答案,并且還將數(shù)據(jù)精確到了各個(gè)不同的時(shí)段:
搜索“臺(tái)風(fēng)摩羯在越南造成了多少人死亡”,360AI搜索給出的答案
比如,我們讓360AI搜索回答一個(gè)“將字符串hello反轉(zhuǎn)成olleh”的編程問題,它不僅給出了問題分析和步驟拆解,更是調(diào)用DeepSeek大模型給出了完整的Python代碼:
搜索“將字符串hello反轉(zhuǎn)成olleh”,360AI搜索給出的答案
再比如,我們同時(shí)讓360AI搜索和其他AI搜索產(chǎn)品解釋《金剛經(jīng)》里的一句話,360AI搜索給出的答案是最豐富、最詳盡的:
360AI搜索和其他AI搜索產(chǎn)品對(duì)“一切有為法,如夢(mèng)幻泡影,如露亦如電,應(yīng)作如是觀”的解釋
可以看到,無(wú)論是答案長(zhǎng)度、信息密度還是時(shí)效性、準(zhǔn)確程度,360AI搜索的表現(xiàn)都是數(shù)一數(shù)二的。
“對(duì)比其他的AI搜索產(chǎn)品,我們生成的內(nèi)容更有結(jié)構(gòu),也更長(zhǎng)。很多AI搜索產(chǎn)品的答案在200字以內(nèi),而我們答案的平均長(zhǎng)度超過 700 字,同樣一個(gè)問題,我們從更多的角度做解析,有點(diǎn)像是一個(gè)雇了一個(gè)百科全書的作者來(lái)幫你去寫一個(gè)答案。”在接受「甲子光年」采訪時(shí),360集團(tuán)副總裁、AI產(chǎn)品負(fù)責(zé)人梁志輝說。
此外,評(píng)判一個(gè)搜索引擎是否做到了讓用戶“傻瓜式操作”“所見即所得”,觀察它的用戶群體也很重要。往往越是貼近用戶使用習(xí)慣的搜索引擎,就能獲得越多的低齡、低心智水平的用戶。
在采訪中,梁志輝向我們透露了這樣一組數(shù)據(jù):在360AI搜索的用戶群體中,有26%的用戶是中學(xué)生,8%的用戶是小學(xué)生,中小學(xué)生加起來(lái)的比例占了34%。
之所以中小學(xué)生占比較高, 主要還是因?yàn)?60AI搜索在產(chǎn)品設(shè)計(jì)上做到了最大程度貼近用戶。在2019年的360搜索里,有42%的用戶在尋址,21%在找資源,37%在提問題;而到了2024年,在360AI搜索里,尋址的用戶下降到了12%,找資源的用戶下降到了16%,剩下的72%在提問題。而在這72%“提問題”的需求中,就有很大一部分來(lái)自中小學(xué)生的作業(yè)提問。
“我們直接找了一些中小學(xué)的老師,問他們?yōu)槭裁从?60AI搜索,他們說首先能語(yǔ)音輸入,無(wú)論是方言還是中英文混雜都能識(shí)別出來(lái);其次360AI搜索能一鍵復(fù)制和導(dǎo)出。你別小看Ctrl+C、Ctrll+V,其實(shí)要教一個(gè)小學(xué)生學(xué)會(huì)復(fù)制粘貼和做文檔挺難的,但是有了語(yǔ)音輸入和一鍵復(fù)制、導(dǎo)出功能,學(xué)生不怎么用敲鍵盤,就能搜出結(jié)果、獲得文檔”,梁志輝說。
雞兔同籠數(shù)學(xué)問題,由360AI搜索一鍵導(dǎo)出
360AI搜索為什么能給出時(shí)效性、準(zhǔn)確性和權(quán)威性更強(qiáng)的答案?
一切,都要得益于AI搜索的三條護(hù)城河,它們分別是:更智能的索引庫(kù),和更強(qiáng)大的底層模型系統(tǒng),以及AI原生。
2.“可計(jì)算的知識(shí)”AI搜索的第一條護(hù)城河
在傳統(tǒng)搜索引擎時(shí)代,索引庫(kù)就是最重要的護(hù)城河;而在AI搜索時(shí)代,更智能的索引庫(kù)則更是成為了AI搜索產(chǎn)品的重中之重。
在《拆解SearchGPT后,我們發(fā)現(xiàn)了AI搜索的壁壘、突破和未來(lái)》一文我們提到,AI搜索最大的壁壘是數(shù)據(jù),要想得到準(zhǔn)確的答案,底層數(shù)據(jù)的質(zhì)量和數(shù)量至關(guān)重要:只有底層數(shù)據(jù)庫(kù)足夠大、容納的信息足夠多、信息更新的足夠及時(shí),才能保證大模型在內(nèi)容獲取的時(shí)候“有據(jù)可依”,從而輸出更準(zhǔn)確、更有時(shí)效性的內(nèi)容。因此,想要讓搜索結(jié)果變得準(zhǔn)確,自建索引庫(kù)就很關(guān)鍵。
由于自建索引庫(kù)成本極高、技術(shù)難度極大,目前只有Google、百度、Bing等搜索大廠有這個(gè)能力,因此它們推出的AI搜索產(chǎn)品也能調(diào)用自家索引庫(kù)里的內(nèi)容;而一些大模型廠商推出的AI搜索產(chǎn)品,則更多是接入了Google、Bing等搜索引擎的API,只有很少的幾家自建了小體量的垂直索引庫(kù)。
作為2012年就開始做搜索的老牌廠商,360自然擁有數(shù)據(jù)豐富的索引庫(kù),這也是360AI搜索相較于其他AI搜索產(chǎn)品的巨大優(yōu)勢(shì)。梁志輝表示,過去十年,360搜索大約爬了1000億個(gè)網(wǎng)頁(yè),而且會(huì)對(duì)索引庫(kù)中的網(wǎng)頁(yè)做動(dòng)態(tài)更新,讓索引庫(kù)中的數(shù)據(jù)動(dòng)態(tài)維持在最新的1000億,降低了維護(hù)成本的同時(shí),也增強(qiáng)了時(shí)效性。
技術(shù)和內(nèi)容同步更新,往往才能發(fā)揮出來(lái)更大的效用。在傳統(tǒng)關(guān)鍵詞索引之外,360AI搜索使用向量索引、KV索引等技術(shù),對(duì)索引庫(kù)進(jìn)行了重構(gòu),使得索引效率大幅提升。
在AI搜索中,向量索引是通過把一些信息轉(zhuǎn)換成數(shù)字形式的“向量”,這些向量就像是信息的指紋,可以用來(lái)描述信息的特點(diǎn)。一段文字就可以通過向量來(lái)表示,這個(gè)向量包含了這段文字的一些關(guān)鍵詞或特征。比如,它知道“蘋果”和“西瓜”在吃的方面很接近,但和“公交車”就完全不沾邊了?恐@樣的理解,大模型就能更準(zhǔn)確地幫我們尋找信息和生成內(nèi)容。
向量搜索原理圖,圖源:FreeAI
除了用AI能力構(gòu)建更強(qiáng)大的索引庫(kù),360還基于現(xiàn)有的高效索引庫(kù)構(gòu)建了多個(gè)知識(shí)圖譜層,可以用GraphRAG的方式做檢索,比于傳統(tǒng)的RAG,GraphRAG顯著增強(qiáng)了大語(yǔ)言模型在處理復(fù)雜和多樣化私有數(shù)據(jù)集時(shí)的性能,可以實(shí)現(xiàn)更全面、深入的檢索。
梁志輝認(rèn)為,如果說以谷歌、百度為代表的1.0時(shí)代的產(chǎn)品是“搜索引擎”,以New Bing為代表的2.0時(shí)代的產(chǎn)品是“答案引擎”,那么3.0時(shí)代的AI搜索產(chǎn)品則應(yīng)該是一款“知識(shí)引擎”在新的應(yīng)用形態(tài)下,知識(shí)是可以被計(jì)算的;而知識(shí)引擎和答案引擎的區(qū)別就在于,它不只是對(duì)搜索到的若干個(gè)網(wǎng)頁(yè)鏈接進(jìn)行簡(jiǎn)單的總結(jié),而是會(huì)在理解用戶問題的基礎(chǔ)上,充分利用大模型的能力,通過關(guān)鍵詞索引+向量索引+GraphRAG的方式充分調(diào)用索引庫(kù)和知識(shí)庫(kù)的內(nèi)容,返回給用戶的不只是答案,而是內(nèi)涵和外延更加豐富的“知識(shí)”。
而也是以360AI搜索為代表的AI搜索產(chǎn)品和很多AI Chatbot的不同:AI Chatbot每次回答只能進(jìn)行一次大模型調(diào)用,而AI搜索產(chǎn)品則能在充分理解問題的基礎(chǔ)上,進(jìn)行任務(wù)的分解和規(guī)劃,這期間會(huì)涉及多輪次的模型調(diào)用,這類似于OpenAI o1的“慢思考模式”;此外,AI Chatbot返回的答案更多是模型生成的,特殊情況下才涉及RAG調(diào)用,因此生成的答案中有些是沒有參考鏈接的;而AI搜索產(chǎn)品則在用戶每輸入一次query(問詢)的時(shí)候都要調(diào)用索引庫(kù)和知識(shí)庫(kù),會(huì)給出豐富的參考鏈接,同時(shí)和生成的答案做到一一對(duì)應(yīng)。
同樣問“魯迅和周樹人是什么關(guān)系”,AI搜索給出了更豐富的回答和鏈接
目前,AI加持下的360索引庫(kù)收錄了大量的高質(zhì)量?jī)?nèi)容來(lái)源,包括論文、 知識(shí)視頻、訪談節(jié)目、課堂錄音、專業(yè)網(wǎng)站等,未來(lái)還計(jì)劃加上B站的知識(shí)視頻。這些內(nèi)容以大模型最容易理解和計(jì)算的方式來(lái)抓娶索引、召回,用AI爬蟲抓內(nèi)容,用AI GraphRAG建立知識(shí)連接,用 AI 做內(nèi)容召回,擺脫了過去單純依靠關(guān)鍵詞匹配的局限性,讓知識(shí)真正做到“可計(jì)算”“可理解”。
與此同時(shí),360AI搜索給出的回答支持多種文體和風(fēng)格的改寫,并會(huì)被重新收錄進(jìn)索引庫(kù)中。這就通過AIGC的方式,構(gòu)筑起了自己的數(shù)據(jù)飛輪,也成為了360AI搜索的內(nèi)容和數(shù)據(jù)護(hù)城河。
3.“讓大模型‘慢思考’”AI搜索的第二條護(hù)城河
眾所周知,人工智能由數(shù)據(jù)、算力、算法三大要素構(gòu)成。如果說索引庫(kù)是AI搜索的數(shù)據(jù)庫(kù),那么大語(yǔ)言模型,就是AI搜索的算法,這構(gòu)成了AI搜索的第二條護(hù)城河。
我們?cè)凇恫鸾釹earchGPT后,我們發(fā)現(xiàn)了AI搜索的壁壘、突破和未來(lái)》一文中提到,AI搜索的底層原理其實(shí)可以用“RAG(Retrieval-augmented Generation,檢索增強(qiáng)生成)”來(lái)概括,涉及Retrieval和Generation兩個(gè)步驟。其中,大部分的“Retrieval(檢索)”是由傳統(tǒng)搜索引擎的API來(lái)完成的,少部分采用自建索引庫(kù)的形式;而AI搜索產(chǎn)品主要做的事情就是拿到結(jié)果后的“Generation(生成)”,用AI代替人工, 閱讀檢索內(nèi)容, 總結(jié)歸納后給到用戶一個(gè)直接的答案。
要“Generation”,就涉及對(duì)大模型的調(diào)用。目前,大部分的AI搜索產(chǎn)品只會(huì)在搜索過程中調(diào)用了一次大模型,單個(gè)模型能力有限,無(wú)法及時(shí)對(duì)抓取到的網(wǎng)頁(yè)內(nèi)容“去粗取精”“去偽存真”,生成的答案也難免帶有“幻覺”和“噪聲”。
怎么辦?一個(gè)模型不行,那就上多個(gè);一次調(diào)用不行,那就多次調(diào)用。發(fā)揮集體的力量,一個(gè)好漢三個(gè)幫。
360AI搜索,就是這種“一個(gè)好漢三個(gè)幫”的典型代表。在360AI搜索的整個(gè)工作過程中,會(huì)涉及對(duì)大模型的多次調(diào)用,“我們一次AI搜索的背后包含了至少715次的大模型調(diào)用”,梁志輝說。
以搜索“為什么人只吃肉不會(huì)長(zhǎng)胖,吃水果和面包會(huì)長(zhǎng)胖”為例,360AI搜索對(duì)大模型的調(diào)用包括以下幾個(gè)步驟:
對(duì)大模型的密集調(diào)用,不僅會(huì)對(duì)AI搜索的響應(yīng)速度造成影響,更是對(duì)算力造成了巨大的壓力。大模型加持下的AI搜索,想要實(shí)現(xiàn)和傳統(tǒng)搜索一樣快速、精準(zhǔn)的問答,算力和模型能力都需要做出巨大的提升。
但專業(yè)性(有更多特定領(lǐng)域的知識(shí))、經(jīng)濟(jì)性(節(jié)省算力成本)和泛用性(回答內(nèi)容無(wú)所不包)向來(lái)是大模型的“不可能三角”。有沒有一種方法,既兼顧回答的通用性和專業(yè)性、保持回答的速度和準(zhǔn)確度,又能不消耗過多算力呢?
底層的模型架構(gòu)就很關(guān)鍵。
在很長(zhǎng)一段時(shí)間以來(lái),MoE(Mixture-of-Experts)架構(gòu)的稀疏混合專家模型都被認(rèn)為是Transformer之后大模型下一個(gè)發(fā)展趨勢(shì)。MoE模型可以只選擇某一專家模型來(lái)處理數(shù)據(jù),這使得模型在推理過程中更為高效,因?yàn)榇蟛糠謱<姨幱谖醇せ顮顟B(tài),從而減少了不必要的計(jì)算。
圖源:《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》
然而,盡管MoE架構(gòu)的模型有著比稠密模型更快的推理速度,但是它仍然有缺點(diǎn):
MoE模型的專家之間存在競(jìng)爭(zhēng)關(guān)系,每個(gè)輸入通常只由一個(gè)或少數(shù)幾個(gè)專家處理,其余專家不參與,這讓檢索答案的過程不夠靈活;
MoE依賴于路由機(jī)制分配任務(wù),如果路由錯(cuò)誤或某個(gè)專家出現(xiàn)故障,可能會(huì)影響AI搜索回答的整體性能。
為了解決這一問題,360推出了首創(chuàng)的CoE(Collaboration-of-Experts,專家協(xié)同)架構(gòu)。與MoE模型不同的是,MoE架構(gòu)一次只能調(diào)用其中的一個(gè)專家模型回答,但CoE架構(gòu)則能讓多個(gè)模型分工協(xié)作、并行作戰(zhàn),執(zhí)行多步推理。
CoE模型推理過程 圖源:《Collaboration of Experts: Achieving 80% Top-1 Accuracy on ImageNet with 100M FLOPs》
這種多個(gè)模型分工協(xié)作的方式使得每個(gè)專家都能“發(fā)揮專長(zhǎng)”,同時(shí)“互相補(bǔ)充”,讓AI搜索在面對(duì)不確定或復(fù)雜輸入時(shí)表現(xiàn)出更好的穩(wěn)定性,輸出更準(zhǔn)確、更具有時(shí)效性和權(quán)威性的內(nèi)容。
綜上,我們可以復(fù)現(xiàn)出360AI搜索完整的工作鏈路:首先構(gòu)建意圖分類模型,對(duì)用戶的問題進(jìn)行意圖識(shí)別,接著打造任務(wù)路由模型對(duì)問題進(jìn)行拆解,不同的問題可以劃分成“簡(jiǎn)單任務(wù)”“多步任務(wù)”和“復(fù)雜任務(wù)”,對(duì)多個(gè)模型進(jìn)行調(diào)度;最后構(gòu)建AI工作流,使多個(gè)大模型協(xié)同運(yùn)作。比如面對(duì)一道古詩(shī)詞中譯英題目,路由模塊就會(huì)調(diào)用起翻譯、反思等多個(gè)模型,讓這些模型分工配合、共同完成任務(wù)。
在古詩(shī)詞翻譯任務(wù)中,360AI搜索會(huì)調(diào)用多個(gè)模型協(xié)同完成任務(wù) 圖源:360
360AI搜索底層CoE架構(gòu)中的專家模型,由16家大模型廠商的產(chǎn)品共同組成360與百度、騰訊、阿里巴巴、智譜AI、月之暗面、Minimax等16家主流大模型廠商合作,構(gòu)建了一個(gè)大模型的“專家集群”,這些專家集群共同支撐了CoE架構(gòu)的混合模型。該混合大模型在翻譯、寫作等12項(xiàng)指標(biāo)的測(cè)試中取得了80.49分的綜合成績(jī),超越了GPT-4o的69.22分;特別是在“弱智吧”和“詩(shī)詞賞析”這類比較具有中文特色的問題上,CoE的領(lǐng)先優(yōu)勢(shì)更加明顯。
集各家所長(zhǎng)的混合大模型能力超越 GPT-4o,圖源:360
這種調(diào)度多個(gè)模型共同完成推理任務(wù)的方式,就是在用大模型“慢思考”的能力做AI搜索。
“人腦有快思考、慢思考兩種方式。大模型常見的是快思考,問2+2等于幾,它脫口而出。但是真的有復(fù)雜的問題,比如寫一篇論文、做分析,人類是需要慢思考,需要調(diào)動(dòng)規(guī)劃和反思、邏輯推理能力,速度慢,但準(zhǔn)確性高。大模型目前只有快思考沒有慢思考的能力,我們提出用Agent的框架打造慢思考的系統(tǒng),通過知識(shí)和工具、增強(qiáng)大模型的規(guī)劃,打造大模型的慢思考的能力。”在ISC.AI 2024大會(huì)的演講中,周鴻表示。
從技術(shù)層面來(lái)說,360獨(dú)創(chuàng)的CoE架構(gòu)模型,也是在模型的“慢思考”推理上下功夫。如今,在眾多廠商瘋狂囤算力訓(xùn)練大模型的情況下,推理的價(jià)值被大大低估了:以O(shè)penAI最新發(fā)布的OpenAI o1模型為例,該模型用強(qiáng)化學(xué)習(xí)的方式增強(qiáng)了推理能力,使得模型在作出回答之前會(huì)像人類一樣進(jìn)行1020秒的“深思熟慮”,產(chǎn)生一個(gè)長(zhǎng)長(zhǎng)的內(nèi)部思路鏈,能夠嘗試不同的策略并識(shí)別自身的錯(cuò)誤。這也證明了Scaling Law在推理領(lǐng)域的有效性,硅基流動(dòng)創(chuàng)始人袁進(jìn)輝就認(rèn)為,在推理上多花點(diǎn)算力比在訓(xùn)練上繼續(xù)投入算力收益要大得多。
OpenAI o1模型在預(yù)訓(xùn)練、訓(xùn)練和推理階段的投入 圖源:X @Jim Fan
但面對(duì)CoE模型, 也有人提出了質(zhì)疑調(diào)用這么多模型,AI搜索的經(jīng)濟(jì)賬如何算?一次AI搜索的成本會(huì)不會(huì)太高?
答案是:并不會(huì)。
首先,在激烈的價(jià)格戰(zhàn)之后,國(guó)內(nèi)很多第三方模型的價(jià)格已經(jīng)很低了,每百萬(wàn)Token的價(jià)格從1塊錢降低到了8毛錢、5毛錢,甚至直接免費(fèi);其次,360采用的并不是千億參數(shù)的大模型,而是一些百億,甚至十幾億參數(shù)的小模型,參數(shù)的減少加上360獨(dú)有的推理技術(shù)共同降低了推理成本;第三,很多大模型廠商極其渴望用戶,為了獲取用戶甚至不惜虧本賣,而360擁有5億瀏覽器用戶和10億桌面用戶,“他們API的價(jià)格比我們自己的還低很多”,梁志輝坦言。
2024年5月,單次搜索的成本還高達(dá)2毛的360AI搜索,得益于上述種種舉措,今天單次搜索的成本已經(jīng)降低到了12分,可能是國(guó)內(nèi)AI搜索產(chǎn)品里最低的。目前,360AI搜索已經(jīng)實(shí)現(xiàn)了商業(yè)閉環(huán),也就是說收入基本上能夠跟推理成本打平,“只要能夠做到不虧,未來(lái)我們就有機(jī)會(huì)通過擴(kuò)大用戶規(guī)模賺到更多差額”,梁志輝說。
在眾多AI產(chǎn)品還在燒錢運(yùn)營(yíng)、燒錢換用戶的情況下,360AI搜索率先打平了成本甚至獲得了些許盈利,無(wú)疑是給市場(chǎng)帶來(lái)的一個(gè)驚喜。360的AI搜索的成功也證明,AI對(duì)于搜索來(lái)說并不是偽命題,反而是搜索引擎發(fā)展的最大變量。誰(shuí)能抓住這一波AI的機(jī)會(huì),誰(shuí)就有可能成為引領(lǐng)下一代搜索引擎發(fā)展的主要玩家。
4.“AI原生”AI搜索的第三條護(hù)城河
AI時(shí)代來(lái)臨后,各家企業(yè)都加大了對(duì)于“AI原生應(yīng)用(AI Native App)”的探索。不少?gòu)臉I(yè)者認(rèn)為,如果企業(yè)實(shí)現(xiàn)了AI 原生,將會(huì)給企業(yè)帶來(lái)質(zhì)的飛躍。麥肯錫也表示,“向 AI 原生過渡可能是推動(dòng)企業(yè)增長(zhǎng)和更新的關(guān)鍵。”
然而,關(guān)于什么才是“AI原生產(chǎn)品”應(yīng)用的定義,市場(chǎng)上的觀點(diǎn)卻不一而足:有人認(rèn)為建立在大模型之上的Chatbot、文生圖等應(yīng)用就是AI原生產(chǎn)品;也有人認(rèn)為能夠用自然語(yǔ)言交互且充分利用大模型的理解、生成、推理、記憶等能力的產(chǎn)品才是AI原生產(chǎn)品。
在360集團(tuán)副總裁梁志輝看來(lái),AI原生產(chǎn)品需要的不只是用戶交互等“前臺(tái)”的變革,更需要“后臺(tái)”技術(shù)鏈路的同步革新;此外,一款產(chǎn)品能不能把AI的“長(zhǎng)處”(如數(shù)據(jù)處理、自動(dòng)化和決策支持)發(fā)揮出來(lái),也是判斷它能否被稱之為“AI原生產(chǎn)品”的標(biāo)準(zhǔn)。
不難發(fā)現(xiàn),無(wú)論是問題識(shí)別、意圖改寫、信息源檢索、索引庫(kù)的構(gòu)建還是RAG,360用AI重構(gòu)了搜索的每一個(gè)鏈路:
比如在意圖識(shí)別環(huán)節(jié),依托多年做搜索積累的意圖分類、技能分類以及領(lǐng)域分類知識(shí),對(duì)用戶需求予以分析,訓(xùn)練出能夠識(shí)別超 1 億種意圖分類的專用模型,支持4000種意圖分類、100種技能分類和1000種領(lǐng)域分類;
比如在任務(wù)路由環(huán)節(jié),通過技術(shù)攻關(guān),訓(xùn)練出了具有超強(qiáng)能力的任務(wù)路由模型,通過任務(wù)拆解和多步推理的機(jī)制,大幅度提升了復(fù)雜問題的解決率;
比如在CoE專家網(wǎng)絡(luò)模型的推理環(huán)節(jié),依據(jù)千萬(wàn)數(shù)量級(jí)用戶的日常饋,揀選真實(shí)搜索題目,構(gòu)建起具有可持續(xù)性的大模型能力測(cè)試平臺(tái),可以將合作方的16家大模型一一匹配適宜的場(chǎng)景、按需進(jìn)行統(tǒng)籌調(diào)度,實(shí)現(xiàn)了知“模”善用;
再比如在構(gòu)建AI工作流環(huán)節(jié),在CoE專家網(wǎng)絡(luò)模型之外,還建立起了200多個(gè)“垂搜(onebox)”,這些垂搜覆蓋了列車時(shí)刻表、天氣、資訊等不同的領(lǐng)域,可以從多個(gè)來(lái)源獲取實(shí)時(shí)的消息,為AI搜索提供更準(zhǔn)確、更具有時(shí)效性的答案。
360AI搜索工作流程圖 圖源:360
可以說,相比于其他的AI搜索產(chǎn)品,360AI搜索重塑的不只是用戶交互環(huán)節(jié),更是后端的一整個(gè)流程。
「甲子光年」曾經(jīng)在《大模型套殼祛魅:質(zhì)疑套殼,理解套殼》一文中提到了套殼的五重進(jìn)階:
圖源:《大模型套殼祛魅:質(zhì)疑套殼,理解套殼 | 甲子光年》
而360AI搜索的“主力模型+16家大模型聯(lián)合調(diào)用”的CoE模式,真正做到了“第五重進(jìn)階”,也就是從預(yù)訓(xùn)練階段就開始發(fā)力,從主力模型(360智腦)就開始為后來(lái)推出AI搜索產(chǎn)品做準(zhǔn)備,真正做到了不僅用AI變革前端鏈路,更是把后端鏈路做厚、做深。
和360AI搜索思路類似的還有其他的一些AI產(chǎn)品:比如AI翻譯產(chǎn)品彩云小譯,就在原有產(chǎn)品的基礎(chǔ)上,加入了AI翻譯大模型和多個(gè)不同功能的智能體,可以實(shí)現(xiàn)視頻字幕翻譯、候選詞替換、翻譯過程中的AI問答等多個(gè)功能;再比如最近大火的、讓所有程序員都為之瘋狂AI編程產(chǎn)品Cursor,不僅推出了可以補(bǔ)全和多行編輯代碼的Cursor Tab,更是可以自動(dòng)將偽代碼轉(zhuǎn)換為可執(zhí)行代碼,還支持AI review(用AI檢查最近改動(dòng)的代碼、生成修改建議)、Composer(在單文件多行修改PR的基礎(chǔ)上,進(jìn)一步支持多文件編輯PR的生成)以及用AI Chat進(jìn)行交互。這些產(chǎn)品都做到了用大模型改造后端鏈路、將AI能力滲透到了流程的每一個(gè)環(huán)節(jié),進(jìn)而實(shí)現(xiàn)了更智能化的使用體驗(yàn)。
可以說,在未來(lái),只有從底層就開始用AI做變革、將AI能力浸潤(rùn)到每一個(gè)環(huán)節(jié)的產(chǎn)品,才能真正吸引用戶、構(gòu)筑起自身的護(hù)城河,也才能稱得上是真正的“AI原生產(chǎn)品”。
從最初的Chatbot到多Agent聯(lián)用的AI翻譯、AI編程、AI客服產(chǎn)品,從簡(jiǎn)單加個(gè)LLM作總結(jié)到如今有著CoE架構(gòu)、可以多次調(diào)用大模型實(shí)現(xiàn)更精準(zhǔn)、全面回答的AI搜索產(chǎn)品,AI產(chǎn)品的發(fā)展過程,是工作流從簡(jiǎn)單到復(fù)雜、從一元到多元的過程,也是一個(gè)不斷自我迭代、更新與融合的過程。在這一過程中,我們見證了技術(shù)從簡(jiǎn)單向復(fù)雜的邁進(jìn),也見證了互聯(lián)網(wǎng)產(chǎn)品從滿足用戶基本需求到深度理解用戶意圖的轉(zhuǎn)變。其中的每一步進(jìn)展,都凝聚著科研人員的不懈努力和對(duì)技術(shù)邊界的持續(xù)探索。
未來(lái),隨著算法的不斷優(yōu)化、算力的持續(xù)提升以及數(shù)據(jù)的日益豐富,AI產(chǎn)品也將展現(xiàn)出更加強(qiáng)大的能力,更加緊密地融入到人們的工作生活中,開啟一個(gè)更加令人激動(dòng)的智能時(shí)代。
就像一棵樹,只有樹根扎得越深、越牢固,這棵樹才能長(zhǎng)得枝繁葉茂,才能開出美麗的花、長(zhǎng)出甜蜜的果實(shí)。
(封面圖來(lái)源:「甲子光年」使用AI工具生成)