進(jìn)入2024年下半年,生成式人工智能仍然是最引人注目的科技焦點(diǎn)。
從初期對(duì)人類指令懵懵懂懂的所謂「人工智能」,到今天聽(tīng)到一個(gè)口令就能老老實(shí)實(shí)地為我們繪畫(huà)、寫(xiě)稿、生成視頻……AI帶來(lái)的生產(chǎn)力顯著提升,很多人都希望用它輔助自己的工作學(xué)習(xí),以此提高效率,甚至偷點(diǎn)小懶。
諾貝爾獎(jiǎng)對(duì)大模型和神經(jīng)網(wǎng)絡(luò)的認(rèn)可,進(jìn)一步激勵(lì)著國(guó)內(nèi)外,科技龍頭企業(yè)密集推出人工智能大模型,投入資源、潛心研究,業(yè)界呈現(xiàn)出百花齊放、迅猛發(fā)展的態(tài)勢(shì),這場(chǎng)環(huán)繞全球的大模型之戰(zhàn)已然燒得如火如荼。
而在這之中,早早開(kāi)啟全民測(cè)試,并已經(jīng)經(jīng)歷了數(shù)次迭代的訊飛星火,顯然是個(gè)特殊的存在。
(圖源:雷科技)
10月24日,在這個(gè)無(wú)比熟悉的日子,第七屆世界聲博會(huì)暨2024科大訊飛全球1024開(kāi)發(fā)者節(jié)正式在合肥奧林匹克體育中心舉辦,小雷也受邀參與了本次開(kāi)發(fā)者節(jié)的開(kāi)幕演講。
在今天上午的大會(huì)上,訊飛重磅發(fā)布訊飛星火4.0Turbo,底座能力再次升級(jí),特別是數(shù)學(xué)、代碼和長(zhǎng)文本能力顯著提升,中英文綜合能力保持業(yè)界領(lǐng)先水平,同時(shí)訓(xùn)練推理效率大幅提升,進(jìn)一步滿足日益增長(zhǎng)的規(guī)模化落地需求。
不僅如此,今年流行的多模態(tài)交互及超擬人虛擬人交互能力也來(lái)了,諸如教育、醫(yī)療、科研、司法、政務(wù)等領(lǐng)域行業(yè)大模型及更多落地應(yīng)用產(chǎn)品也得到了升級(jí)展示,不妨現(xiàn)在就跟著我的腳步,一起去看看吧。
訊飛星火升級(jí)“一籮筐”
自從去年五月份發(fā)布以來(lái),訊飛星火大模型在短短一年半內(nèi)經(jīng)歷了數(shù)次迭代,星火認(rèn)知大模型V4.0的快速落地,更是推動(dòng)著訊飛大模型能力迅速迫近行業(yè)前列。
那么這次訊飛,又能給我們帶來(lái)什么驚喜呢?
首先來(lái)看看底座大模型訊飛星火4.0 Turbo的全新升級(jí)。
(圖源:雷科技)
目前星火在文本知識(shí)、語(yǔ)言理解等七大能力全面超過(guò)GPT-4 Turbo,在數(shù)學(xué)能力、代碼能力更是超過(guò)GPT-4o,當(dāng)前已完成超長(zhǎng)思維鏈、樹(shù)搜索和自我反思評(píng)價(jià)等算法驗(yàn)證,預(yù)計(jì)今年底可實(shí)現(xiàn)類o1的高難度數(shù)學(xué)能力顯著提升。
(圖源:雷科技)
不過(guò)劉慶峰坦言,目前星火在邏輯推理和多模態(tài)能力較GPT-4o還有所差距,依然需要持續(xù)追趕。
具體功能上,這次訊飛重點(diǎn)介紹的是全新的多模態(tài)交互和超擬人虛擬人技術(shù)。
今年上半年,OpenAI更新的GPT-4o震驚了不少業(yè)內(nèi)人士,這種實(shí)時(shí)對(duì)音頻、視覺(jué)和文本進(jìn)行推理的效果,向更自然的人機(jī)交互(甚至是人-機(jī)器-機(jī)器交互)邁出了重要一步。
五個(gè)月后,科大訊飛也在本次大會(huì)上首度公開(kāi)展示自家的星火極速多模態(tài)交互技術(shù)。
(圖源:雷科技)
簡(jiǎn)單來(lái)說(shuō),多模態(tài)交互就是通過(guò)結(jié)合多種感知形式(如視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等)來(lái)實(shí)現(xiàn)更自然、更高效、更準(zhǔn)確、更靈活的人機(jī)交互。
在我看來(lái),這種技術(shù)的核心在于融合來(lái)自不同模態(tài)的數(shù)據(jù),大模型需要準(zhǔn)確判斷出輸入數(shù)據(jù)的類型,獲得意圖信息,這樣才能在更廣泛的上下文中理解和處理任務(wù)。
所以現(xiàn)場(chǎng)展示,也得從信息的輸入開(kāi)始。
負(fù)責(zé)現(xiàn)場(chǎng)演示的,依然是我們的老朋友訊飛研究院院長(zhǎng)劉聰,帶著大伙一起探索全新的實(shí)時(shí)語(yǔ)音對(duì)話。
(圖源:雷科技)
在對(duì)話過(guò)程中,星火會(huì)主動(dòng)捕捉到用戶當(dāng)前所處的狀態(tài)并積極發(fā)問(wèn)。例如在劉聰表示最近航班延誤太多,超擬人數(shù)字人就會(huì)主動(dòng)噓寒問(wèn)暖,甚至還會(huì)對(duì)現(xiàn)場(chǎng)的大伙賣(mài)萌,挺有趣的。
再看看視覺(jué)交互,現(xiàn)在星火也可以根據(jù)攝像頭感知周圍世界的信息了。
拍攝桌上的手辦,星火能夠正確識(shí)別出孫悟空和奧特曼的角色信息,甚至還能根據(jù)劉聰擺出的姿勢(shì)推斷兩名角色之間究竟發(fā)生了什么,還會(huì)對(duì)此添油加醋融入自己的理解。
這個(gè)功能,讓你在海外出游時(shí)也能獲得實(shí)時(shí)語(yǔ)音翻譯和旅游助手,手機(jī)可以拿來(lái)當(dāng)翻譯機(jī)來(lái)回翻譯中文和英語(yǔ),甚至還能夠幫你辨識(shí)出不同規(guī)格的海外產(chǎn)品,并給出合適的購(gòu)買(mǎi)建議。
想更個(gè)性化一點(diǎn)?
搭配上既有的仿聲功能,現(xiàn)在僅需一張照片就能生成數(shù)字人,實(shí)現(xiàn)更加立體的個(gè)性化多維表達(dá),就現(xiàn)場(chǎng)劉聰和自己的分身劉小聰對(duì)話的畫(huà)面,看起來(lái)非常有意思。
(圖源:雷科技)
不僅如此,今天還有驚喜。
訊飛還發(fā)布了星火多語(yǔ)音大模型,首批支持中英之外的八個(gè)語(yǔ)種,官方稱多語(yǔ)言大模型效果整體達(dá)到了GPT-4o的96%,多行業(yè)任務(wù)場(chǎng)景效果甚至超過(guò)GPT-4o。
從官方的演示來(lái)看,星火多語(yǔ)音大模型主要是用于助力產(chǎn)業(yè)出海或是賦能外貿(mào)產(chǎn)業(yè)的,讓使用其他語(yǔ)言的消費(fèi)者,也能體驗(yàn)到星火大模型的會(huì)議記錄摘要、知識(shí)檢索推理、復(fù)雜場(chǎng)景意圖理解等一系列功能,無(wú)需依賴海外大模型的加持。
(圖源:雷科技)
全國(guó)產(chǎn)算力加持的大模型,邁出了走向海外市場(chǎng)的第一步。
星火走向場(chǎng)景,落地千行百業(yè)
當(dāng)然,和我們普通人不同,比起這些生活化的應(yīng)用,很多業(yè)內(nèi)人士更關(guān)心的是這樣的大模型究竟會(huì)如何影響行業(yè)動(dòng)向。
比如說(shuō),今天首發(fā)的汽車端側(cè)星火大模型。
(圖源:雷科技)
劉慶峰介紹,很多車主應(yīng)該都試過(guò)在開(kāi)車經(jīng)過(guò)山洞隧道,或在其他特殊場(chǎng)景下,遇到無(wú)網(wǎng)的情況;也有些用戶出于保護(hù)個(gè)人隱私需求,不希望將個(gè)人數(shù)據(jù)同步至云端。
為了解決這個(gè)問(wèn)題,就必須將大模型部署在汽車端本地,為此訊飛推出了參數(shù)量約1.3B的端側(cè)大模型,相比云端效果損失≤1%,端側(cè)首次響應(yīng)40ms,實(shí)用效果幾乎沒(méi)有差異。
從今年第四季度開(kāi)始,奇瑞、廣汽、長(zhǎng)城等多款車型將會(huì)陸續(xù)集成端側(cè)星火大模型上線并開(kāi)售,用戶很快就能體驗(yàn)到。
在教育領(lǐng)域上,這次科大訊飛AI學(xué)習(xí)機(jī)發(fā)布了“AI作業(yè)過(guò)濾器”,用大模型幫學(xué)生科學(xué)減負(fù)。
(圖源:雷科技)
據(jù)官方介紹,AI學(xué)習(xí)機(jī)通過(guò)OCR能力識(shí)別出練習(xí)題目后,可根據(jù)學(xué)生歷史學(xué)習(xí)情況和本地化考情,將題目分出“必做題”“選做題”“建議不做題”三個(gè)等級(jí),學(xué)生可以快速排出學(xué)習(xí)優(yōu)先級(jí),避免重復(fù)無(wú)效刷題。
當(dāng)年我要能有這么一臺(tái)機(jī)子,浪費(fèi)的無(wú)用功起碼得少個(gè)50%吧。
當(dāng)然,也有針對(duì)教師側(cè)的賦能,除了常規(guī)升級(jí)的訊飛智能黑板2.0外,訊飛聯(lián)合中國(guó)教科院首發(fā)“基于問(wèn)題鏈的高中數(shù)學(xué)智能教師系統(tǒng)”也即將正式上線。
具體來(lái)說(shuō),這項(xiàng)技術(shù)就是把常規(guī)的問(wèn)題拆解成多步驟的問(wèn)題鏈,通過(guò)這種方式帶領(lǐng)學(xué)生深入理解學(xué)科概念,提升學(xué)習(xí)效果。官方稱試點(diǎn)應(yīng)用顯示,學(xué)生的參與感與興趣明顯增強(qiáng),教師的教學(xué)效率也得到了提升,評(píng)估反饋均相當(dāng)積極。
對(duì)了,這次星火醫(yī)療大模型也更新了,來(lái)到了2.0版本。
(圖源:雷科技)
這次更新中,最重量級(jí)的肯定是全新的訊飛星火醫(yī)學(xué)影像大模型,訊飛通過(guò)大量醫(yī)療影像實(shí)例訓(xùn)練,可實(shí)現(xiàn)各類影像自動(dòng)質(zhì)控,支持同一影像多病種識(shí)別診斷。
此外,訊飛還展出了能夠?qū)崟r(shí)翻譯漢語(yǔ)和德語(yǔ)等多種語(yǔ)言的多語(yǔ)種AI翻譯透明屏;能協(xié)助政務(wù)機(jī)構(gòu)辦公的星火智辦一體機(jī),以及能夠測(cè)試智能座艙人機(jī)交互效果的VIAS評(píng)測(cè)機(jī)器人。
(圖源:雷科技)
據(jù)科大訊飛董事長(zhǎng)劉慶峰在演講時(shí)透露,今年1月至9月,訊飛星火智能硬件GMV同比提升50%,截至10月23日,雙十一大促全渠道GMV同比增長(zhǎng)280%,訊飛的軟硬協(xié)同之路已然走上正軌。
訊飛要讓大模型更好用、更實(shí)用
整個(gè)發(fā)布會(huì)看下來(lái),科大訊飛正在做的事情還挺好理解的:
“讓大模型更好用、更實(shí)用。”
在我看來(lái),大模型要想在行業(yè)規(guī)模化應(yīng)用,像水電一樣輸送給千家萬(wàn)戶,必然需要更多企業(yè)和開(kāi)發(fā)者的共同參與,僅靠一家公司是難以完成的。而構(gòu)建人工智能“星火”生態(tài),正是訊飛持續(xù)努力的目標(biāo)。
在訊飛介紹的落地實(shí)例中,我們不僅看到了政企逐漸實(shí)現(xiàn)智能化轉(zhuǎn)型的畫(huà)面,還有教育、醫(yī)療、科研等多個(gè)行業(yè)的穩(wěn)步推進(jìn),越來(lái)越多的企業(yè)希望通過(guò)引入大模型技術(shù)來(lái)“解放生產(chǎn)力,釋放想象力”。
(圖源:雷科技)
穩(wěn)住消費(fèi)者、教育、醫(yī)療、汽車等“根據(jù)地”,切入運(yùn)營(yíng)商、金融、能源、交通等“新領(lǐng)域”,還要在企業(yè)市場(chǎng)的規(guī);茝V中扎根,這就是訊飛星火的商業(yè)化路徑。
誠(chéng)然,現(xiàn)階段OpenAI的產(chǎn)品或許在多模態(tài)、推理能力上依然有優(yōu)勢(shì),但是說(shuō)斷供就斷供,說(shuō)切斷就雷厲風(fēng)行地切斷了國(guó)內(nèi)廠商和開(kāi)發(fā)者們繞開(kāi)限制使用OpenAI的路徑,這種做法使得國(guó)內(nèi)企業(yè)根本不能放心使用。
相比國(guó)外科技企業(yè),中國(guó)科技企業(yè)更善于做“接地氣”的落地。更加豐富的硬件品類、更快落地的技術(shù)應(yīng)用、更加蓬勃的產(chǎn)業(yè)生態(tài)還有優(yōu)勢(shì)明顯的視頻生成領(lǐng)域,都是科大訊飛們?cè)诔种院愫笕〉玫某錾M(jìn)展。
沒(méi)錯(cuò),訊飛星火的這次底座更新,正是對(duì)未來(lái)可能性的一次探索。
它展示了科大訊飛在人工智能領(lǐng)域的深厚積累,也展示了中國(guó)在人工智能領(lǐng)域的強(qiáng)大實(shí)力,證明在自主創(chuàng)新的算力底座上,通過(guò)領(lǐng)先的算法和數(shù)據(jù)構(gòu)建世界一流的大模型并不是一場(chǎng)夢(mèng)。
(圖源:雷科技)
不僅如此,在本次大會(huì)上,國(guó)產(chǎn)超大規(guī)模智算平臺(tái)“飛星二號(hào)”正式啟動(dòng),該國(guó)產(chǎn)算力平臺(tái)將帶來(lái)新模型新算法的持續(xù)適配和智算集群規(guī)模的再次躍遷,持續(xù)探索無(wú)人區(qū),并給國(guó)內(nèi)外產(chǎn)業(yè)提供第二種選擇。
屬于國(guó)產(chǎn)大模型的時(shí)代,或許已經(jīng)不遠(yuǎn)了。