當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)

訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-25 08:52:17 瀏覽：2562次

導(dǎo)讀：進(jìn)入2024年下半年，生成式人工智能仍然是最引人注目的科技焦點(diǎn)。從初期對(duì)人類指令懵懵懂懂的所謂「人工智能」，到今天聽(tīng)到一個(gè)口令就能老老實(shí)實(shí)地為我們繪畫(huà)、寫(xiě)稿、生成視頻AI帶來(lái)的生產(chǎn)力顯著提升，很多人都希望用它輔助自己的工作學(xué)習(xí)，以此提高效率，甚...

進(jìn)入2024年下半年，生成式人工智能仍然是最引人注目的科技焦點(diǎn)。

從初期對(duì)人類指令懵懵懂懂的所謂「人工智能」，到今天聽(tīng)到一個(gè)口令就能老老實(shí)實(shí)地為我們繪畫(huà)、寫(xiě)稿、生成視頻……AI帶來(lái)的生產(chǎn)力顯著提升，很多人都希望用它輔助自己的工作學(xué)習(xí)，以此提高效率，甚至偷點(diǎn)小懶。

諾貝爾獎(jiǎng)對(duì)大模型和神經(jīng)網(wǎng)絡(luò)的認(rèn)可，進(jìn)一步激勵(lì)著國(guó)內(nèi)外，科技龍頭企業(yè)密集推出人工智能大模型，投入資源、潛心研究，業(yè)界呈現(xiàn)出百花齊放、迅猛發(fā)展的態(tài)勢(shì)，這場(chǎng)環(huán)繞全球的大模型之戰(zhàn)已然燒得如火如荼。

而在這之中，早早開(kāi)啟全民測(cè)試，并已經(jīng)經(jīng)歷了數(shù)次迭代的訊飛星火，顯然是個(gè)特殊的存在。

（圖源：雷科技）

10月24日，在這個(gè)無(wú)比熟悉的日子，第七屆世界聲博會(huì)暨2024科大訊飛全球1024開(kāi)發(fā)者節(jié)正式在合肥奧林匹克體育中心舉辦，小雷也受邀參與了本次開(kāi)發(fā)者節(jié)的開(kāi)幕演講。

在今天上午的大會(huì)上，訊飛重磅發(fā)布訊飛星火4.0Turbo，底座能力再次升級(jí)，特別是數(shù)學(xué)、代碼和長(zhǎng)文本能力顯著提升，中英文綜合能力保持業(yè)界領(lǐng)先水平，同時(shí)訓(xùn)練推理效率大幅提升，進(jìn)一步滿足日益增長(zhǎng)的規(guī)模化落地需求。

不僅如此，今年流行的多模態(tài)交互及超擬人虛擬人交互能力也來(lái)了，諸如教育、醫(yī)療、科研、司法、政務(wù)等領(lǐng)域行業(yè)大模型及更多落地應(yīng)用產(chǎn)品也得到了升級(jí)展示，不妨現(xiàn)在就跟著我的腳步，一起去看看吧。

訊飛星火升級(jí)“一籮筐”

自從去年五月份發(fā)布以來(lái)，訊飛星火大模型在短短一年半內(nèi)經(jīng)歷了數(shù)次迭代，星火認(rèn)知大模型V4.0的快速落地，更是推動(dòng)著訊飛大模型能力迅速迫近行業(yè)前列。

那么這次訊飛，又能給我們帶來(lái)什么驚喜呢？

首先來(lái)看看底座大模型訊飛星火4.0 Turbo的全新升級(jí)。

訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)

（圖源：雷科技）

目前星火在文本知識(shí)、語(yǔ)言理解等七大能力全面超過(guò)GPT-4 Turbo，在數(shù)學(xué)能力、代碼能力更是超過(guò)GPT-4o，當(dāng)前已完成超長(zhǎng)思維鏈、樹(shù)搜索和自我反思評(píng)價(jià)等算法驗(yàn)證，預(yù)計(jì)今年底可實(shí)現(xiàn)類o1的高難度數(shù)學(xué)能力顯著提升。

訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)

（圖源：雷科技）

不過(guò)劉慶峰坦言，目前星火在邏輯推理和多模態(tài)能力較GPT-4o還有所差距，依然需要持續(xù)追趕。

具體功能上，這次訊飛重點(diǎn)介紹的是全新的多模態(tài)交互和超擬人虛擬人技術(shù)。

今年上半年，OpenAI更新的GPT-4o震驚了不少業(yè)內(nèi)人士，這種實(shí)時(shí)對(duì)音頻、視覺(jué)和文本進(jìn)行推理的效果，向更自然的人機(jī)交互（甚至是人-機(jī)器-機(jī)器交互）邁出了重要一步。

五個(gè)月后，科大訊飛也在本次大會(huì)上首度公開(kāi)展示自家的星火極速多模態(tài)交互技術(shù)。

訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)

（圖源：雷科技）

簡(jiǎn)單來(lái)說(shuō)，多模態(tài)交互就是通過(guò)結(jié)合多種感知形式（如視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等）來(lái)實(shí)現(xiàn)更自然、更高效、更準(zhǔn)確、更靈活的人機(jī)交互。

在我看來(lái)，這種技術(shù)的核心在于融合來(lái)自不同模態(tài)的數(shù)據(jù)，大模型需要準(zhǔn)確判斷出輸入數(shù)據(jù)的類型，獲得意圖信息，這樣才能在更廣泛的上下文中理解和處理任務(wù)。

所以現(xiàn)場(chǎng)展示，也得從信息的輸入開(kāi)始。

負(fù)責(zé)現(xiàn)場(chǎng)演示的，依然是我們的老朋友訊飛研究院院長(zhǎng)劉聰，帶著大伙一起探索全新的實(shí)時(shí)語(yǔ)音對(duì)話。

訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)

（圖源：雷科技）

在對(duì)話過(guò)程中，星火會(huì)主動(dòng)捕捉到用戶當(dāng)前所處的狀態(tài)并積極發(fā)問(wèn)。例如在劉聰表示最近航班延誤太多，超擬人數(shù)字人就會(huì)主動(dòng)噓寒問(wèn)暖，甚至還會(huì)對(duì)現(xiàn)場(chǎng)的大伙賣(mài)萌，挺有趣的。

再看看視覺(jué)交互，現(xiàn)在星火也可以根據(jù)攝像頭感知周圍世界的信息了。

拍攝桌上的手辦，星火能夠正確識(shí)別出孫悟空和奧特曼的角色信息，甚至還能根據(jù)劉聰擺出的姿勢(shì)推斷兩名角色之間究竟發(fā)生了什么，還會(huì)對(duì)此添油加醋融入自己的理解。

這個(gè)功能，讓你在海外出游時(shí)也能獲得實(shí)時(shí)語(yǔ)音翻譯和旅游助手，手機(jī)可以拿來(lái)當(dāng)翻譯機(jī)來(lái)回翻譯中文和英語(yǔ)，甚至還能夠幫你辨識(shí)出不同規(guī)格的海外產(chǎn)品，并給出合適的購(gòu)買(mǎi)建議。

想更個(gè)性化一點(diǎn)？

搭配上既有的仿聲功能，現(xiàn)在僅需一張照片就能生成數(shù)字人，實(shí)現(xiàn)更加立體的個(gè)性化多維表達(dá)，就現(xiàn)場(chǎng)劉聰和自己的分身劉小聰對(duì)話的畫(huà)面，看起來(lái)非常有意思。

訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)

（圖源：雷科技）

不僅如此，今天還有驚喜。

訊飛還發(fā)布了星火多語(yǔ)音大模型，首批支持中英之外的八個(gè)語(yǔ)種，官方稱多語(yǔ)言大模型效果整體達(dá)到了GPT-4o的96%，多行業(yè)任務(wù)場(chǎng)景效果甚至超過(guò)GPT-4o。

從官方的演示來(lái)看，星火多語(yǔ)音大模型主要是用于助力產(chǎn)業(yè)出海或是賦能外貿(mào)產(chǎn)業(yè)的，讓使用其他語(yǔ)言的消費(fèi)者，也能體驗(yàn)到星火大模型的會(huì)議記錄摘要、知識(shí)檢索推理、復(fù)雜場(chǎng)景意圖理解等一系列功能，無(wú)需依賴海外大模型的加持。

訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)

（圖源：雷科技）

全國(guó)產(chǎn)算力加持的大模型，邁出了走向海外市場(chǎng)的第一步。

星火走向場(chǎng)景，落地千行百業(yè)

當(dāng)然，和我們普通人不同，比起這些生活化的應(yīng)用，很多業(yè)內(nèi)人士更關(guān)心的是這樣的大模型究竟會(huì)如何影響行業(yè)動(dòng)向。

比如說(shuō)，今天首發(fā)的汽車端側(cè)星火大模型。

訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)

（圖源：雷科技）

劉慶峰介紹，很多車主應(yīng)該都試過(guò)在開(kāi)車經(jīng)過(guò)山洞隧道，或在其他特殊場(chǎng)景下，遇到無(wú)網(wǎng)的情況；也有些用戶出于保護(hù)個(gè)人隱私需求，不希望將個(gè)人數(shù)據(jù)同步至云端。

為了解決這個(gè)問(wèn)題，就必須將大模型部署在汽車端本地，為此訊飛推出了參數(shù)量約1.3B的端側(cè)大模型，相比云端效果損失≤1%，端側(cè)首次響應(yīng)40ms，實(shí)用效果幾乎沒(méi)有差異。

從今年第四季度開(kāi)始，奇瑞、廣汽、長(zhǎng)城等多款車型將會(huì)陸續(xù)集成端側(cè)星火大模型上線并開(kāi)售，用戶很快就能體驗(yàn)到。

在教育領(lǐng)域上，這次科大訊飛AI學(xué)習(xí)機(jī)發(fā)布了“AI作業(yè)過(guò)濾器”，用大模型幫學(xué)生科學(xué)減負(fù)。

訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)

（圖源：雷科技）

據(jù)官方介紹，AI學(xué)習(xí)機(jī)通過(guò)OCR能力識(shí)別出練習(xí)題目后，可根據(jù)學(xué)生歷史學(xué)習(xí)情況和本地化考情，將題目分出“必做題”“選做題”“建議不做題”三個(gè)等級(jí)，學(xué)生可以快速排出學(xué)習(xí)優(yōu)先級(jí)，避免重復(fù)無(wú)效刷題。

當(dāng)年我要能有這么一臺(tái)機(jī)子，浪費(fèi)的無(wú)用功起碼得少個(gè)50%吧。

當(dāng)然，也有針對(duì)教師側(cè)的賦能，除了常規(guī)升級(jí)的訊飛智能黑板2.0外，訊飛聯(lián)合中國(guó)教科院首發(fā)“基于問(wèn)題鏈的高中數(shù)學(xué)智能教師系統(tǒng)”也即將正式上線。

具體來(lái)說(shuō)，這項(xiàng)技術(shù)就是把常規(guī)的問(wèn)題拆解成多步驟的問(wèn)題鏈，通過(guò)這種方式帶領(lǐng)學(xué)生深入理解學(xué)科概念，提升學(xué)習(xí)效果。官方稱試點(diǎn)應(yīng)用顯示，學(xué)生的參與感與興趣明顯增強(qiáng)，教師的教學(xué)效率也得到了提升，評(píng)估反饋均相當(dāng)積極。

對(duì)了，這次星火醫(yī)療大模型也更新了，來(lái)到了2.0版本。

訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)

（圖源：雷科技）

這次更新中，最重量級(jí)的肯定是全新的訊飛星火醫(yī)學(xué)影像大模型，訊飛通過(guò)大量醫(yī)療影像實(shí)例訓(xùn)練，可實(shí)現(xiàn)各類影像自動(dòng)質(zhì)控，支持同一影像多病種識(shí)別診斷。

此外，訊飛還展出了能夠?qū)崟r(shí)翻譯漢語(yǔ)和德語(yǔ)等多種語(yǔ)言的多語(yǔ)種AI翻譯透明屏；能協(xié)助政務(wù)機(jī)構(gòu)辦公的星火智辦一體機(jī)，以及能夠測(cè)試智能座艙人機(jī)交互效果的VIAS評(píng)測(cè)機(jī)器人。

訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)

（圖源：雷科技）

據(jù)科大訊飛董事長(zhǎng)劉慶峰在演講時(shí)透露，今年1月至9月，訊飛星火智能硬件GMV同比提升50%，截至10月23日，雙十一大促全渠道GMV同比增長(zhǎng)280%，訊飛的軟硬協(xié)同之路已然走上正軌。

訊飛要讓大模型更好用、更實(shí)用

整個(gè)發(fā)布會(huì)看下來(lái)，科大訊飛正在做的事情還挺好理解的：

“讓大模型更好用、更實(shí)用。”

在我看來(lái)，大模型要想在行業(yè)規(guī)模化應(yīng)用，像水電一樣輸送給千家萬(wàn)戶，必然需要更多企業(yè)和開(kāi)發(fā)者的共同參與，僅靠一家公司是難以完成的。而構(gòu)建人工智能“星火”生態(tài)，正是訊飛持續(xù)努力的目標(biāo)。

在訊飛介紹的落地實(shí)例中，我們不僅看到了政企逐漸實(shí)現(xiàn)智能化轉(zhuǎn)型的畫(huà)面，還有教育、醫(yī)療、科研等多個(gè)行業(yè)的穩(wěn)步推進(jìn)，越來(lái)越多的企業(yè)希望通過(guò)引入大模型技術(shù)來(lái)“解放生產(chǎn)力，釋放想象力”。

訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)

（圖源：雷科技）

穩(wěn)住消費(fèi)者、教育、醫(yī)療、汽車等“根據(jù)地”，切入運(yùn)營(yíng)商、金融、能源、交通等“新領(lǐng)域”，還要在企業(yè)市場(chǎng)的規(guī)�；茝V中扎根，這就是訊飛星火的商業(yè)化路徑。

誠(chéng)然，現(xiàn)階段OpenAI的產(chǎn)品或許在多模態(tài)、推理能力上依然有優(yōu)勢(shì)，但是說(shuō)斷供就斷供，說(shuō)切斷就雷厲風(fēng)行地切斷了國(guó)內(nèi)廠商和開(kāi)發(fā)者們繞開(kāi)限制使用OpenAI的路徑，這種做法使得國(guó)內(nèi)企業(yè)根本不能放心使用。

相比國(guó)外科技企業(yè)，中國(guó)科技企業(yè)更善于做“接地氣”的落地。更加豐富的硬件品類、更快落地的技術(shù)應(yīng)用、更加蓬勃的產(chǎn)業(yè)生態(tài)還有優(yōu)勢(shì)明顯的視頻生成領(lǐng)域，都是科大訊飛們?cè)诔种院愫笕〉玫某錾M(jìn)展。

沒(méi)錯(cuò)，訊飛星火的這次底座更新，正是對(duì)未來(lái)可能性的一次探索。

它展示了科大訊飛在人工智能領(lǐng)域的深厚積累，也展示了中國(guó)在人工智能領(lǐng)域的強(qiáng)大實(shí)力，證明在自主創(chuàng)新的算力底座上，通過(guò)領(lǐng)先的算法和數(shù)據(jù)構(gòu)建世界一流的大模型并不是一場(chǎng)夢(mèng)。

訊飛星火4.0 Turbo發(fā)布！對(duì)標(biāo)GPT-4o，多模態(tài)能力大升級(jí)

（圖源：雷科技）

不僅如此，在本次大會(huì)上，國(guó)產(chǎn)超大規(guī)模智算平臺(tái)“飛星二號(hào)”正式啟動(dòng)，該國(guó)產(chǎn)算力平臺(tái)將帶來(lái)新模型新算法的持續(xù)適配和智算集群規(guī)模的再次躍遷，持續(xù)探索無(wú)人區(qū)，并給國(guó)內(nèi)外產(chǎn)業(yè)提供第二種選擇。

屬于國(guó)產(chǎn)大模型的時(shí)代，或許已經(jīng)不遠(yuǎn)了。

相關(guān)熱詞： 訊飛星火 4.0 Turbo 發(fā)布對(duì)標(biāo) GPT-4o 模