當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 實(shí)測(cè)訊飛星火V3.5：全語(yǔ)音交互比肩GPT-4！超逼真嘮嗑停不下來(lái)

實(shí)測(cè)訊飛星火V3.5：全語(yǔ)音交互比肩GPT-4！超逼真嘮嗑停不下來(lái)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-31 10:44:07 瀏覽：5448次

導(dǎo)讀：白交夢(mèng)晨發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI 2024年上半年對(duì)標(biāo)GPT-4 ，這是23年科大訊飛全球1024開發(fā)者節(jié)現(xiàn)場(chǎng)給出的承諾。今天，2024剛開年，訊飛星火就迎來(lái)重大升級(jí)：訊飛星火V3.5 整體接近GPT-4 Turbo ；數(shù)學(xué)、語(yǔ)言理解、語(yǔ)音交互能力超過(guò)GPT-4 Turb...

白交夢(mèng)晨發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

“2024年上半年對(duì)標(biāo)GPT-4”，這是23年科大訊飛全球1024開發(fā)者節(jié)現(xiàn)場(chǎng)給出的承諾。

今天，2024剛開年，訊飛星火就迎來(lái)重大升級(jí)：

訊飛星火V3.5整體接近GPT-4 Turbo；

數(shù)學(xué)、語(yǔ)言理解、語(yǔ)音交互能力超過(guò)GPT-4 Turbo；

代碼達(dá)到GPT-4 Turbo 96%；

多模態(tài)達(dá)到GPT-4V 91%。

尤其在語(yǔ)音交互功能上，超逼真的真人語(yǔ)音生成，直接讓線上網(wǎng)友驚嘆三連：

還有更多實(shí)用功能，比如現(xiàn)場(chǎng)幾十秒的時(shí)間生成22頁(yè)P(yáng)PT！這速度，很快啊……

而圍繞著這個(gè)大模型底座，科大訊飛還有一攬子產(chǎn)品和場(chǎng)景應(yīng)用輸出。

國(guó)產(chǎn)首個(gè)語(yǔ)音大模型

星火開源大模型“星火開源-13B”

訊飛翻譯機(jī)升級(jí)

面向教育行業(yè)的智慧黑板

……

從基礎(chǔ)模型到應(yīng)用場(chǎng)景，下面一起來(lái)看。

訊飛星火V3.5底座能力升級(jí)

訊飛星火V3.5除了七大能力全面提升，整體能力接近GPT-4，還特別在語(yǔ)言理解、數(shù)學(xué)等能力上實(shí)現(xiàn)超越。

尤其對(duì)中文的理解更占優(yōu)勢(shì)，具體數(shù)據(jù)對(duì)比如下：

語(yǔ)言理解、數(shù)學(xué)能力超過(guò)GPT-4 Turbo；

代碼打到GPT-4 Turbo 96%；

多模態(tài)理解達(dá)到GPT-4V 91%

……

如果看數(shù)據(jù)圖表還不夠直觀，我們也提前實(shí)測(cè)了一番。

就拿此次網(wǎng)友最為稱道，也是本次更新最大的亮點(diǎn)全語(yǔ)音交互，不是語(yǔ)音消息那樣一條一條的，而是像打電話一樣實(shí)時(shí)交互，下面先來(lái)看一段視頻演示：

星火這一波應(yīng)對(duì)得怎么樣，算不算得上高情商？

要注意視頻沒(méi)有做加速處理，訊飛星火V3.5的語(yǔ)音響應(yīng)就是這么快，與ChatGPT的語(yǔ)音交互相比，省去了大量“等待AI思考”這個(gè)環(huán)節(jié)，整個(gè)對(duì)話過(guò)程更流暢。

“聆飛逸”、“聆小”分別對(duì)應(yīng)男女聲兩種音色，可自由切換。在音色自然，還像人一樣時(shí)不時(shí)有停頓、“嗯……”等語(yǔ)氣詞。

在有感情，擬人度等方面，對(duì)比ChatGPT的“Ember”、“Juniper”音色也不遑多讓。

在交互模式上還設(shè)計(jì)了“一鍵打斷”功能，避免AI生成在一輪對(duì)話中內(nèi)容過(guò)長(zhǎng)。

打斷后，可繼續(xù)提問(wèn)下一個(gè)問(wèn)題，也可以直接“掛斷”語(yǔ)音，切回到文字模式，看到剛剛整個(gè)對(duì)話過(guò)程的文字版。

除此之外，在其他能力表現(xiàn)上，我們先用一個(gè)經(jīng)典挖坑題來(lái)考驗(yàn)。

結(jié)果訊飛星火V3.5不但回答了最后的問(wèn)題，還沒(méi)有被前面無(wú)關(guān)的信息繞進(jìn)去，每一個(gè)不合理之處都被揪出來(lái)了。

做到這一點(diǎn)不僅需要推理問(wèn)題中的文字邏輯，還要結(jié)合大模型在訓(xùn)練階段學(xué)到的關(guān)于現(xiàn)實(shí)世界的知識(shí)。

對(duì)比GPT-4，除了格式不同，推理能力、知識(shí)水平可以算是在一個(gè)level了。

另外也可以推測(cè)，由于要兼顧語(yǔ)音表現(xiàn)，訊飛星火的回答總是一串連貫的句子，而GPT-4更注重視覺(jué)排版。

時(shí)效性方面，提問(wèn)最新網(wǎng)絡(luò)流行梗，星火也是能跟得上潮流的。

相比之下，GPT-4現(xiàn)在雖然默認(rèn)也有聯(lián)網(wǎng)功能，但不經(jīng)特意提醒不會(huì)意識(shí)到回答這個(gè)問(wèn)題需要聯(lián)網(wǎng)搜索，而是開始了傳統(tǒng)藝能“一本正經(jīng)瞎編”。

而在更實(shí)用場(chǎng)景功能升級(jí)，比如學(xué)習(xí)、辦公等場(chǎng)景，也是訊飛星火一直以來(lái)的迭代重點(diǎn)。

比如在知識(shí)學(xué)習(xí)和內(nèi)容創(chuàng)作方面。

發(fā)布會(huì)現(xiàn)場(chǎng)，只截取一段簡(jiǎn)單的新聞，就能提出問(wèn)題，并且根據(jù)問(wèn)題進(jìn)行回答。

關(guān)鍵的是，里面回答的內(nèi)容原文并沒(méi)有。但它卻能根據(jù)問(wèn)題旁征博引、擴(kuò)充內(nèi)容。

在PPT創(chuàng)作上，在確定主題、提綱以及內(nèi)容的過(guò)程中，可以隨時(shí)補(bǔ)充內(nèi)容、精準(zhǔn)生成。

而在更多像工業(yè)、數(shù)智化的生產(chǎn)力場(chǎng)景中，對(duì)大模型的邏輯推理、空間理解、多模態(tài)等方面的能力都提出了更大的考驗(yàn)。

此次星火V3.5也得到了一定的增強(qiáng)。

比如在多模態(tài)和空間理解能力上，只給了一張圖，也沒(méi)有更多提示（只說(shuō)分析這張圖片）。結(jié)果它直接判斷：這是一個(gè)室內(nèi)平面布局圖，并且進(jìn)一步準(zhǔn)確給出房間、家居位置。

除此之外，還可以幫忙設(shè)計(jì)裝修圖，并且根據(jù)自己的需求精細(xì)可控。

ps.你能看出這兩個(gè)有什么不同嗎？（提示：看后面的風(fēng)格畫）。

總的來(lái)說(shuō)，訊飛星火V3.5這次升級(jí)，在模型基礎(chǔ)能力、實(shí)用性、交互模式上都有提升，也帶領(lǐng)中國(guó)大模型行業(yè)進(jìn)一步朝世界先進(jìn)水平看齊。

不過(guò)在這幕后，還有一件更值得關(guān)注的進(jìn)展。

這次訊飛星火V3.5能力升級(jí)，同時(shí)也是“飛星一號(hào)”平臺(tái)能力的首秀。

這是訊飛與華為共建的大模型算力平臺(tái)，基于華為騰生態(tài)，實(shí)現(xiàn)了純國(guó)產(chǎn)化算力。

在“飛星一號(hào)”平臺(tái)首次對(duì)外宣布之時(shí)，劉慶峰曾表示“中國(guó)現(xiàn)有的大模型跟GPT4比還有差距，所以我們必須正視今天和GPT4的差距，找到差距所在。”

如今在“飛星一號(hào)”平臺(tái)正式投入使用后，這個(gè)差距正在逐漸縮短。

不僅如此，一個(gè)完全國(guó)產(chǎn)化、自主可控的算力底座，在保障網(wǎng)絡(luò)信息安全基礎(chǔ)上，還能更好地滿足國(guó)內(nèi)各行各業(yè)的需求，以及支持開發(fā)者、高校、企業(yè)更好自主研發(fā)。

憑借此算力底座，除了訊飛星火V3.5，這次一同出爐的還有國(guó)產(chǎn)首個(gè)語(yǔ)音大模型。

首個(gè)語(yǔ)音大模型發(fā)布

借助基礎(chǔ)大模型以及國(guó)產(chǎn)算力平臺(tái)，此次科大訊飛在技術(shù)和生態(tài)層面，還有一攬子成果輸出。

技術(shù)方面，首個(gè)語(yǔ)音大模型的發(fā)布。

在語(yǔ)音技術(shù)上深耕二十余年的科大訊飛，它認(rèn)為大模型給語(yǔ)音技術(shù)發(fā)展，包括語(yǔ)音合成、識(shí)別、多語(yǔ)種等方面帶來(lái)了全新的機(jī)會(huì)。

不同于常規(guī)的語(yǔ)音大模型，訊飛的語(yǔ)音大模型將更多語(yǔ)音表征解耦，融入到大模型預(yù)訓(xùn)練中，比如語(yǔ)種表征、內(nèi)容表征、韻律表征、音色表征。

在多語(yǔ)種識(shí)別中，在首批37個(gè)主流語(yǔ)種效果超過(guò)OpenAI Whisper 3。

并且在多語(yǔ)種語(yǔ)音生成、超擬人語(yǔ)音生成上，也有一定的提升。

目前語(yǔ)音大模型已經(jīng)向開發(fā)者完全開放，并且首發(fā)搭載在訊飛翻譯機(jī)上面。

除此之外，還首次發(fā)布了星火開源大模型“星火開源-13B”。據(jù)介紹，此次深度適配國(guó)產(chǎn)算力，并且也在思社區(qū)上發(fā)布，助力開發(fā)者、高校、企業(yè)自主研發(fā)。

而在應(yīng)用生態(tài)層面，此次同樣也干貨滿滿。

作為擁有超過(guò)全球590萬(wàn)開發(fā)者生態(tài)的訊飛，繼續(xù)發(fā)揮著自己的場(chǎng)景勢(shì)能以大模型之力，持續(xù)在千行百業(yè)中落地。

以最典型的教育場(chǎng)景為例。

具體在教育場(chǎng)景上，此次訊飛星火智慧黑板有了一定升級(jí)。

劉慶峰認(rèn)為，作為改變?nèi)祟愇磥?lái)生產(chǎn)生活方式的重大技術(shù)突破，優(yōu)先應(yīng)該為孩子賦能、為教育賦能。

老師一聲上課，訊飛星火智慧黑板就開始工作。

不管是數(shù)學(xué)、化學(xué)，立體幾何還是化學(xué)方程式，只需在黑板上畫一下，就能識(shí)別成書面格式，并且支持編輯。

比如現(xiàn)場(chǎng)畫個(gè)苯酚，結(jié)果它秒秒鐘識(shí)別，并且推薦出視頻科普課程。

還能使用虛擬人，輔助老師授課。

一節(jié)講完，它還能自動(dòng)存下來(lái)，課程實(shí)錄、視頻切片等內(nèi)容都有，可以隨時(shí)回顧重點(diǎn)。

除此之外，還有在保險(xiǎn)、銀行、能源、汽車、通信等方面的合作進(jìn)展。

發(fā)布會(huì)現(xiàn)場(chǎng)，中國(guó)移動(dòng)攜手訊飛星火推出5G新通話創(chuàng)新應(yīng)用“商務(wù)速記”，能夠?qū)崿F(xiàn)通話語(yǔ)音同步紀(jì)要，關(guān)鍵事項(xiàng)精準(zhǔn)提煉，且無(wú)需下載APP，所有手機(jī)都支持。

其中，值得一提的是，在農(nóng)業(yè)領(lǐng)域，科大訊飛同安徽省農(nóng)業(yè)農(nóng)村廳聯(lián)合打造“耕云農(nóng)業(yè)大模型”，并被寫入安徽省政府工作報(bào)告之中。

據(jù)介紹，在最新的安徽省政府工作報(bào)告中， “訊飛星火”還被評(píng)價(jià)道：科技創(chuàng)新實(shí)現(xiàn)新突破。訊飛星火認(rèn)知大模型處于全國(guó)領(lǐng)先水平。

能得到這種自上而下的關(guān)注和協(xié)同合作，國(guó)內(nèi)并不多見(jiàn)。

這與科大訊飛本身在大模型生態(tài)影響力不無(wú)關(guān)系。截至目前，訊飛星火積累了這樣一份成績(jī)單。

訊飛聽(tīng)見(jiàn)已經(jīng)擁有6500萬(wàn)用戶，訊飛星火純用戶2400萬(wàn)；

訊飛輸入法有1.4億活躍用戶；

內(nèi)容創(chuàng)作平臺(tái)，訊飛智作（音視頻創(chuàng)作），自815發(fā)布以來(lái)新增了21萬(wàn)會(huì)員用戶，160萬(wàn)音視頻內(nèi)容；而在圖文創(chuàng)作上，1024發(fā)布以來(lái)賦能企業(yè)用戶生產(chǎn)百萬(wàn)內(nèi)容。

半年來(lái)，大模型開發(fā)者生態(tài)積累了35萬(wàn)開發(fā)者數(shù)量，其中企業(yè)開發(fā)者數(shù)量為22萬(wàn)。

要知道獲得這樣成績(jī)的訊飛星火，距離首次發(fā)布并不足一年。

一方面，再次印證了大模型作為基礎(chǔ)技術(shù)底座，持續(xù)釋放在千行百業(yè)的應(yīng)用潛力，而且迭代和落地速度只會(huì)越來(lái)越快。

去年十月，國(guó)務(wù)院發(fā)展研究中心下屬的國(guó)研經(jīng)濟(jì)研究院開展了一項(xiàng)大模型行業(yè)應(yīng)用能力測(cè)評(píng)研究。測(cè)評(píng)報(bào)告中顯示：

星火大模型V3.0在醫(yī)學(xué)、法律、教育、零售、汽車工程、計(jì)算機(jī)和工業(yè)設(shè)計(jì)平均準(zhǔn)確率達(dá)72.3%，在所有測(cè)評(píng)行業(yè)中表現(xiàn)均優(yōu)于GPT3.5版，并且與GPT4.0各有優(yōu)劣。

而除了在行業(yè)場(chǎng)景中的生產(chǎn)勢(shì)能外，此次國(guó)產(chǎn)語(yǔ)音大模型的發(fā)布同樣值得關(guān)注。還記得GPT系列大模型剛出現(xiàn)時(shí)，關(guān)于各種技術(shù)「不存在了」的討論此消彼長(zhǎng)。

作為AI語(yǔ)音龍頭，科大訊飛首次實(shí)踐證明：借助大模型來(lái)推動(dòng)自身語(yǔ)音技術(shù)積淀達(dá)到新的高度，繼續(xù)引領(lǐng)語(yǔ)音技術(shù)發(fā)展。

大模型新階段，該怎么走？

經(jīng)歷了2023年的百模大戰(zhàn)，2024整個(gè)行業(yè)來(lái)到一個(gè)新的階段。

作為國(guó)內(nèi)大模型的代表玩家，科大訊飛整場(chǎng)發(fā)布會(huì)看下來(lái)，能看到窺見(jiàn)到以下三點(diǎn)關(guān)鍵趨勢(shì)：

基礎(chǔ)技術(shù)層面，推理、多模態(tài)能力成為大模型技術(shù)升級(jí)的重點(diǎn)攻堅(jiān)方向。

此次訊飛星火V3.0的升級(jí)方向，與前段時(shí)間奧特曼劇透GPT-5有不少相似之處。

此前在奧特曼對(duì)GPT-5的零星劇透來(lái)看，推理能力是重點(diǎn)提升方向，尤其在代表用戶處理通用任務(wù)方面有重要進(jìn)步。

很快就可以問(wèn)AI，我今天最重要的郵件是什么？

在產(chǎn)品功能上，“應(yīng)用戶強(qiáng)烈要求”，奧特曼正在考慮給ChatGPT添加視頻能力，以及給語(yǔ)音功能提供更好的語(yǔ)音質(zhì)量。

企業(yè)層面，大模型只是基礎(chǔ)底座，技術(shù)公司能夠借大模型來(lái)帶動(dòng)自身技術(shù)升級(jí)和發(fā)展。

已經(jīng)明顯感知到的是，當(dāng)下很多討論的技術(shù)都有一個(gè)共性，就是它并非突然涌現(xiàn)，而是往往存在已久，終于來(lái)到了產(chǎn)業(yè)大規(guī)模應(yīng)用的拐點(diǎn)。

因此對(duì)于技術(shù)公司來(lái)說(shuō)，持續(xù)保持對(duì)新技術(shù)的感知和投入，其實(shí)就能快速部署應(yīng)用，幫助自身技術(shù)布局和發(fā)展。

前段時(shí)間，Meta小扎官宣“All in 開源AGI”，但實(shí)則同此前元宇宙的布局并不沖突，他們將借助大模型，進(jìn)一步推進(jìn)雷朋Meta智能眼鏡為代表AI新型計(jì)算設(shè)備的升級(jí)。

生態(tài)層面，大模型的開放性和可擴(kuò)展性正在成為推動(dòng)行業(yè)生態(tài)繁榮的關(guān)鍵因素。

訊飛星火正吸引著更多的開發(fā)者和合作伙伴，促進(jìn)技術(shù)的快速迭代和創(chuàng)新�；诖竽Ｐ蜆�(gòu)建出各種行業(yè)應(yīng)用，形成一個(gè)多元化的應(yīng)用生態(tài)。這種生態(tài)的構(gòu)建，有助于形成良性的技術(shù)競(jìng)爭(zhēng)環(huán)境，推動(dòng)整個(gè)行業(yè)的技術(shù)進(jìn)步和應(yīng)用場(chǎng)景的拓展。

因此我們能看到，訊飛在教育、醫(yī)療等多個(gè)垂直領(lǐng)域的深入應(yīng)用，這些領(lǐng)域的應(yīng)用不僅能夠解決實(shí)際問(wèn)題，還能夠反過(guò)來(lái)進(jìn)一步為大模型提供豐富的數(shù)據(jù)支持，進(jìn)一步優(yōu)化模型性能，實(shí)現(xiàn)升級(jí)迭代的正向循環(huán)。

這也是訊飛一次次敢于在重要時(shí)間節(jié)點(diǎn)提前“立下Flag”，又能準(zhǔn)時(shí)帶著最新進(jìn)展回來(lái)兌現(xiàn)承諾的底氣所在。

這一次，劉慶峰再次立Flag：今年上半年達(dá)到GPT-4現(xiàn)在水平。

而更長(zhǎng)期的目標(biāo)在于通用大模型持續(xù)對(duì)標(biāo)、行業(yè)應(yīng)用實(shí)現(xiàn)超越、自主可控生態(tài)繁榮。