展會(huì)信息港展會(huì)大全

實(shí)測(cè)訊飛星火V3.5:全語(yǔ)音交互比肩GPT-4!超逼真嘮嗑停不下來(lái)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-31 10:44:07   瀏覽:5448次  

導(dǎo)讀:白交 夢(mèng)晨 發(fā)自 凹非寺 量子位 | 公眾號(hào) QbitAI 2024年上半年對(duì)標(biāo)GPT-4 ,這是23年科大訊飛全球1024開發(fā)者節(jié)現(xiàn)場(chǎng)給出的承諾。 今天,2024剛開年,訊飛星火就迎來(lái)重大升級(jí): 訊飛星火V3.5 整體接近GPT-4 Turbo ; 數(shù)學(xué)、語(yǔ)言理解、語(yǔ)音交互能力超過(guò)GPT-4 Turb...

白交 夢(mèng)晨 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

“2024年上半年對(duì)標(biāo)GPT-4”,這是23年科大訊飛全球1024開發(fā)者節(jié)現(xiàn)場(chǎng)給出的承諾。

今天,2024剛開年,訊飛星火就迎來(lái)重大升級(jí):

訊飛星火V3.5整體接近GPT-4 Turbo

數(shù)學(xué)、語(yǔ)言理解、語(yǔ)音交互能力超過(guò)GPT-4 Turbo;

代碼達(dá)到GPT-4 Turbo 96%;

多模態(tài)達(dá)到GPT-4V 91%。

尤其在語(yǔ)音交互功能上,超逼真的真人語(yǔ)音生成,直接讓線上網(wǎng)友驚嘆三連:

還有更多實(shí)用功能,比如現(xiàn)場(chǎng)幾十秒的時(shí)間生成22頁(yè)P(yáng)PT!這速度,很快啊……

而圍繞著這個(gè)大模型底座,科大訊飛還有一攬子產(chǎn)品和場(chǎng)景應(yīng)用輸出。

國(guó)產(chǎn)首個(gè)語(yǔ)音大模型

星火開源大模型“星火開源-13B”

訊飛翻譯機(jī)升級(jí)

面向教育行業(yè)的智慧黑板

……

從基礎(chǔ)模型到應(yīng)用場(chǎng)景,下面一起來(lái)看。

訊飛星火V3.5底座能力升級(jí)

訊飛星火V3.5除了七大能力全面提升,整體能力接近GPT-4,還特別在語(yǔ)言理解、數(shù)學(xué)等能力上實(shí)現(xiàn)超越。

尤其對(duì)中文的理解更占優(yōu)勢(shì),具體數(shù)據(jù)對(duì)比如下:

語(yǔ)言理解、數(shù)學(xué)能力超過(guò)GPT-4 Turbo;

代碼打到GPT-4 Turbo 96%;

多模態(tài)理解達(dá)到GPT-4V 91%

……

如果看數(shù)據(jù)圖表還不夠直觀,我們也提前實(shí)測(cè)了一番。

就拿此次網(wǎng)友最為稱道,也是本次更新最大的亮點(diǎn)全語(yǔ)音交互,不是語(yǔ)音消息那樣一條一條的,而是像打電話一樣實(shí)時(shí)交互,下面先來(lái)看一段視頻演示:

星火這一波應(yīng)對(duì)得怎么樣,算不算得上高情商?

要注意視頻沒(méi)有做加速處理,訊飛星火V3.5的語(yǔ)音響應(yīng)就是這么快,與ChatGPT的語(yǔ)音交互相比,省去了大量“等待AI思考”這個(gè)環(huán)節(jié),整個(gè)對(duì)話過(guò)程更流暢。

“聆飛逸”、“聆小”分別對(duì)應(yīng)男女聲兩種音色,可自由切換。在音色自然,還像人一樣時(shí)不時(shí)有停頓、“嗯……”等語(yǔ)氣詞。

在有感情,擬人度等方面,對(duì)比ChatGPT的“Ember”、“Juniper”音色也不遑多讓。

在交互模式上還設(shè)計(jì)了“一鍵打斷”功能,避免AI生成在一輪對(duì)話中內(nèi)容過(guò)長(zhǎng)。

打斷后,可繼續(xù)提問(wèn)下一個(gè)問(wèn)題,也可以直接“掛斷”語(yǔ)音,切回到文字模式,看到剛剛整個(gè)對(duì)話過(guò)程的文字版。

除此之外,在其他能力表現(xiàn)上,我們先用一個(gè)經(jīng)典挖坑題來(lái)考驗(yàn)。

結(jié)果訊飛星火V3.5不但回答了最后的問(wèn)題,還沒(méi)有被前面無(wú)關(guān)的信息繞進(jìn)去,每一個(gè)不合理之處都被揪出來(lái)了。

做到這一點(diǎn)不僅需要推理問(wèn)題中的文字邏輯,還要結(jié)合大模型在訓(xùn)練階段學(xué)到的關(guān)于現(xiàn)實(shí)世界的知識(shí)。

對(duì)比GPT-4,除了格式不同,推理能力、知識(shí)水平可以算是在一個(gè)level了。

另外也可以推測(cè),由于要兼顧語(yǔ)音表現(xiàn),訊飛星火的回答總是一串連貫的句子,而GPT-4更注重視覺(jué)排版。

時(shí)效性方面,提問(wèn)最新網(wǎng)絡(luò)流行梗,星火也是能跟得上潮流的。

相比之下,GPT-4現(xiàn)在雖然默認(rèn)也有聯(lián)網(wǎng)功能,但不經(jīng)特意提醒不會(huì)意識(shí)到回答這個(gè)問(wèn)題需要聯(lián)網(wǎng)搜索,而是開始了傳統(tǒng)藝能“一本正經(jīng)瞎編”。

而在更實(shí)用場(chǎng)景功能升級(jí),比如學(xué)習(xí)、辦公等場(chǎng)景,也是訊飛星火一直以來(lái)的迭代重點(diǎn)。

比如在知識(shí)學(xué)習(xí)和內(nèi)容創(chuàng)作方面。

發(fā)布會(huì)現(xiàn)場(chǎng),只截取一段簡(jiǎn)單的新聞,就能提出問(wèn)題,并且根據(jù)問(wèn)題進(jìn)行回答。

關(guān)鍵的是,里面回答的內(nèi)容原文并沒(méi)有。但它卻能根據(jù)問(wèn)題旁征博引、擴(kuò)充內(nèi)容。

在PPT創(chuàng)作上,在確定主題、提綱以及內(nèi)容的過(guò)程中,可以隨時(shí)補(bǔ)充內(nèi)容、精準(zhǔn)生成。

而在更多像工業(yè)、數(shù)智化的生產(chǎn)力場(chǎng)景中,對(duì)大模型的邏輯推理、空間理解、多模態(tài)等方面的能力都提出了更大的考驗(yàn)。

此次星火V3.5也得到了一定的增強(qiáng)。

比如在多模態(tài)和空間理解能力上,只給了一張圖,也沒(méi)有更多提示(只說(shuō)分析這張圖片)。結(jié)果它直接判斷:這是一個(gè)室內(nèi)平面布局圖,并且進(jìn)一步準(zhǔn)確給出房間、家居位置。

除此之外,還可以幫忙設(shè)計(jì)裝修圖,并且根據(jù)自己的需求精細(xì)可控。

ps.你能看出這兩個(gè)有什么不同嗎?(提示:看后面的風(fēng)格畫)。

總的來(lái)說(shuō),訊飛星火V3.5這次升級(jí),在模型基礎(chǔ)能力、實(shí)用性、交互模式上都有提升,也帶領(lǐng)中國(guó)大模型行業(yè)進(jìn)一步朝世界先進(jìn)水平看齊。

不過(guò)在這幕后,還有一件更值得關(guān)注的進(jìn)展。

這次訊飛星火V3.5能力升級(jí),同時(shí)也是“飛星一號(hào)”平臺(tái)能力的首秀。

這是訊飛與華為共建的大模型算力平臺(tái),基于華為騰生態(tài),實(shí)現(xiàn)了純國(guó)產(chǎn)化算力。

在“飛星一號(hào)”平臺(tái)首次對(duì)外宣布之時(shí),劉慶峰曾表示“中國(guó)現(xiàn)有的大模型跟GPT4比還有差距,所以我們必須正視今天和GPT4的差距,找到差距所在。”

如今在“飛星一號(hào)”平臺(tái)正式投入使用后,這個(gè)差距正在逐漸縮短。

不僅如此,一個(gè)完全國(guó)產(chǎn)化、自主可控的算力底座,在保障網(wǎng)絡(luò)信息安全基礎(chǔ)上,還能更好地滿足國(guó)內(nèi)各行各業(yè)的需求,以及支持開發(fā)者、高校、企業(yè)更好自主研發(fā)。

憑借此算力底座,除了訊飛星火V3.5,這次一同出爐的還有國(guó)產(chǎn)首個(gè)語(yǔ)音大模型。

首個(gè)語(yǔ)音大模型發(fā)布

借助基礎(chǔ)大模型以及國(guó)產(chǎn)算力平臺(tái),此次科大訊飛在技術(shù)和生態(tài)層面,還有一攬子成果輸出。

技術(shù)方面,首個(gè)語(yǔ)音大模型的發(fā)布。

在語(yǔ)音技術(shù)上深耕二十余年的科大訊飛,它認(rèn)為大模型給語(yǔ)音技術(shù)發(fā)展,包括語(yǔ)音合成、識(shí)別、多語(yǔ)種等方面帶來(lái)了全新的機(jī)會(huì)。

不同于常規(guī)的語(yǔ)音大模型,訊飛的語(yǔ)音大模型將更多語(yǔ)音表征解耦,融入到大模型預(yù)訓(xùn)練中,比如語(yǔ)種表征、內(nèi)容表征、韻律表征、音色表征。

在多語(yǔ)種識(shí)別中,在首批37個(gè)主流語(yǔ)種效果超過(guò)OpenAI Whisper 3。

并且在多語(yǔ)種語(yǔ)音生成、超擬人語(yǔ)音生成上,也有一定的提升。

目前語(yǔ)音大模型已經(jīng)向開發(fā)者完全開放,并且首發(fā)搭載在訊飛翻譯機(jī)上面。

除此之外,還首次發(fā)布了星火開源大模型“星火開源-13B”。據(jù)介紹,此次深度適配國(guó)產(chǎn)算力,并且也在思社區(qū)上發(fā)布,助力開發(fā)者、高校、企業(yè)自主研發(fā)。

而在應(yīng)用生態(tài)層面,此次同樣也干貨滿滿。

作為擁有超過(guò)全球590萬(wàn)開發(fā)者生態(tài)的訊飛,繼續(xù)發(fā)揮著自己的場(chǎng)景勢(shì)能以大模型之力,持續(xù)在千行百業(yè)中落地。

以最典型的教育場(chǎng)景為例。

具體在教育場(chǎng)景上,此次訊飛星火智慧黑板有了一定升級(jí)。

劉慶峰認(rèn)為,作為改變?nèi)祟愇磥?lái)生產(chǎn)生活方式的重大技術(shù)突破,優(yōu)先應(yīng)該為孩子賦能、為教育賦能。

老師一聲上課,訊飛星火智慧黑板就開始工作。

不管是數(shù)學(xué)、化學(xué),立體幾何還是化學(xué)方程式,只需在黑板上畫一下,就能識(shí)別成書面格式,并且支持編輯。

比如現(xiàn)場(chǎng)畫個(gè)苯酚,結(jié)果它秒秒鐘識(shí)別,并且推薦出視頻科普課程。

還能使用虛擬人,輔助老師授課。

一節(jié)講完,它還能自動(dòng)存下來(lái),課程實(shí)錄、視頻切片等內(nèi)容都有,可以隨時(shí)回顧重點(diǎn)。

除此之外,還有在保險(xiǎn)、銀行、能源、汽車、通信等方面的合作進(jìn)展。

發(fā)布會(huì)現(xiàn)場(chǎng),中國(guó)移動(dòng)攜手訊飛星火推出5G新通話創(chuàng)新應(yīng)用“商務(wù)速記”,能夠?qū)崿F(xiàn)通話語(yǔ)音同步紀(jì)要,關(guān)鍵事項(xiàng)精準(zhǔn)提煉,且無(wú)需下載APP,所有手機(jī)都支持。

其中,值得一提的是,在農(nóng)業(yè)領(lǐng)域,科大訊飛同安徽省農(nóng)業(yè)農(nóng)村廳聯(lián)合打造“耕云農(nóng)業(yè)大模型”,并被寫入安徽省政府工作報(bào)告之中。

據(jù)介紹,在最新的安徽省政府工作報(bào)告中, “訊飛星火”還被評(píng)價(jià)道:科技創(chuàng)新實(shí)現(xiàn)新突破。訊飛星火認(rèn)知大模型處于全國(guó)領(lǐng)先水平。

能得到這種自上而下的關(guān)注和協(xié)同合作,國(guó)內(nèi)并不多見(jiàn)。

這與科大訊飛本身在大模型生態(tài)影響力不無(wú)關(guān)系。截至目前,訊飛星火積累了這樣一份成績(jī)單。

訊飛聽(tīng)見(jiàn)已經(jīng)擁有6500萬(wàn)用戶,訊飛星火純用戶2400萬(wàn);

訊飛輸入法有1.4億活躍用戶;

內(nèi)容創(chuàng)作平臺(tái),訊飛智作(音視頻創(chuàng)作),自815發(fā)布以來(lái)新增了21萬(wàn)會(huì)員用戶,160萬(wàn)音視頻內(nèi)容;而在圖文創(chuàng)作上,1024發(fā)布以來(lái)賦能企業(yè)用戶生產(chǎn)百萬(wàn)內(nèi)容。

半年來(lái),大模型開發(fā)者生態(tài)積累了35萬(wàn)開發(fā)者數(shù)量,其中企業(yè)開發(fā)者數(shù)量為22萬(wàn)。

要知道獲得這樣成績(jī)的訊飛星火,距離首次發(fā)布并不足一年。

一方面,再次印證了大模型作為基礎(chǔ)技術(shù)底座,持續(xù)釋放在千行百業(yè)的應(yīng)用潛力,而且迭代和落地速度只會(huì)越來(lái)越快。

去年十月,國(guó)務(wù)院發(fā)展研究中心下屬的國(guó)研經(jīng)濟(jì)研究院開展了一項(xiàng)大模型行業(yè)應(yīng)用能力測(cè)評(píng)研究。測(cè)評(píng)報(bào)告中顯示:

星火大模型V3.0在醫(yī)學(xué)、法律、教育、零售、汽車工程、計(jì)算機(jī)和工業(yè)設(shè)計(jì)平均準(zhǔn)確率達(dá)72.3%,在所有測(cè)評(píng)行業(yè)中表現(xiàn)均優(yōu)于GPT3.5版,并且與GPT4.0各有優(yōu)劣。

而除了在行業(yè)場(chǎng)景中的生產(chǎn)勢(shì)能外,此次國(guó)產(chǎn)語(yǔ)音大模型的發(fā)布同樣值得關(guān)注。還記得GPT系列大模型剛出現(xiàn)時(shí),關(guān)于各種技術(shù)「不存在了」的討論此消彼長(zhǎng)。

作為AI語(yǔ)音龍頭,科大訊飛首次實(shí)踐證明:借助大模型來(lái)推動(dòng)自身語(yǔ)音技術(shù)積淀達(dá)到新的高度,繼續(xù)引領(lǐng)語(yǔ)音技術(shù)發(fā)展。

大模型新階段,該怎么走?

經(jīng)歷了2023年的百模大戰(zhàn),2024整個(gè)行業(yè)來(lái)到一個(gè)新的階段。

作為國(guó)內(nèi)大模型的代表玩家,科大訊飛整場(chǎng)發(fā)布會(huì)看下來(lái),能看到窺見(jiàn)到以下三點(diǎn)關(guān)鍵趨勢(shì):

基礎(chǔ)技術(shù)層面,推理、多模態(tài)能力成為大模型技術(shù)升級(jí)的重點(diǎn)攻堅(jiān)方向。

此次訊飛星火V3.0的升級(jí)方向,與前段時(shí)間奧特曼劇透GPT-5有不少相似之處。

此前在奧特曼對(duì)GPT-5的零星劇透來(lái)看,推理能力是重點(diǎn)提升方向,尤其在代表用戶處理通用任務(wù)方面有重要進(jìn)步。

很快就可以問(wèn)AI,我今天最重要的郵件是什么?

在產(chǎn)品功能上,“應(yīng)用戶強(qiáng)烈要求”,奧特曼正在考慮給ChatGPT添加視頻能力,以及給語(yǔ)音功能提供更好的語(yǔ)音質(zhì)量。

企業(yè)層面,大模型只是基礎(chǔ)底座,技術(shù)公司能夠借大模型來(lái)帶動(dòng)自身技術(shù)升級(jí)和發(fā)展。

已經(jīng)明顯感知到的是,當(dāng)下很多討論的技術(shù)都有一個(gè)共性,就是它并非突然涌現(xiàn),而是往往存在已久,終于來(lái)到了產(chǎn)業(yè)大規(guī)模應(yīng)用的拐點(diǎn)。

因此對(duì)于技術(shù)公司來(lái)說(shuō),持續(xù)保持對(duì)新技術(shù)的感知和投入,其實(shí)就能快速部署應(yīng)用,幫助自身技術(shù)布局和發(fā)展。

前段時(shí)間,Meta小扎官宣“All in 開源AGI”,但實(shí)則同此前元宇宙的布局并不沖突,他們將借助大模型,進(jìn)一步推進(jìn)雷朋Meta智能眼鏡為代表AI新型計(jì)算設(shè)備的升級(jí)。

生態(tài)層面,大模型的開放性和可擴(kuò)展性正在成為推動(dòng)行業(yè)生態(tài)繁榮的關(guān)鍵因素。

訊飛星火正吸引著更多的開發(fā)者和合作伙伴,促進(jìn)技術(shù)的快速迭代和創(chuàng)新;诖竽P蜆(gòu)建出各種行業(yè)應(yīng)用,形成一個(gè)多元化的應(yīng)用生態(tài)。這種生態(tài)的構(gòu)建,有助于形成良性的技術(shù)競(jìng)爭(zhēng)環(huán)境,推動(dòng)整個(gè)行業(yè)的技術(shù)進(jìn)步和應(yīng)用場(chǎng)景的拓展。

因此我們能看到,訊飛在教育、醫(yī)療等多個(gè)垂直領(lǐng)域的深入應(yīng)用,這些領(lǐng)域的應(yīng)用不僅能夠解決實(shí)際問(wèn)題,還能夠反過(guò)來(lái)進(jìn)一步為大模型提供豐富的數(shù)據(jù)支持,進(jìn)一步優(yōu)化模型性能,實(shí)現(xiàn)升級(jí)迭代的正向循環(huán)。

這也是訊飛一次次敢于在重要時(shí)間節(jié)點(diǎn)提前“立下Flag”,又能準(zhǔn)時(shí)帶著最新進(jìn)展回來(lái)兌現(xiàn)承諾的底氣所在。

這一次,劉慶峰再次立Flag:今年上半年達(dá)到GPT-4現(xiàn)在水平。

而更長(zhǎng)期的目標(biāo)在于通用大模型持續(xù)對(duì)標(biāo)、行業(yè)應(yīng)用實(shí)現(xiàn)超越、自主可控生態(tài)繁榮。

2024年才剛剛開始,對(duì)于這一年以訊飛星火為代表的AI技術(shù)又將給人們生活帶來(lái)哪些變化,你怎么看?

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港