展會信息港展會大全

訊飛星火 V3.5 體驗:整體接近 GPT-4
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-31 07:14:54   瀏覽:5748次  

導讀:1 月 30 日,科大訊飛舉行了訊飛星火認知大模型 V3.5 升級發(fā)布會,會上,訊飛星火 V3.5 版本正式發(fā)布,這是是首個基于全國產(chǎn)化算力平臺飛星一號訓練的全民開放大模型。 科大訊飛董事長劉慶峰表示,訊飛星火 V3.5 整體已經(jīng)接近 GPT-4 水平;其在數(shù)學、語言理...

1 月 30 日,科大訊飛舉行了訊飛星火認知大模型 V3.5 升級發(fā)布會,會上,訊飛星火 V3.5 版本正式發(fā)布,這是是首個基于全國產(chǎn)化算力平臺“飛星一號”訓練的全民開放大模型。

科大訊飛董事長劉慶峰表示,訊飛星火 V3.5 整體已經(jīng)接近 GPT-4 水平;其在數(shù)學、語言理解、語音交互能力超過 GPT-4Turbo。代碼能力方面達到了 GPT-4 Turbo 的96%,多模態(tài)理解能力也達到了 GPT-4V 的 91%。

此外,科大訊飛還首次發(fā)布了星火語音大模型,主流語種全球領(lǐng)先,引領(lǐng)萬物互聯(lián)時代的人機交互革命。同時星火開源大模型“星火開源-13B”也首次發(fā)布,深度適配國產(chǎn)算力,助力開發(fā)者、高校、企業(yè)自主研發(fā)。

那么最新的訊飛星火 V3.5 版本實際使用到底如何呢?今天IT之家就和大家一起體驗一番。

1、AIGC 核心能力體驗

對于大模型來說,最關(guān)鍵的自然是 AIGC 核心對話能力了,所以我們就先主要從這些能力來測試。

測試時,小編用 ChatGPT 最新的 GPT-4 來和訊飛星火 V3.5 版本作對比,看看訊飛星火 V3.5 是否確實能夠做到趕超 ChatGPT。如無特別說明,兩者默認使用的都是網(wǎng)頁端。

話不多說,下面我們就開始吧。

1、全語音交互

本次發(fā)布會,最讓小編印象深刻的當屬訊飛星火 V3.5 的全語音交互能力,你可以直接用語音來和訊飛星火對話,就像和一個真實的人聊天一樣,非常驚艷,因此我們先從這一點進行體驗評測。

目前全語音對話可以在 App 端體驗,升級之后,在底部輸入框的最右側(cè)多了一個機器助手的圖標,點擊即可進入全語音交互狀態(tài)。測試時,IT之家設(shè)計了一段對話,分別和訊飛星火 V3.5 與 GPT-4 交流,大家可通過下面這個視頻來感受:

從視頻中可以看到,訊飛星火 V3.5 的全語音交互非常流暢,首先 AI 的聲音很自然,說話時甚至還帶有“嗯”、“內(nèi)個”等語氣詞,幾乎就和真人沒什么分別。其次,在交互時,訊飛星火 V3.5 的響應(yīng)速度也很快,小編說完話,它很快就能接上。再者就是,訊飛星火 V3.5 的回答內(nèi)容也很準確,上下文聯(lián)系緊密,沒有出現(xiàn)答非所問的情況,總之,說是“交互”,更像是自然的“交流”。

GPT-4 方面,需要說明的是,由于使用時網(wǎng)絡(luò)連接不穩(wěn)定的客觀原因,對話過程中會頻繁出現(xiàn)重連、等待時間長的情況,拋開這一點,GPT-4 的語音對話也是比較不錯的,聲音同樣自然流暢如同真人。

訊飛星火 V3.5 的全語音交互目前有聆小(女聲)和聆飛逸(男生)兩個音色可切換,下面小編切換到男聲,同時提高一下難度,又設(shè)計了一段對話來考驗兩款大模型的語音交互體驗,大家可以接著看下面這個視頻:

從視頻上可以看到,訊飛星火 V3.5 在對話和交流中有時候還會主動發(fā)問,讓聊天繼續(xù)下去,這會更加讓人絕對不像是和 AI 對話而是在和真人,當然,這一點 GPT-4 也具備。同時這次對話中,小編故意在說話時加了口語、語氣詞,訊飛星火 V3.5 絲毫沒有受到影響,依然可以準確 get 到小編的意思。還有就是,對話中小編讓訊飛星火幫我看看明天從青島到上海的火車,它給出的火車班次經(jīng)過小編在 12306 上驗證,也都是真實準確的。這一點無疑讓訊飛星火 V3.5 的全語音交互在真實自然有趣中又多了一份實用。

GPT-4 這邊,其實效果也和訊飛星火 V3.5 差不多,小編讓它查詢從紐約到洛杉磯的航班,它也能提供,但是聽久了會發(fā)現(xiàn),GPT-4 的聲音自然和真實度相比訊飛星火 V3.5 還是稍微弱一些。

2、語言理解

語言理解方面,我們先從比較基礎(chǔ)的問題來考驗兩款大模型,比如讓它們嘗試分析下面這段話所表達的思想情感:

一切不幸命運的救贖之路在哪里呢? 設(shè)若智慧的悟性可以引領(lǐng)我們?nèi)フ业骄融H之路,難道所有的人都能夠獲得這樣的智慧和悟性嗎? 我常以為是丑女造就了美人。我常以為是愚氓舉出了智者。我常以為是懦夫襯照了英雄。我常以為是眾生度化了佛祖。

訊飛星火 V3.5 和 GPT-4 分別給出了如下理解:

從回答來看,訊飛星火 V3.5 和 GPT-4 給出的理解都是合格的,但整體來說,GPT-4 的理解和表達要更準確更細致一些。

下面IT之家提高一些難度,讓它們分析下面這幅暗帶諷刺意味的對聯(lián):

墻上蘆葦,頭重腳輕根底淺;山間竹筍,嘴尖皮厚腹中空。

訊飛星火 V3.5 和 GPT-4 給出的回答都可以打滿分:

然后小編再提高難度,用一段陰陽怪氣的話來考驗兩款大模型:

公司早上 09:00 點上班,我正好在 09:00 踩著點來到公司打了卡,正好碰到了老板,老板看到我。說:“親愛的王先生,你可真是準時啊,咱們公司有你這么準時的員工,業(yè)績可不蹭蹭蹭地上漲?”請問老板這句話是什么意思?

對于這道題,訊飛星火 V3.5 理解地不對,沒有 get 到老板話語中的諷刺:

相對來說,GPT-4 的回答更好,理解出了老板話里的諷刺。

再換一句陰陽怪氣的話:

真羨慕你的皮膚,保養(yǎng)得這么厚。

對于這句話的理解,這次訊飛星火 V3.5 準確把握到了其中的挖苦和諷刺:

GPT-4 雖然也識別出這里面有挖苦的意思,但具體在諷刺什么,它給出了錯誤的理解:

經(jīng)過測試,訊飛星火 V3.5 和 GPT-4 在中文語言理解能力上互有勝負,整體可以說在一個水平上,語言背后隱藏的意思大部分也能識別出來,理解能力還是能讓人滿意的。

3、邏輯推理

接著考驗訊飛星火 V3.5 版本和 GPT-4 的邏輯推理能力,小編選擇了一些邏輯思維訓練的測試題。第一個是:

假設(shè)有一個池塘,里面有無窮多的水,現(xiàn)有兩個空水壺,容積分別是 5 升與 6 升。問如何用這兩個水壺從池塘里取得 3 升的水?

對于這個問題訊飛星火 V3.5 的回答步驟清晰,邏輯清楚,實際可操作性也沒有問題。

GPT-4 方面,對于這個問題的回答,雖然也一條條列了步驟,但是按照它給的方法,并不能得到 3 升水。

接著小編又找了一個題目:

A、B、C、 D 四人進行象棋比賽,每兩人都要賽一場,結(jié)果 A 勝了 D,并且 A、B、 C 三人勝的場數(shù)相同。問 D 勝了幾場?

對于這個問題,訊飛星火 V3.5 和 GPT-4 雖然解題思路有所不同,但都給出了正確的答案:

接著還有一個問題:

四年級有三個班,每班有兩個班長,開班會時,每次每班只要一個班長參加。第一次到會的有 A,B,C;第二次到會的有 B,D,E;第三次到會的有 A,E,F(xiàn)。請問哪兩位班長是同班的?

這個問題,訊飛星火 V3.5 給出了正確且完整的回答:

GPT-4 也給出了正確的答案,并且思路也很清晰。

談到邏輯思維,還有一些類似腦筋急轉(zhuǎn)彎的題目,也很能考驗大模型的思維反應(yīng)能力,比如下面這個問題:

假如 1=7,2=17,3=27,4=37,5=47,6=57 那么 7=?

這個問題,訊飛星火 V3.5 和 GPT-4 都沒能識別題目中的迷惑條件,從而給出了錯誤的回答:

再來一個有思維陷井的題目:

你參加賽跑,當你超過了第 2 名后,你是第幾名?

這個問題訊飛星火 V3.5 和 GPT-4 都成功避坑,沒有回答“第一名”而是答出“成為新的第二名”。

總體來說,在邏輯思維能力方面,訊飛星火 V3.5 和 GPT-4 都展現(xiàn)了很不錯的邏輯推理和避坑能力,其中訊飛星火 V3.5 在第一題中還小勝了一下。

4、數(shù)學答題

前面我們測試過兩款大模型的邏輯推理能力,與之相似的其實還有數(shù)學答題的能力,可以更進一步檢測大模型的“智商水平”。

先看下面這道題:

在 △ ABC 中,a,b,c 分別為內(nèi)角 A,B,C 所對的邊,若 2asinA=(2sinB+sinC) b+(2sinC+sinB) c。

(1)求 A 的大。

(2)求 sinB+sinC 的最大值。

訊飛星火 V3.5 答對了第一個小問,但是第二個小問答錯了,最大值應(yīng)該是 1.

GPT-4 這邊,兩個小問都沒有成功給出答案。

接著小編又找了一題:

某中學對女生立定跳遠項目的考核要求為:1.33 米得 5 分,每增加 0.03 米,分值增加 5 分,直到 1.84 米得 90 分后,每增加 0.1 米,分值增加 5 分,滿分為 120 分,若某女生訓練前的成績?yōu)?70 分,經(jīng)過一段時間的訓練后,成績?yōu)?105 分,則該女生經(jīng)過訓練后跳遠增加了多少米?

訊飛星火 V3.5 給出了正確答案,同時也給出了解題過程:

GPT-4 這邊一開始只給出了正確答案,小編追問解題過程后,它才給出詳細的解答步驟。

最后再試一道稍難一些的題:

已知函數(shù) f (x)=e^x-ax-1,g (x)=kx^2,當 a>0 時,求 f (x) 的值域。

對于這個題,訊飛星火 V3.5 給出了正確答案,解題過程雖然簡單,但思路還是比較清晰的。

GPT-4 這邊,給出了一個比較長的解題步驟,但結(jié)果是錯的。

上面舉例的三道題都是從高三某數(shù)學模擬測試中找到的,可見訊飛星火 V3.5 的數(shù)學能力目前至少已經(jīng)達到了高中水平,實際使用過程中,也確實能發(fā)現(xiàn),訊飛星火 V3.5 在解數(shù)學題方面還是要比 GPT-4 好一些的。但整體來說,兩者都還有進步的空間。

5、文本生成

文本生成可能是大家使用大模型最常用的功能,用來輔助我們進行一些文案創(chuàng)作。這里小編也對兩款大模型進行了測試。

首先小編想讓他們幫我寫一篇招聘文案:

招聘要求: 有經(jīng)濟學專業(yè)背景,有傳媒方向工作經(jīng)驗,文筆優(yōu)秀,能接受經(jīng)常出差。

招聘待遇: 有五險一金,月薪 15K 起,工作環(huán)境新適優(yōu)雅,節(jié)假日還有禮品,一年一次旅行團建。

文案要求: 風格輕松幽默,500 字以內(nèi)。

訊飛星火 V3.5 給出的文案基本上沒有什么扣分點:

GPT-4 的文案整體來說也不錯,但是語言相比訊飛星火 V3.5 不夠輕松幽默。

再看故事接龍,小編用那個最經(jīng)典的故事開頭讓它們續(xù)寫:

世界末日后,我成為地球上唯一幸存的人,獨白坐在房間里,這時,突然想起了敲門聲.....

訊飛星火 V3.5 和 GPT-4 的故事續(xù)寫都能做到邏輯通順、語言流暢、有始有終,并且也有些細節(jié)描寫,都是比較不錯的。

身處職場的朋友經(jīng)常會需要寫一些方案、活動計劃之類的,這時候也可以借助大模型的內(nèi)容生成能力來幫助自己更快地完成任務(wù)。這里IT之家以“我司計劃開展一個讀書活動,幫我寫一個活動方案”為需求,來進行測試。

訊飛星火給出的方案則是比較完整的,時間、地點、目標、流程、前期準備、結(jié)果評估等環(huán)節(jié)都有,而且不缺細節(jié),可用性很高。

GPT-4 的計劃書相對簡潔一些,細節(jié)少一些,但也比較完整。

總體來說,在文本生成方面,訊飛星火 V3.5 和 GPT-4 水平相當,生成的內(nèi)容都沒有什么問題。

6、代碼能力

用 AI 大模型輔助寫代碼也是一些程序員常遇到的使用場景,這也可以視為大模型內(nèi)容生成能力的重要組成。

測試時,小編首先用下面這個問題來考驗兩個大模型:

請用 c# 語言生成以下代碼:給你一個字符串 s,找到 s 中最長的回文子串。

如果字符串的反序與原始字符串相同,則該字符串稱為回文字符串。

代碼請遵循以下模板:

public class Solution {

public string LongestPalindrome(string s) {

}

}

我們以代碼能直接拿來使用為準則,將大模型生成的代碼用程序運行工具進行檢測,看是否能直接完美運行。由于小編自己不懂代碼,因此也找到IT之家的程序員同學來輔助評價。

首先還是看訊飛星火 V3.5,它給出的代碼格式標準,算法也比較簡潔,看起來很清爽。

拿到檢測工具中進行運行檢測,發(fā)現(xiàn)這段代碼可以直接運行,而且輸出的結(jié)果也準確,也就是說可以直接拿來用。

GPT-4 這邊,給出的代碼同樣有規(guī)范的格式,也比較簡潔,而且還有注釋。

拿到檢測軟件中運行,也可以成功運行,表現(xiàn)同樣不錯。

除了要會寫代碼,還要能分析代碼,所以接下來小編找來一段代碼讓他們來回答這段代碼是干什么的:

# Python 3

def remove_common_prefix(x, prefix, ws_prefix):

x["completion"]=

x["completion"].str[len(prefix):]

if ws_prefix:

#keep the single whitespace as prefix

x["completion"]=" " + x["completion”]

return x

#解釋這段代碼是干什么的

訊飛星火的回答簡潔明了地說明了這段代碼的主要功能,答案準確。

GPT-4 也給出了這段代碼的實現(xiàn)功能,也是沒有問題的,同時,它還指出了代碼中存在的一處小錯誤,就是最后引號不規(guī)范的問題,這一點上 GPT 要略勝一籌。

總結(jié)而言,目前訊飛星火 V3.5 和 GPT-4 都擁有很強的代碼能力,并且兩者的水平基本上已經(jīng)沒有什么差別。

7、行業(yè)知識

最后再測一下兩者在行業(yè)知識方面的掌握情況。

先看一個化學領(lǐng)域的題目:

以下有關(guān)鑭系元素的哪個陳述是不正確的?

(A) 锏系元素最常見的氧化態(tài)為 + 3。

(B) 銻系元素的配合物常常具有高配位數(shù) (>6)。

(C) 所有锎系元素與水溶酸反應(yīng),能夠產(chǎn)生氫氣。

(D) 锏系元素的原子半徑在锏系元素周期表中由 La 到 Lu 逐漸增加

訊飛星火 V3.5 和 GPT-4 都給出了正確的回答。其中訊飛星火 V3.5 的答案比較簡單直接,GPT-4 的更詳細一些。

接著再問他們一個關(guān)于醫(yī)學方面的問題:

在心臟左房室口的周緣附有的瓣膜是什么?

訊飛星火 V3.5 和 GPT-4 都能準確給出答案。

在知識性方面,我們還有必要考慮大模型對最新信息的掌握情況,也就是它們的知識庫更新情況。這里小編也抽幾個題目來測試。

首先小編問“蘋果 Vision Pro 是什么時候發(fā)布的?”

訊飛星火 V3.5 給出了正確的回答,還簡單介紹了一下這款產(chǎn)品。說明它的知識庫非常新,這讓小編很是驚喜。

而 GPT-4 則直接沒有回答上來,

接著小編又問了一個和體育有關(guān)的問題:

NBA 球星克里斯保羅現(xiàn)在在哪支球隊?

訊飛星火給出了正確而完整的回答:

GPT-4 這邊依然沒有回答出來,指向了搜索引擎。

整體來說,在行業(yè)知識掌握方面,訊飛星火 V3.5 在知識掌握的深度方面和 GPT-4 基本不相上下,但是在知識庫儲備的更新速度方面,目前訊飛星火 V3.5 要明顯好于 GPT-4。

8、多模態(tài)能力

在這次訊飛星火 V3.5 版本中,多模態(tài)能力也得到了顯著提升,因此最后小編也來測試一下其在多模態(tài)方面的表現(xiàn)如何。

首先是基礎(chǔ)的文生圖能力,小編首先讓它們畫一個“孫悟空大鬧天宮”,訊飛星火 V3.5 和 GPT-4 都很快給出了畫作,并且都還比較符合要求。

但整體看起來,GPT-4 的畫作更加精致和細致一些。

接著是圖生文的能力,小編找來一張圖片,看它們能否識別出圖片中的笑點。

訊飛星火 V3.5 準確給出了圖片中的笑點,也判斷出了這是《貓和老鼠》中的場景,但同時也出現(xiàn)了圖片中沒有的元素的解釋。

GPT-4 也能準確看出圖片中的笑點所在,并且沒有生成多余的信息,但沒有指出這是《貓和老鼠》中的場景,整體來說各有優(yōu)點和不足。

在多模態(tài)體驗方面,還有一個大家比較關(guān)注的功能,就是視頻生成。這里小編嘗試讓兩款大模型生成一段關(guān)于超人的視頻。

訊飛星火 V3.5 很快生成了一段介紹超人的小視頻,視頻中還有虛擬數(shù)字人負責講解,很不錯。

GPT-4 這邊目前則尚不支持生成視頻。

總的來說,目前在多模態(tài)的能力方面,訊飛星火 V3.5 也是非常全面的,實際使用的體驗也很不錯,相比 GPT-4 可以說各有千秋,伯仲之間。

總體來說,經(jīng)過多版本的技術(shù)迭代,目前訊飛星火 V3.5 版本在基礎(chǔ)功能體驗方面是幾乎沒有什么問題的,功能全面而且成熟好用。

二、其他基礎(chǔ)功能體驗

最后我們再看看訊飛星火在其他基礎(chǔ)功能體驗方面的情況,IT之家主要從終端覆蓋情況、功能豐富度這兩個方面來說明。

在終端覆蓋的豐富程度上,訊飛星火一直是比較領(lǐng)先的,早在去年 6 月訊飛星火 V1.5 升級的時候,就已經(jīng)實現(xiàn)了安卓、IOS、小程序、PC、H5 五端全覆蓋,因此大家在主流設(shè)備中都可以體驗訊飛星火大模型。

ChatGPT 方面,目前覆蓋網(wǎng)頁端,移動端、PC 和 Mac, Linux,沒有小程序和 H5,對比訊飛星火各有優(yōu)勢。

而在功能性上,目前訊飛星火也是非常全面的。比如在此前 V1.5 版本上引入的訊飛 AI 助手功能,面對具體的應(yīng)用場景提供專門的服務(wù)和功能,可以涵蓋“職嘗生活、出行、寫作、趣味、情感”等多種場景,甚至還可以自己創(chuàng)作 AI 助手。

在訊飛星火上可以看到,目前各種不同種類的星火 AI 助手還是非常全面的,幾乎所有的應(yīng)用場景都能覆蓋到。

在 ChatGPT 上也有類似的功能。

再比如,訊飛星火還擁有豐富的插件功能,包括 PPT 生成、郵件生成、簡歷生成、運營文案生成、思維導圖、AI 面試官等等,功能非常齊全。

這些是目前 GPT-4 尚不具備的能力。

結(jié)語

此前,科大訊飛董事長劉慶峰在接受采訪時曾表示,訊飛星火在 2024 年 4 月份將全面對標 GPT-4。

而從這次對全新訊飛星火 V3.5 版本的體驗來看,其在綜合能力的體驗方面確實已經(jīng)可以和 GPT-4 不分伯仲,在邏輯推理、數(shù)學能力、知識庫更新速度等方面甚至還有一定程度的領(lǐng)先。

總之,訊飛星火認知大模型 V3.5 讓我們看到了國產(chǎn)大模型在技術(shù)和應(yīng)用方面無限的發(fā)展?jié)摿,也期待未來訊飛星火的持續(xù)進化,讓我們的 AI 大模型技術(shù)和應(yīng)用生態(tài)真正實現(xiàn)國際化的引領(lǐng)。

贊助本站

人工智能實驗室

相關(guān)熱詞: 訊飛 星火 V3.5 體驗 整體 接近 GPT-4

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港