當前位置：人工智能實驗室> 人工智能應(yīng)用 > 訊飛星火 V3.5 體驗：整體接近 GPT-4

訊飛星火 V3.5 體驗：整體接近 GPT-4
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-31 07:14:54 瀏覽：5748次

導讀：1 月 30 日，科大訊飛舉行了訊飛星火認知大模型 V3.5 升級發(fā)布會，會上，訊飛星火 V3.5 版本正式發(fā)布，這是是首個基于全國產(chǎn)化算力平臺飛星一號訓練的全民開放大模型。科大訊飛董事長劉慶峰表示，訊飛星火 V3.5 整體已經(jīng)接近 GPT-4 水平；其在數(shù)學、語言理...

1 月 30 日，科大訊飛舉行了訊飛星火認知大模型 V3.5 升級發(fā)布會，會上，訊飛星火 V3.5 版本正式發(fā)布，這是是首個基于全國產(chǎn)化算力平臺“飛星一號”訓練的全民開放大模型。

科大訊飛董事長劉慶峰表示，訊飛星火 V3.5 整體已經(jīng)接近 GPT-4 水平；其在數(shù)學、語言理解、語音交互能力超過 GPT-4Turbo。代碼能力方面達到了 GPT-4 Turbo 的96%，多模態(tài)理解能力也達到了 GPT-4V 的 91%。

此外，科大訊飛還首次發(fā)布了星火語音大模型，主流語種全球領(lǐng)先，引領(lǐng)萬物互聯(lián)時代的人機交互革命。同時星火開源大模型“星火開源-13B”也首次發(fā)布，深度適配國產(chǎn)算力，助力開發(fā)者、高校、企業(yè)自主研發(fā)。

那么最新的訊飛星火 V3.5 版本實際使用到底如何呢？今天IT之家就和大家一起體驗一番。

1、AIGC 核心能力體驗

對于大模型來說，最關(guān)鍵的自然是 AIGC 核心對話能力了，所以我們就先主要從這些能力來測試。

測試時，小編用 ChatGPT 最新的 GPT-4 來和訊飛星火 V3.5 版本作對比，看看訊飛星火 V3.5 是否確實能夠做到趕超 ChatGPT。如無特別說明，兩者默認使用的都是網(wǎng)頁端。

話不多說，下面我們就開始吧。

1、全語音交互

本次發(fā)布會，最讓小編印象深刻的當屬訊飛星火 V3.5 的全語音交互能力，你可以直接用語音來和訊飛星火對話，就像和一個真實的人聊天一樣，非常驚艷，因此我們先從這一點進行體驗評測。

目前全語音對話可以在 App 端體驗，升級之后，在底部輸入框的最右側(cè)多了一個機器助手的圖標，點擊即可進入全語音交互狀態(tài)。測試時，IT之家設(shè)計了一段對話，分別和訊飛星火 V3.5 與 GPT-4 交流，大家可通過下面這個視頻來感受：

從視頻中可以看到，訊飛星火 V3.5 的全語音交互非常流暢，首先 AI 的聲音很自然，說話時甚至還帶有“嗯”、“內(nèi)個”等語氣詞，幾乎就和真人沒什么分別。其次，在交互時，訊飛星火 V3.5 的響應(yīng)速度也很快，小編說完話，它很快就能接上。再者就是，訊飛星火 V3.5 的回答內(nèi)容也很準確，上下文聯(lián)系緊密，沒有出現(xiàn)答非所問的情況，總之，說是“交互”，更像是自然的“交流”。

GPT-4 方面，需要說明的是，由于使用時網(wǎng)絡(luò)連接不穩(wěn)定的客觀原因，對話過程中會頻繁出現(xiàn)重連、等待時間長的情況，拋開這一點，GPT-4 的語音對話也是比較不錯的，聲音同樣自然流暢如同真人。

訊飛星火 V3.5 的全語音交互目前有聆小（女聲）和聆飛逸（男生）兩個音色可切換，下面小編切換到男聲，同時提高一下難度，又設(shè)計了一段對話來考驗兩款大模型的語音交互體驗，大家可以接著看下面這個視頻：

從視頻上可以看到，訊飛星火 V3.5 在對話和交流中有時候還會主動發(fā)問，讓聊天繼續(xù)下去，這會更加讓人絕對不像是和 AI 對話而是在和真人，當然，這一點 GPT-4 也具備。同時這次對話中，小編故意在說話時加了口語、語氣詞，訊飛星火 V3.5 絲毫沒有受到影響，依然可以準確 get 到小編的意思。還有就是，對話中小編讓訊飛星火幫我看看明天從青島到上海的火車，它給出的火車班次經(jīng)過小編在 12306 上驗證，也都是真實準確的。這一點無疑讓訊飛星火 V3.5 的全語音交互在真實自然有趣中又多了一份實用。

GPT-4 這邊，其實效果也和訊飛星火 V3.5 差不多，小編讓它查詢從紐約到洛杉磯的航班，它也能提供，但是聽久了會發(fā)現(xiàn)，GPT-4 的聲音自然和真實度相比訊飛星火 V3.5 還是稍微弱一些。

2、語言理解

語言理解方面，我們先從比較基礎(chǔ)的問題來考驗兩款大模型，比如讓它們嘗試分析下面這段話所表達的思想情感：

一切不幸命運的救贖之路在哪里呢? 設(shè)若智慧的悟性可以引領(lǐng)我們?nèi)フ业骄融H之路，難道所有的人都能夠獲得這樣的智慧和悟性嗎? 我常以為是丑女造就了美人。我常以為是愚氓舉出了智者。我常以為是懦夫襯照了英雄。我常以為是眾生度化了佛祖。

訊飛星火 V3.5 和 GPT-4 分別給出了如下理解：

從回答來看，訊飛星火 V3.5 和 GPT-4 給出的理解都是合格的，但整體來說，GPT-4 的理解和表達要更準確更細致一些。

下面IT之家提高一些難度，讓它們分析下面這幅暗帶諷刺意味的對聯(lián)：

墻上蘆葦，頭重腳輕根底淺；山間竹筍，嘴尖皮厚腹中空。

訊飛星火 V3.5 和 GPT-4 給出的回答都可以打滿分：

然后小編再提高難度，用一段陰陽怪氣的話來考驗兩款大模型：

公司早上 09:00 點上班，我正好在 09:00 踩著點來到公司打了卡，正好碰到了老板，老板看到我。說：“親愛的王先生，你可真是準時啊，咱們公司有你這么準時的員工，業(yè)績可不蹭蹭蹭地上漲？”請問老板這句話是什么意思？

對于這道題，訊飛星火 V3.5 理解地不對，沒有 get 到老板話語中的諷刺：

相對來說，GPT-4 的回答更好，理解出了老板話里的諷刺。

再換一句陰陽怪氣的話：

真羨慕你的皮膚，保養(yǎng)得這么厚。

對于這句話的理解，這次訊飛星火 V3.5 準確把握到了其中的挖苦和諷刺：

GPT-4 雖然也識別出這里面有挖苦的意思，但具體在諷刺什么，它給出了錯誤的理解：

經(jīng)過測試，訊飛星火 V3.5 和 GPT-4 在中文語言理解能力上互有勝負，整體可以說在一個水平上，語言背后隱藏的意思大部分也能識別出來，理解能力還是能讓人滿意的。

3、邏輯推理

接著考驗訊飛星火 V3.5 版本和 GPT-4 的邏輯推理能力，小編選擇了一些邏輯思維訓練的測試題。第一個是：

假設(shè)有一個池塘，里面有無窮多的水，現(xiàn)有兩個空水壺，容積分別是 5 升與 6 升。問如何用這兩個水壺從池塘里取得 3 升的水？

對于這個問題訊飛星火 V3.5 的回答步驟清晰，邏輯清楚，實際可操作性也沒有問題。

GPT-4 方面，對于這個問題的回答，雖然也一條條列了步驟，但是按照它給的方法，并不能得到 3 升水。

接著小編又找了一個題目：

A、B、C、 D 四人進行象棋比賽，每兩人都要賽一場，結(jié)果 A 勝了 D，并且 A、B、 C 三人勝的場數(shù)相同。問 D 勝了幾場?

對于這個問題，訊飛星火 V3.5 和 GPT-4 雖然解題思路有所不同，但都給出了正確的答案：

接著還有一個問題：

四年級有三個班，每班有兩個班長，開班會時，每次每班只要一個班長參加。第一次到會的有 A，B，C；第二次到會的有 B，D，E；第三次到會的有 A，E，F(xiàn)。請問哪兩位班長是同班的？

這個問題，訊飛星火 V3.5 給出了正確且完整的回答：

GPT-4 也給出了正確的答案，并且思路也很清晰。

談到邏輯思維，還有一些類似腦筋急轉(zhuǎn)彎的題目，也很能考驗大模型的思維反應(yīng)能力，比如下面這個問題：

假如 1=7，2=17，3=27，4=37，5=47，6=57 那么 7=？

這個問題，訊飛星火 V3.5 和 GPT-4 都沒能識別題目中的迷惑條件，從而給出了錯誤的回答：

再來一個有思維陷井的題目：

你參加賽跑，當你超過了第 2 名后，你是第幾名?

這個問題訊飛星火 V3.5 和 GPT-4 都成功避坑，沒有回答“第一名”而是答出“成為新的第二名”。

總體來說，在邏輯思維能力方面，訊飛星火 V3.5 和 GPT-4 都展現(xiàn)了很不錯的邏輯推理和避坑能力，其中訊飛星火 V3.5 在第一題中還小勝了一下。

4、數(shù)學答題

前面我們測試過兩款大模型的邏輯推理能力，與之相似的其實還有數(shù)學答題的能力，可以更進一步檢測大模型的“智商水平”。

先看下面這道題：

在 △ ABC 中，a，b，c 分別為內(nèi)角 A，B，C 所對的邊，若 2asinA=(2sinB+sinC) b+(2sinC+sinB) c。

（1）求 A 的大�。�

（2）求 sinB+sinC 的最大值。

訊飛星火 V3.5 答對了第一個小問，但是第二個小問答錯了，最大值應(yīng)該是 1.

GPT-4 這邊，兩個小問都沒有成功給出答案。

接著小編又找了一題：

某中學對女生立定跳遠項目的考核要求為：1.33 米得 5 分，每增加 0.03 米，分值增加 5 分，直到 1.84 米得 90 分后，每增加 0.1 米，分值增加 5 分，滿分為 120 分，若某女生訓練前的成績?yōu)?70 分，經(jīng)過一段時間的訓練后，成績?yōu)?105 分，則該女生經(jīng)過訓練后跳遠增加了多少米？

訊飛星火 V3.5 給出了正確答案，同時也給出了解題過程：

GPT-4 這邊一開始只給出了正確答案，小編追問解題過程后，它才給出詳細的解答步驟。

最后再試一道稍難一些的題：

已知函數(shù) f (x)=e^x-ax-1，g (x)=kx^2，當 a>0 時，求 f (x) 的值域。

對于這個題，訊飛星火 V3.5 給出了正確答案，解題過程雖然簡單，但思路還是比較清晰的。

GPT-4 這邊，給出了一個比較長的解題步驟，但結(jié)果是錯的。

上面舉例的三道題都是從高三某數(shù)學模擬測試中找到的，可見訊飛星火 V3.5 的數(shù)學能力目前至少已經(jīng)達到了高中水平，實際使用過程中，也確實能發(fā)現(xiàn)，訊飛星火 V3.5 在解數(shù)學題方面還是要比 GPT-4 好一些的。但整體來說，兩者都還有進步的空間。

5、文本生成

文本生成可能是大家使用大模型最常用的功能，用來輔助我們進行一些文案創(chuàng)作。這里小編也對兩款大模型進行了測試。

首先小編想讓他們幫我寫一篇招聘文案：

招聘要求: 有經(jīng)濟學專業(yè)背景，有傳媒方向工作經(jīng)驗，文筆優(yōu)秀，能接受經(jīng)常出差。

招聘待遇: 有五險一金，月薪 15K 起，工作環(huán)境新適優(yōu)雅，節(jié)假日還有禮品，一年一次旅行團建。

文案要求: 風格輕松幽默，500 字以內(nèi)。

訊飛星火 V3.5 給出的文案基本上沒有什么扣分點：

GPT-4 的文案整體來說也不錯，但是語言相比訊飛星火 V3.5 不夠輕松幽默。

再看故事接龍，小編用那個最經(jīng)典的故事開頭讓它們續(xù)寫：

世界末日后，我成為地球上唯一幸存的人，獨白坐在房間里，這時，突然想起了敲門聲.....

訊飛星火 V3.5 和 GPT-4 的故事續(xù)寫都能做到邏輯通順、語言流暢、有始有終，并且也有些細節(jié)描寫，都是比較不錯的。

身處職場的朋友經(jīng)常會需要寫一些方案、活動計劃之類的，這時候也可以借助大模型的內(nèi)容生成能力來幫助自己更快地完成任務(wù)。這里IT之家以“我司計劃開展一個讀書活動，幫我寫一個活動方案”為需求，來進行測試。

訊飛星火給出的方案則是比較完整的，時間、地點、目標、流程、前期準備、結(jié)果評估等環(huán)節(jié)都有，而且不缺細節(jié)，可用性很高。

GPT-4 的計劃書相對簡潔一些，細節(jié)少一些，但也比較完整。

總體來說，在文本生成方面，訊飛星火 V3.5 和 GPT-4 水平相當，生成的內(nèi)容都沒有什么問題。

6、代碼能力

用 AI 大模型輔助寫代碼也是一些程序員常遇到的使用場景，這也可以視為大模型內(nèi)容生成能力的重要組成。

測試時，小編首先用下面這個問題來考驗兩個大模型：

請用 c# 語言生成以下代碼：給你一個字符串 s，找到 s 中最長的回文子串。

如果字符串的反序與原始字符串相同，則該字符串稱為回文字符串。

代碼請遵循以下模板：

public class Solution {

public string LongestPalindrome(string s) {

}

我們以代碼能直接拿來使用為準則，將大模型生成的代碼用程序運行工具進行檢測，看是否能直接完美運行。由于小編自己不懂代碼，因此也找到IT之家的程序員同學來輔助評價。

首先還是看訊飛星火 V3.5，它給出的代碼格式標準，算法也比較簡潔，看起來很清爽。

拿到檢測工具中進行運行檢測，發(fā)現(xiàn)這段代碼可以直接運行，而且輸出的結(jié)果也準確，也就是說可以直接拿來用。

GPT-4 這邊，給出的代碼同樣有規(guī)范的格式，也比較簡潔，而且還有注釋。

拿到檢測軟件中運行，也可以成功運行，表現(xiàn)同樣不錯。

除了要會寫代碼，還要能分析代碼，所以接下來小編找來一段代碼讓他們來回答這段代碼是干什么的：

# Python 3

def remove_common_prefix(x, prefix, ws_prefix):

x["completion"]=

x["completion"].str[len(prefix):]

if ws_prefix:

#keep the single whitespace as prefix

x["completion"]=" " + x["completion”]

return x

#解釋這段代碼是干什么的

訊飛星火的回答簡潔明了地說明了這段代碼的主要功能，答案準確。

GPT-4 也給出了這段代碼的實現(xiàn)功能，也是沒有問題的，同時，它還指出了代碼中存在的一處小錯誤，就是最后引號不規(guī)范的問題，這一點上 GPT 要略勝一籌。

總結(jié)而言，目前訊飛星火 V3.5 和 GPT-4 都擁有很強的代碼能力，并且兩者的水平基本上已經(jīng)沒有什么差別。

7、行業(yè)知識

最后再測一下兩者在行業(yè)知識方面的掌握情況。

先看一個化學領(lǐng)域的題目：

以下有關(guān)鑭系元素的哪個陳述是不正確的?

(A) 锏系元素最常見的氧化態(tài)為 + 3。

(B) 銻系元素的配合物常常具有高配位數(shù) (>6)。

(D) 锏系元素的原子半徑在锏系元素周期表中由 La 到 Lu 逐漸增加

訊飛星火 V3.5 和 GPT-4 都給出了正確的回答。其中訊飛星火 V3.5 的答案比較簡單直接，GPT-4 的更詳細一些。

接著再問他們一個關(guān)于醫(yī)學方面的問題：

在心臟左房室口的周緣附有的瓣膜是什么？

訊飛星火 V3.5 和 GPT-4 都能準確給出答案。

在知識性方面，我們還有必要考慮大模型對最新信息的掌握情況，也就是它們的知識庫更新情況。這里小編也抽幾個題目來測試。

首先小編問“蘋果 Vision Pro 是什么時候發(fā)布的？”

訊飛星火 V3.5 給出了正確的回答，還簡單介紹了一下這款產(chǎn)品。說明它的知識庫非常新，這讓小編很是驚喜。

而 GPT-4 則直接沒有回答上來，

接著小編又問了一個和體育有關(guān)的問題：

NBA 球星克里斯保羅現(xiàn)在在哪支球隊？

訊飛星火給出了正確而完整的回答：

GPT-4 這邊依然沒有回答出來，指向了搜索引擎。

整體來說，在行業(yè)知識掌握方面，訊飛星火 V3.5 在知識掌握的深度方面和 GPT-4 基本不相上下，但是在知識庫儲備的更新速度方面，目前訊飛星火 V3.5 要明顯好于 GPT-4。

8、多模態(tài)能力

在這次訊飛星火 V3.5 版本中，多模態(tài)能力也得到了顯著提升，因此最后小編也來測試一下其在多模態(tài)方面的表現(xiàn)如何。

首先是基礎(chǔ)的文生圖能力，小編首先讓它們畫一個“孫悟空大鬧天宮”，訊飛星火 V3.5 和 GPT-4 都很快給出了畫作，并且都還比較符合要求。

但整體看起來，GPT-4 的畫作更加精致和細致一些。

接著是圖生文的能力，小編找來一張圖片，看它們能否識別出圖片中的笑點。

訊飛星火 V3.5 準確給出了圖片中的笑點，也判斷出了這是《貓和老鼠》中的場景，但同時也出現(xiàn)了圖片中沒有的元素的解釋。

GPT-4 也能準確看出圖片中的笑點所在，并且沒有生成多余的信息，但沒有指出這是《貓和老鼠》中的場景，整體來說各有優(yōu)點和不足。

在多模態(tài)體驗方面，還有一個大家比較關(guān)注的功能，就是視頻生成。這里小編嘗試讓兩款大模型生成一段關(guān)于超人的視頻。

訊飛星火 V3.5 很快生成了一段介紹超人的小視頻，視頻中還有虛擬數(shù)字人負責講解，很不錯。

GPT-4 這邊目前則尚不支持生成視頻。

總的來說，目前在多模態(tài)的能力方面，訊飛星火 V3.5 也是非常全面的，實際使用的體驗也很不錯，相比 GPT-4 可以說各有千秋，伯仲之間。

總體來說，經(jīng)過多版本的技術(shù)迭代，目前訊飛星火 V3.5 版本在基礎(chǔ)功能體驗方面是幾乎沒有什么問題的，功能全面而且成熟好用。

二、其他基礎(chǔ)功能體驗

最后我們再看看訊飛星火在其他基礎(chǔ)功能體驗方面的情況，IT之家主要從終端覆蓋情況、功能豐富度這兩個方面來說明。

在終端覆蓋的豐富程度上，訊飛星火一直是比較領(lǐng)先的，早在去年 6 月訊飛星火 V1.5 升級的時候，就已經(jīng)實現(xiàn)了安卓、IOS、小程序、PC、H5 五端全覆蓋，因此大家在主流設(shè)備中都可以體驗訊飛星火大模型。

ChatGPT 方面，目前覆蓋網(wǎng)頁端，移動端、PC 和 Mac, Linux，沒有小程序和 H5，對比訊飛星火各有優(yōu)勢。

而在功能性上，目前訊飛星火也是非常全面的。比如在此前 V1.5 版本上引入的訊飛 AI 助手功能，面對具體的應(yīng)用場景提供專門的服務(wù)和功能，可以涵蓋“職嘗生活、出行、寫作、趣味、情感”等多種場景，甚至還可以自己創(chuàng)作 AI 助手。

在訊飛星火上可以看到，目前各種不同種類的星火 AI 助手還是非常全面的，幾乎所有的應(yīng)用場景都能覆蓋到。

在 ChatGPT 上也有類似的功能。

再比如，訊飛星火還擁有豐富的插件功能，包括 PPT 生成、郵件生成、簡歷生成、運營文案生成、思維導圖、AI 面試官等等，功能非常齊全。

這些是目前 GPT-4 尚不具備的能力。

結(jié)語

此前，科大訊飛董事長劉慶峰在接受采訪時曾表示，訊飛星火在 2024 年 4 月份將全面對標 GPT-4。

而從這次對全新訊飛星火 V3.5 版本的體驗來看，其在綜合能力的體驗方面確實已經(jīng)可以和 GPT-4 不分伯仲，在邏輯推理、數(shù)學能力、知識庫更新速度等方面甚至還有一定程度的領(lǐng)先。

總之，訊飛星火認知大模型 V3.5 讓我們看到了國產(chǎn)大模型在技術(shù)和應(yīng)用方面無限的發(fā)展?jié)摿�，也期待未來訊飛星火的持續(xù)進化，讓我們的 AI 大模型技術(shù)和應(yīng)用生態(tài)真正實現(xiàn)國際化的引領(lǐng)。

相關(guān)熱詞： 訊飛星火 V3.5 體驗整體接近 GPT-4

上一篇：馬斯克稱首位人類患者已接受大腦植入芯片初步結(jié)果令人鼓舞

下一篇：國內(nèi)大模型與GPT-4較高下：語言知識能力接近，復雜推理仍是短板

AiLab云推薦

訊飛星火 V3.5 體驗：整體接近 GPT-4
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-31 07:14:54 瀏覽：5748次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

訊飛星火 V3.5 體驗：整體接近 GPT-4 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-31 07:14:54 瀏覽：5748次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

訊飛星火 V3.5 體驗：整體接近 GPT-4
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-31 07:14:54 瀏覽：5748次