當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 剛剛，我們感受了一波最「像人」的國產(chǎn)AI，模型還是開源的

剛剛，我們感受了一波最「像人」的國產(chǎn)AI，模型還是開源的
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-25 20:53:57 瀏覽：2501次

導(dǎo)讀：劃重點(diǎn) 01智譜清言宣布全量上線「情感語音通話」功能，免費(fèi)開放，無需等待。 02該功能背后的情感語音模型GLM-4-Voice同步正式開源，相關(guān)能力將上線視頻通話。 03智譜清言情感語音通話功能在響應(yīng)和打斷速度、情緒感知情感共鳴、語音可控表達(dá)等方面實(shí)現(xiàn)了突破...

劃重點(diǎn)

01智譜清言宣布全量上線「情感語音通話」功能，免費(fèi)開放，無需等待。

02該功能背后的情感語音模型GLM-4-Voice同步正式開源，相關(guān)能力將上線視頻通話。

03智譜清言情感語音通話功能在響應(yīng)和打斷速度、情緒感知情感共鳴、語音可控表達(dá)等方面實(shí)現(xiàn)了突破。

04除此之外，智譜還推出了AutoGLM，讓AI像人類一樣操作電腦和手機(jī)。

05智譜AI技術(shù)路線圖包括單一模態(tài)的端到端大模型、多模態(tài)混合訓(xùn)練的統(tǒng)一多模態(tài)模型等階段。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

機(jī)器之心原創(chuàng)

作者：杜偉、蛋醬

今年 5 月，OpenAI 首次展示了 GPT-4o 的語音功能，無論是對(duì)話的響應(yīng)速度還是與真人聲音的相似度，都頗為驚艷。特別是它允許用戶隨時(shí)打斷，充分感知到用戶的情緒并給予回應(yīng)。

大家突然發(fā)現(xiàn)，原來 AI 語音通話還能這么玩？

但由于種種原因，用戶們等了好久才等到 OpenAI 開放 ChatGPT 的高級(jí)語音功能，目前僅 Plus 和 Team 用戶可體驗(yàn)，且這些用戶每天也有使用時(shí)長限制。

不過現(xiàn)在，國內(nèi)用戶也有了同樣絲滑的實(shí)時(shí)語音交互應(yīng)用，重點(diǎn)是：免費(fèi)開放，無需等待。

10 月 25 日，智譜清言宣布全量上線「情感語音通話」功能，任何用戶都可以立即獲得端到端情感語音體驗(yàn)。

對(duì)標(biāo) GPT-4o，智譜清言「情感語音通話」在響應(yīng)和打斷速度、情緒感知情感共鳴、語音可控表達(dá)、多語言多方言等方面實(shí)現(xiàn)了突破。簡單來說，「情感語音通話」提供了一個(gè)真人一般的對(duì)話伙伴，而不僅僅是一個(gè)文字的朗讀者。

以下視頻來源于智譜清言

精通各種方言，比如這段北京烤鴨的介紹，那叫一個(gè)地道：

剛剛，我們感受了一波最「像人」的國產(chǎn)AI，模型還是開源的

試聽鏈接：https://mp.weixin.qq.com/s/Bi7cPZXCmsjSaJu6EglhJA

與此同時(shí)，智譜還重磅宣布，該功能背后的情感語音模型 GLM-4-Voice 同步正式開源。不久后，相關(guān)能力還將上線視頻通話，為所有用戶提供一個(gè)既能「看」又能「說」的 AI 語音助理。

開源地址：https://github.com/THUDM/GLM-4-Voice

自大模型浪潮興起的兩年來，AI 技術(shù)的發(fā)展日新月異，有時(shí)甚至超過我們的想象，讓大家直呼科幻時(shí)代提前到來。

當(dāng)然，這背后所代表的技術(shù)趨勢(shì)也不斷變化。比如在人類的想象中，「Any-to-Any」才是真正屬于未來的人與 AI 交互方式。具體來說，AI 能做到接收文本、音頻和圖像的任意組合作為輸入，并實(shí)時(shí)生成文本、音頻和圖像的任意組合輸出。

如今，智譜清言的「情感語音通話」又一次推動(dòng)了國產(chǎn) AI 對(duì)標(biāo)國際先進(jìn)水平。

情感語音模型 GLM-4-Voice

上線即開源

自從去年的 GPT-4 發(fā)布之后，領(lǐng)域內(nèi)就一直在傳 GPT-5 的各種消息。但我們后來都知道，OpenAI 并未通過簡單粗暴地增加模型參數(shù)來拓展智能上限，而是選擇了兩條路線分別開拓：一條是 GPT-4o 所代表的端到端多模態(tài)大模型的探索，一條是 o1 所代表的關(guān)于推理 Scaling Law 的探索。

具體到 GPT-4o 上，OpenAI 跨文本、視覺和音頻端到端地訓(xùn)練了一個(gè)新模型，所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理。行業(yè)內(nèi)認(rèn)為，這是一種可以將音頻直接映射到音頻作為一級(jí)模態(tài)的技術(shù)方法，涉及 Token 化和架構(gòu)等方面的研究，總體來說是一個(gè)數(shù)據(jù)和系統(tǒng)優(yōu)化問題。

在這方面，智譜也已經(jīng)有了一定的技術(shù)積累。智譜清言情感語音通話功能背后的 GLM-4-Voice，同樣是一個(gè)端到端的語音模型。

與傳統(tǒng)的 ASR + LLM + TTS 的級(jí)聯(lián)方案相比，GLM-4-Voice 以離散 Token 的方式表示音頻，實(shí)現(xiàn)了音頻的輸入和輸出的端到端建模，在一個(gè)模型里面同時(shí)完成語音的理解和生成，避免了傳統(tǒng)的「語音轉(zhuǎn)文字再轉(zhuǎn)語音」級(jí)聯(lián)方案過程中帶來的信息損失和誤差積累，且擁有理論上更高的建模上限。

具體來說，智譜基于語音識(shí)別（ASR）模型以有監(jiān)督方式訓(xùn)練了音頻 Tokenizer，能夠在 12.5Hz（12.5 個(gè)音頻 token）單碼表的超低碼率下準(zhǔn)確保留語義信息，并包含語速，情感等副語言信息。語音合成方面，智譜采用 Flow Matching 模型流式從音頻 Token 合成音頻，最低只需要 10 個(gè) Token 合成語音，最大限度降低對(duì)話延遲。

預(yù)訓(xùn)練方面，為了攻克模型在語音模態(tài)下的智商和合成表現(xiàn)力兩個(gè)難關(guān)，智譜將 Speech2Speech 任務(wù)解耦合為 Speech2Text（根據(jù)用戶音頻做出文本回復(fù)）和 Text2Speech（根據(jù)文本回復(fù)和用戶語音合成回復(fù)語音）兩個(gè)任務(wù)，并設(shè)計(jì)兩種預(yù)訓(xùn)練目標(biāo)，分別基于文本預(yù)訓(xùn)練數(shù)據(jù)和無監(jiān)督音頻數(shù)據(jù)合成數(shù)據(jù)以適配這兩種任務(wù)形式：

Speech2Text：從文本數(shù)據(jù)中，隨機(jī)選取文本句子轉(zhuǎn)換為音頻 Token

Text2Speech：從音頻數(shù)據(jù)中，隨機(jī)選取音頻句子加入文本 Transcription

剛剛，我們感受了一波最「像人」的國產(chǎn)AI，模型還是開源的

GLM-4-Voice 預(yù)訓(xùn)練數(shù)據(jù)構(gòu)造。

與傳統(tǒng)的 TTS 技術(shù)相比 (Text-to-Speech)，GLM-4-Voice 能夠理解情感，有情緒表達(dá)、情感共鳴，可自助調(diào)節(jié)語速，支持多語言和方言，并且延時(shí)更低、可隨時(shí)打斷。

能夠在情感的把握上做到如此精準(zhǔn)，是因?yàn)?GLM-4-Voice 在 GLM-4-9B 的基座模型基礎(chǔ)之上，經(jīng)過了數(shù)百萬小時(shí)音頻和數(shù)千億 token 的音頻文本交錯(cuò)數(shù)據(jù)預(yù)訓(xùn)練，擁有很強(qiáng)的音頻理解和建模能力。為了支持高質(zhì)量的語音對(duì)話，智譜設(shè)計(jì)了一套流式思考架構(gòu)：輸入用戶語音，GLM-4-Voice 可以流式交替輸出文本和語音兩個(gè)模態(tài)的內(nèi)容，其中語音模態(tài)以文本作為參照保證回復(fù)內(nèi)容的高質(zhì)量，并根據(jù)用戶的語音指令變化做出相應(yīng)的聲音變化，在保證智商的情況下仍然具有端到端建模 Speech2Speech 的能力，同時(shí)保證低延遲性（最低只需要輸出 20 個(gè) Token 便可以合成語音）。

剛剛，我們感受了一波最「像人」的國產(chǎn)AI，模型還是開源的

GLM-4-Voice 模型架構(gòu)圖。

伴隨著 GLM-4-Voice 的推出，智譜在通往 AGI 的道路上又邁出了最新一步。

一句指令自動(dòng)操作電腦、手機(jī)

AutoGLM 同步上線

在情感語音通話全面開放的同時(shí)，智譜也宣布了另一項(xiàng)前沿成果：AutoGLM。

讓 AI 像人類一樣操作電腦和手機(jī)，是近期領(lǐng)域內(nèi)的熱點(diǎn)話題。以往這是一項(xiàng)頗具挑戰(zhàn)性的任務(wù)，因?yàn)樵诖祟悎?chǎng)景下，AI 需要根據(jù)用戶的要求拆解指令背后蘊(yùn)含的步驟，感知環(huán)境、規(guī)劃任務(wù)、執(zhí)行動(dòng)作，逐步完成任務(wù)。某種程度上說，這突破了大模型的常規(guī)能力邊界，更加注重其「工具」屬性。

很多大模型公司都在探索這一方向，錨定其為「下一個(gè) AI 前沿」。基于大語言模型（GLM 系列模型）、多模態(tài)模型和工具使用（CogAgent 模型）等方面的探索，智譜已經(jīng)在由自主智能體（Agent）驅(qū)動(dòng)的人機(jī)交互新范式方面取得了一些階段性成果。

在智譜最新發(fā)布的 AutoGLM App 中，用戶可以憑借一句指令讓 AI 自動(dòng)完成許多任務(wù)，比如閱讀網(wǎng)頁信息、電商產(chǎn)品購買、點(diǎn)外賣、訂酒店、評(píng)論和點(diǎn)贊微信朋友圈等。目前，AutoGLM 已開啟內(nèi)測(cè)（暫時(shí)僅支持 Android 系統(tǒng)）。

在 AutoGLM App 發(fā)布之前，AutoGLM-Web 已經(jīng)通過「智譜清言」插件對(duì)外開放使用。這是一個(gè)能模擬用戶訪問網(wǎng)頁、點(diǎn)擊網(wǎng)頁的瀏覽器助手，可以根據(jù)用戶指令在私域網(wǎng)站上完成高級(jí)檢索并總結(jié)信息、模擬用戶看網(wǎng)頁的過程進(jìn)行批量、快速的瀏覽并總結(jié)多個(gè)網(wǎng)頁，結(jié)合歷史郵件信息回復(fù)郵件。

在 Phone Use 和 Web Browser Use 上，AutoGLM 都取得了大幅的性能提升。在 AndroidLab 評(píng)測(cè)基準(zhǔn)上，AutoGLM 就顯著超越了 GPT-4o 和 Claude-3.5-Sonnet 的表現(xiàn)。在 WebArena-Lite 評(píng)測(cè)基準(zhǔn)中，AutoGLM 更是相對(duì) GPT-4o 取得了約 200% 的性能提升，大大縮小了人類和大模型智能體在 GUI 操控上的成功率差距。

剛剛，我們感受了一波最「像人」的國產(chǎn)AI，模型還是開源的

我們知道，當(dāng)代人工作和生活中的大部分事項(xiàng)都需要通過計(jì)算機(jī)和手機(jī)完成，一旦讓 AI 學(xué)會(huì)像人類一樣直接與計(jì)算機(jī)和手機(jī)端的軟件交互，就能拓展出大量當(dāng)前一代 AI 助手無法實(shí)現(xiàn)的應(yīng)用。

面向 AGI，智譜這樣規(guī)劃技術(shù)路線圖

剛剛，我們感受了一波最「像人」的國產(chǎn)AI，模型還是開源的

從文本的一種模態(tài)，到包括圖像、視頻、情感語音模型在內(nèi)的多模態(tài)，然后讓AI學(xué)會(huì)使用各種工具�；贕LM-4-Plus，智譜過去幾年在多模態(tài)領(lǐng)域探索取得了一些階段性成果：CogView 能讓文字化作一幅幅畫作，CogVideo / 清影（Ying）讓文圖生成一幀幀視頻，GLM-4V-Plus 帶來了通用的視頻理解能力。GLM-4-Voice的出現(xiàn)讓 GLM 多模態(tài)模型家族更加完整，為朝著原生多模態(tài)模型又邁出了一步。

雖然在產(chǎn)品矩陣上全面對(duì)標(biāo) OpenAI，但可以看出，在追求 AGI 終極目標(biāo)的過程中，智譜 AI 慢慢展現(xiàn)出了一些不同于 OpenAI 的思考，比如對(duì) AI 分級(jí)的思考，這也影響了這家科技公司所走的技術(shù)路線。

如果將 AI 的能力從低到高劃分為 Level 1-Level 5，則從當(dāng)前各家 AI 大模型來看，Level 1 語言和多模態(tài)能力、Level 2 邏輯與思維能力和 Level 3 工具使用能力成為了主流認(rèn)知。因此，包括智譜在內(nèi)的大模型廠商都在實(shí)現(xiàn)這些能力的路上一路狂奔。

智譜此次揭露了其面向 AGI 的路線圖。除了單一模態(tài)的端到端大模型之外，智譜未來希望打造各種模態(tài)混合訓(xùn)練的統(tǒng)一多模態(tài)模型，不僅認(rèn)知能力要比肩人類，還要與人類價(jià)值觀保持一致，做到能力出眾的同時(shí)要安全可控。

剛剛，我們感受了一波最「像人」的國產(chǎn)AI，模型還是開源的

在 Level 3 階段，智譜拿出了最新武器 AutoGLM，具備了更強(qiáng)大的全棧式工具使用能力，并越來越像人一樣通過感知環(huán)境、規(guī)劃任務(wù)、執(zhí)行任務(wù)并最終完成特定任務(wù)。同時(shí)伴隨著人機(jī)交互范式的轉(zhuǎn)變，智譜也離其未來打造以大模型為中心的通用計(jì)算系統(tǒng) GLM-OS 的目標(biāo)更近了一步。

可以說，截止目前，前三階段的競爭大家都走得差不多，差別就在于更高階段的 Level 4 和 Level 5，OpenAI 探索的是 AI 自己能夠發(fā)明創(chuàng)新并最終融入組織或自成組織。在這兩個(gè)決定未來 AI 能力走向的關(guān)鍵階段，如今的智譜有了更全面的定義和解讀。

在智譜的愿景中，未來 AI 在 Level 4 不僅要具備發(fā)明創(chuàng)造能力，還要全方位地追求「內(nèi)使，具備自我學(xué)習(xí)、自我反思和自我改進(jìn)能力；到了最終的 Level 5，也就是實(shí)現(xiàn) AGI，AI 的能力將首次全面超越人類，并開始向探究科學(xué)規(guī)律、世界起源等終極問題發(fā)起挑戰(zhàn)。

與此同時(shí)，如果將 AI 與人腦做一個(gè)類比，AI 在多大程度上能夠達(dá)到人腦水平呢？智譜認(rèn)為，從目前大模型具備的文本、視覺、聲音以及邏輯和工具使用能力來看，在未來相當(dāng)長一段時(shí)間內(nèi)將處于 42％這個(gè)階段。因此，想要達(dá)到最終的 AGI，持續(xù)深拓已有能力并解鎖未知能力是關(guān)鍵。

剛剛，我們感受了一波最「像人」的國產(chǎn)AI，模型還是開源的

AI 技術(shù)發(fā)展到今天，已經(jīng)為我們展開了一幅美好畫卷。在未來，由人類創(chuàng)造的強(qiáng)大 AI 將真正使大眾受益，而智譜也是推動(dòng)這一里程碑的重要參與者。

體驗(yàn) GLM-4-Voice 和 AutoGLM 加持的最新版智譜清言：

https://chatglm.cn/main/alltoolsdetail?image=https://sfile.chatglm.cn/chatglm-operation/image/92/9289b3ba.png?image_process=format,webp&open_from=ads_news_audio_jqzx&from=ads_news_audio_jqzx&lang=zh

相關(guān)熱詞： 剛剛我們受了一波像人國產(chǎn) 模型還是開源

上一篇：性能或超GPT-4百倍！OpenAI新模型曝光，阿爾特曼緊急辟謠

下一篇：詹姆斯·卡梅隆暢談AI：希望能夠再度推動(dòng)電影制作技術(shù)邊界

剛剛，我們感受了一波最「像人」的國產(chǎn)AI，模型還是開源的
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-25 20:53:57 瀏覽：2501次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

剛剛，我們感受了一波最「像人」的國產(chǎn)AI，模型還是開源的 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-25 20:53:57 瀏覽：2501次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

剛剛，我們感受了一波最「像人」的國產(chǎn)AI，模型還是開源的
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-25 20:53:57 瀏覽：2501次