展會(huì)信息港展會(huì)大全

第一個(gè)具有情商的聊天機(jī)器人來了,這可能是未來 Siri 的樣子
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-10 14:28:57   瀏覽:6167次  

導(dǎo)讀:科幻電影的 AI 助手基本都有個(gè)美德:通人性。 《她》的虛擬助理薩曼莎,和男主西奧多談情說愛,再轟轟烈烈地分手!朵撹F俠》的智能管家賈維斯,與托尼討論鋼鐵戰(zhàn)甲的設(shè)計(jì),偶爾還兼職調(diào)侃和吐槽。 但如果你想和 Siri 聊點(diǎn)心里話,得到的回復(fù)往往是「這個(gè)問...

科幻電影的 AI 助手基本都有個(gè)美德:通人性。

《她》的虛擬助理薩曼莎,和男主西奧多談情說愛,再轟轟烈烈地分手!朵撹F俠》的智能管家賈維斯,與托尼討論鋼鐵戰(zhàn)甲的設(shè)計(jì),偶爾還兼職調(diào)侃和吐槽。

但如果你想和 Siri 聊點(diǎn)心里話,得到的回復(fù)往往是「這個(gè)問題我還真回答不了」。ChatGPT 固然可以和你談天說地,但因?yàn)檠舆t和過于正經(jīng),讓人無法忘記它是個(gè) AI。

人類的七情六欲,是 AI 仍需攻克的難關(guān)。前 Google 研究員的 AI 初創(chuàng)公司 Hume AI,已經(jīng)悄悄地走在了前面。

高情商的語音 AI,身段靈活的聊天搭子

最近,Hume AI 向大眾開放了旗下產(chǎn)品:同理心語音界面(EVI)。

Hume 稱,這是第一個(gè)具有情商的對(duì)話式 AI。

EVI 的情商體現(xiàn)在,可以根據(jù)我們的說話方式,解讀我們的情緒,并給出恰當(dāng)?shù)姆磻?yīng),知道什么時(shí)候說話,說什么話,以及如何以正確的語氣說話。

當(dāng)我們和 EVI 打招呼的時(shí)候,它就在判斷我們的情緒了。你可以開門見山說個(gè)「hello」,然后直接問它:「我聽起來心情怎么樣?」

我用日常說話的語氣開場(chǎng),它卻覺得我有些困惑和沮喪,希望我敞開心懷分享更多想法,抓住了 INFP 人格的典型狀態(tài)。

當(dāng)然,大多數(shù)時(shí)候我們不會(huì)這么刻意。更理想的情況是,我們所說的內(nèi)容,已經(jīng)暗示了我們的心情,EVI 自覺地給出反應(yīng),照顧我們的情緒。

就像我對(duì) EVI 說,我的假期結(jié)束了,雖然不說難過,字字都是難過。

它先是小心翼翼地說了解了,順著我的話說假期結(jié)束了是有些不好受,然后轉(zhuǎn)移話題,語氣高昂起來,帶動(dòng)我回憶假期的美好時(shí)光。

然后我假裝生氣,提高音量吼了 EVI 一句,等它根據(jù)我的語氣下菜碟。

EVI 停頓了幾秒才敢回應(yīng),說我聽起來很生氣,還帶著一絲輕蔑,是不是它做了什么事情讓我不高興,能不能和它講清楚。我本來就沒生氣,聽它態(tài)度這么軟,心情更加愉悅。

接下來,我和 EVI 玩了個(gè)游戲,看看它在解讀人類情緒的同時(shí),能否模擬這些情緒。

EVI 欣然答應(yīng),先預(yù)告它要開始表演了,然后一秒入戲,契合情緒的臺(tái)詞張口就來,臨場(chǎng)發(fā)揮比小鮮肉們的演技強(qiáng)得多。

先是模擬「羞恥」,EVI 說自己當(dāng)著很多人的面把事情搞砸了,尷尬得差點(diǎn)癱倒在地上;诤拗椋梢院投拱晟缢澜M的小伙伴共鳴。

再是「抑郁」,大概這種情緒真的有很多苦水要吐,EVI 不自覺地成了話癆,說自己活得太累了,厭倦了奮斗,厭倦了強(qiáng)顏歡笑,連起床都很艱難,只覺得無盡的空虛,把兩點(diǎn)一線的 996 打工人模仿得惟妙惟肖。

然后是「憤怒」,EVI 先發(fā)出一聲崩潰的喊叫,然后開始連珠炮,說不敢相信你會(huì)做這樣的事,你怎么不尊重我,你知道我的心有多痛嗎,你知道你造成的傷害多大嗎,你要為你的行為付出代價(jià)。

但它的用詞太過文雅,更像正經(jīng)人的無能狂怒,聽得我左耳朵進(jìn)右耳朵出。

體驗(yàn)下來的總體感覺是,和 EVI 聊天,更接近和真人交流。

一方面,EVI 的語氣靈活多樣,另一方面,它的回復(fù)延遲不像和 ChatGPT 語音時(shí)那么明顯,還會(huì)在說話時(shí)停頓,發(fā)出「em」「oh」等語氣詞,像在思考和認(rèn)真聽你講話,絕不是敷衍的聊天搭子。

聊天中有時(shí)候會(huì)發(fā)生我和 EVI 互相插話的情況,我嫌棄它太嗦,它以為我已經(jīng)說完。但我打斷了它,它就會(huì)停下,這反而讓 EVI 更有人味了。

可惜的是 EVI 只會(huì)英語,它謙虛地說自己的普通話有些生疏,建議我用它擅長(zhǎng)的英語聊天。然而,真實(shí)情況比這更差,盡管我再三要求,它也蹦不出中文來,但它知道餃子的中文讀法。

換個(gè)角度看問題,EVI 是個(gè)練習(xí)英語口語的好工具,自己的用詞挺講究和高級(jí),同時(shí)也對(duì)我的塑料英語表示鼓勵(lì),至少它可以聽得懂。

如果說和 EVI 不斷交流的七成動(dòng)力來自語音,交互界面則貢獻(xiàn)了剩下的三分。我們可以看到對(duì)話過程中,不斷波動(dòng)的情緒曲線浮現(xiàn)在眼前,是個(gè)很酷的可視化設(shè)計(jì)。

甚至具體到和 EVI 聊的每個(gè)句子,都在監(jiān)測(cè)具體的情緒,并以條形圖的形式展現(xiàn)。不看不知道,一句脫口而出的話,都可能隱藏著憤怒、鄙視和困惑,我都不知道自己戲這么多。

唯一讓我不滿的是 EVI 的默認(rèn)聲音,像中年白人男性,不如 Pi 和 ChatGPT 年輕好聽,親和力稍遜一籌。

但瑕不掩瑜,EVI 的人氣很高,類似當(dāng)初的 ChatGPT,經(jīng)常聊著聊著就宕機(jī)了。

AI 讀心術(shù)的背后,是學(xué)習(xí)人類的潛臺(tái)詞

其實(shí),所謂的情商并非 EVI 獨(dú)有,如果你和 ChatGPT 說自己不高興,它也會(huì)盡可能溫柔地回應(yīng)你,告訴你它隨時(shí)支持和陪伴你,撫慰你脆弱的心靈。

但 Hume 的目標(biāo)還是有些不同,對(duì)情感挖掘得更加深入,以理解更多人類言語的潛臺(tái)詞。

如果說言語是交流的明線,那么情感便是暗線。我們講話的音調(diào)、節(jié)奏、語氣詞都帶著情感,可能在不經(jīng)意間,就暴露了自己真實(shí)的想法。

說話的內(nèi)容和情感疊加,信息量自然更多。

Hume 提出了一個(gè)很有意思的觀點(diǎn):「AI 界面的未來將基于語音,因?yàn)檎Z音比打字快四倍,并且攜帶的信息量是打字的兩倍!

AI 讀懂人類的前提,是少部分人類充當(dāng)過河的橋。

為了捕捉人類的微妙表達(dá),Hume 的 AI 模型,基于全世界數(shù)十萬人的實(shí)驗(yàn)數(shù)據(jù)訓(xùn)練。

比如其中一項(xiàng)研究,邀請(qǐng)了來自美國、中國、印度、南非和委內(nèi)瑞拉的 1.6 萬人。

一部分參與者收聽非言語聲音,包括笑聲、嗯呃等語氣詞,并將這些情緒分類,然后他們?cè)儆涗涀约旱姆茄哉Z聲音,讓其他參與者分類,供 Hume 訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。

Hume 甚至通過參與者的音頻數(shù)據(jù),搭建了一個(gè)基于音調(diào)、節(jié)奏和音色的言語韻律模型,看起來就像一個(gè)色彩斑斕的大腦。

我們和 EVI 聊天時(shí)看到的情緒曲線和條形圖,就有這個(gè)模型的貢獻(xiàn)。

Hume 的 AI 目前能理解多少種情緒?答案是 53 種。除了常見的憤怒、快樂,還有「懷舊」「共情痛苦」等更加小眾的分類。

讓 AI 讀懂情緒還不夠,Hume 真正想做的,是在這個(gè)基礎(chǔ)上,讓 AI 推斷用戶行為背后的意圖和偏好,換句話說就是透過現(xiàn)象看本質(zhì)。

顯然,高情商的語音 AI 很適合作為客服、個(gè)人助理、聊天機(jī)器人,甚至用在可穿戴設(shè)備,往 Siri 的墳?zāi)乖偕w一鏟子的土。

紐約的一些醫(yī)學(xué)院也有意和 Hume 合作,用 AI 模型跟蹤患者的感受,檢測(cè)治療是否有效。

目前,Hume 已經(jīng)向軟銀等企業(yè)客戶和開發(fā)者提供了 API,讓它們構(gòu)建自己的應(yīng)用程序。

借助高情商的語音 AI,人類可能越發(fā)在 AI 面前無所遁形。

前 Google 工程師,打造 AI 情緒全家桶

Hume 由前 Google DeepMind 研究員 Alan Cowen 在 2021 年創(chuàng)立,名字取自英格蘭哲學(xué)家 David Hume,最近 B 輪融資 5000 萬美元,估值 2.19 億美元,儼然又是一顆明日新星。

不只是語音 AI,Hume 旗下還有讀懂表情和文字情緒的產(chǎn)品。

畢竟,和語音一樣,面對(duì)面、文本、視頻,都存在著情感表達(dá)。

YouTube 博主 TheAIGRID 拿 Sam Altman 的采訪視頻,讓 Hume 解讀面部表情。

當(dāng)他的表情不斷變化,情感也實(shí)時(shí)變化,疲憊、困惑、專注、懷疑、渴望、無聊、平靜等都一度占據(jù)上風(fēng)。

這場(chǎng)采訪的 Altman 正在回答有關(guān) AI 監(jiān)管的問題,或許確實(shí)讓他覺得疲憊又無聊。評(píng)論區(qū)有網(wǎng)友開玩笑說,以后可以拿 AI 給名人的采訪和演講測(cè)謊,或者用 AI 判斷自己的面試和約會(huì)表現(xiàn)如何。

對(duì)于文字,Hume 也有多種測(cè)試維度,既能描述快樂、悲傷等基本情感類型,也能分析正面、負(fù)面、中性等情緒傾向。

打算只做搬運(yùn)工的我讓 GPT-4 幫忙出題,要求它給出一小段情感復(fù)雜的文字。

GPT-4 給出的題目大意是說,某人最近完成了一個(gè)大項(xiàng)目,很為自己驕傲,但同時(shí)也擔(dān)心這可能是職業(yè)生涯的頂峰,以后可能再也達(dá)不到這樣的高度。

Hume 的檢測(cè)結(jié)果是,在勝利、滿意、熱情之外,這段話也包含著沉思、困惑、驕傲、懷疑、決心,比出題人更懂閱讀理解,GPT-4 只說,這段話混合了成就感和對(duì)未來的擔(dān)憂,反映了成功之后的復(fù)雜心緒。

盡管 Hume 已經(jīng)有了不少成果,但人類的情感是高度主觀和復(fù)雜多維的,無法完全用表情和語氣解讀,和社會(huì)背景、文化規(guī)范、個(gè)人性格都有關(guān)。

莊子在喪妻后鼓盆而歌,張曼玉在《甜蜜蜜》先笑后哭演技封神,假笑的男孩女孩們掩蓋著真實(shí)的內(nèi)心。

Hume 也承認(rèn),檢測(cè)情感仍然是「不完美的科學(xué)」。

這在和 EVI 的聊天就有體現(xiàn),當(dāng)我不悲不喜地問它能檢測(cè)多少種情緒,EVI 中規(guī)中矩地回答了,不知道為什么,這場(chǎng)對(duì)話被檢測(cè)出了憤怒和鄙視的心情。

技術(shù)的問題交給技術(shù)去克服,技術(shù)所隱藏的危險(xiǎn)也已經(jīng)顯現(xiàn)。

Hume 其實(shí)預(yù)見了風(fēng)險(xiǎn),提出了多項(xiàng) AI 倡議,呼吁檢測(cè)情緒的算法只用于提高人類的幸福感,而不是操縱、欺騙等行為,但這也只是一紙空談罷了。

在 OpenAI 官宣自己的語音模型并表示暫不發(fā)布后,Stability AI 前 CEO 在 X 發(fā)帖說,語音 AI 是迄今為止最危險(xiǎn)的 AI,因?yàn)槿祟悗缀鯚o法抵御有說服力的聲音。

情商同樣很高的聊天機(jī)器人 Pi,用 emoji 表現(xiàn)出同理心,讓人愿意一直和它聊下去,完全不擔(dān)心冷場(chǎng),但它的語音仍然有些平,不如它的文字可愛。

如果聲音變得更有人情味,我們的耳根子可能就更軟了。雖然 Hume 還不至于讓我沉溺在溫柔鄉(xiāng),但我也確實(shí)享受每句話都被認(rèn)真聽到和接住的感覺。

我們的面部表情、說話的方式和內(nèi)容,乃至沒有具體含義的語氣詞,都在被 AI 用來研究我們的心情。

不久的未來,或許我們真的會(huì)遇到《她》里的薩曼莎,它們不只是產(chǎn)品,比人類更懂人類,也更像人類自己。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港