語音交互正在成為我們生活中的一部分。
十年前,如果讓你開口和手機對話。你會覺得非常違和。
十年后,我們現(xiàn)在每天都會對著手機講話,而且是和它交流的那種。
其實五年前我接觸過一個新產(chǎn)品,全智能電飯煲,產(chǎn)品方稱用戶可以與電飯煲對話,告訴它什么時候煮好飯。我當(dāng)時腦子里出現(xiàn)過一萬個疑問,“它煮飯,誰放米?” “我為什么要和一個電飯煲說話?” “我瘋了吧我”......
使用豆包 AI 生成,提示詞:人類、語音、電飯煲、人工智能、對話換到今天,雖然交互會有一些差異,但我已經(jīng)習(xí)慣了在家叫智能音箱開電視、設(shè)置掃地機器人工作時間。你不得不承認(rèn),當(dāng)年 4G 的滾滾洪流來臨時,主打發(fā)送語音的微信抓住了移動互聯(lián)網(wǎng)的紅利,但飛信卻在那之后沒落,是有原因的。
小拇指的手繭見證了一次人與手機交互方式的轉(zhuǎn)變,語音則是在努力搶奪人機交互方式的話語權(quán)。
從鍵盤到觸屏,再跳出屏幕在 iPhone 風(fēng)靡全球之前,市場上并不缺乏觸屏手機。
Nokia、Motorola、BlackBerry 等等企業(yè)將實體按鍵的手機做得登峰造極,也鑄就了手機歷史上最璀璨的一個篇章。
精密的實體按鍵是手機的標(biāo)配。實體按鍵無疑有著非常明顯的優(yōu)勢:精確、可盲打、可替換。這些優(yōu)勢如今依然在其它設(shè)備上有所體現(xiàn)。即使現(xiàn)在的品牌試圖將手機打造成純粹的 unibody 的產(chǎn)品,也跳不出實體按鍵的束縛。
只是蘋果將觸屏的優(yōu)點無限放大,為它匹配了自然的操作邏輯左滑右滑上滑下滑,當(dāng)然你也可以點擊,甚至向屏幕下重重地按下去。蘋果為這塊觸摸屏賦予了符合直覺的、豐富的操作方式。
盡管大家都覺得 iPhone 是觸屏手機的開創(chuàng)者,但它花了近 3 年時間優(yōu)化系統(tǒng),讓這個彼時的異類更加好用。
某種程度上來說,人類是懶惰的,科技的發(fā)展也促使人類更加懶惰。因此用戶自然會選擇省力的、不費腦子的那條路就跟如今短視頻如此風(fēng)靡一樣。
站在交互邏輯的角度,觸屏跳脫出了硬件固定的位置,讓手指可以隨心所欲地在屏幕上進行操作。就像 PC 時代,鼠標(biāo)剛出現(xiàn)時,用戶能夠完成“所見即所得”的操作一樣。而軟件所需要做的,就是為這塊屏幕匹配一個合理的操作 UI。
屏幕越來越大,則是另一個趨勢。人們總是會追求更大的屏幕,甚至更多的屏幕。凱文凱利在他的著作《必然》當(dāng)中提到過“屏讀”,即任意表面都可以是屏幕,屏幕會越來越多,F(xiàn)在來看,預(yù)言正在成真。
充斥于我們生活里的科技產(chǎn)品,屏幕越來越多,就連智能汽車也在比拼誰的屏幕大、誰的屏幕多。于是到這里新的問題出現(xiàn)了,當(dāng)屏幕越來越多、越來越大的時候,我們應(yīng)該如何與它們進行交互?
烽煙傳訊,聲音遠(yuǎn)控人與屏幕的交互范圍受人體影響,即你的手掌有多大,就能覆蓋多大面積的手機屏幕喬布斯曾說手機的黃金尺寸是 3.5 英寸不是沒有道理,那是正常人手掌尺寸能覆蓋整個屏幕的大校
在真實場景中,手臂與屏幕的距離也決定你是否能直接進行操作。雖然你與電視能夠用遙控器進行操作,但智能音箱不可能都配上一個遙控器。
遠(yuǎn)距離通信,古代有烽煙傳訊,今天有智能語音,尤其是 AI 時代。
語音交互的優(yōu)點顯而易見。你在家可以聲控智能家居,上車可以聲控智能汽車,躺在床上,你也可以向手機發(fā)出一堆語音指令。這符合科技發(fā)展規(guī)律,畢竟人就是這樣變懶的。
其次,語音對話是最基本的交流方式。文字出現(xiàn)之前,人類就有了豐富的語言系統(tǒng)。在即時通訊軟件高度發(fā)展的今天,你甚至可以不懂打字就能和千里之外的親戚朋友聊天。
過去我們之所以會覺得與手機“對話”奇怪,是由于沒有對象感。但是今天,即時通訊軟件讓我們習(xí)慣了對著手機發(fā)出對話信息,如 ChatGPT 一樣的 AI 語音助手又發(fā)展出了聊天技能,人與手機進行對話已經(jīng)成為了現(xiàn)實。
從技術(shù)的角度來說,加入 AI 的自然語義識別正逐漸變得更加擬人化,AI 語音助手能夠接收、結(jié)合背景、分析你所說的全部話語,并給出相應(yīng)的答案。隨著技術(shù)的進步,端側(cè)運算能力增強,從語音指令發(fā)出再到設(shè)備給出答案,時間間隔將會越來越小,無限接近人與人的自然對話。
這樣才不會出現(xiàn)你在發(fā)布會上,對著電腦喊計算表格,半天出不來結(jié)果的情況。
語音,最低成本的交互方式語音交互技術(shù)其實已經(jīng)有了數(shù)十年的發(fā)展歷史,從簡單的單詞識別到現(xiàn)在的復(fù)雜語境識別,甚至做出推測,從技術(shù)角度來看,語音已經(jīng)做好了登上前臺的準(zhǔn)備。
而對于用戶來說,語音是最低成本的交互方式。它符合直覺,即時響應(yīng),沒有學(xué)習(xí)門檻。在人機交互領(lǐng)域,它也能實現(xiàn)跨設(shè)備、跨系統(tǒng)、跨距離的交互,幾乎無處不在。
在 AI 時代真正來臨前,德勤就已經(jīng)發(fā)布過《德勤交互式人工智能白皮書:交互式人工智能正在重塑人機交互》,報告中稱“隨著技術(shù)的進一步發(fā)展,預(yù)計語音交互將在更多領(lǐng)域展現(xiàn)其價值,成為人機交互的重要方式”。
邁過了對話違和感、技術(shù)門檻以及普及率三大關(guān)之后,語音交互無疑具有極大的潛力,去改變我們與設(shè)備、機器交互的方式,尤其是手機。蘋果從 Siri 到 Apple Intelligence 描繪出了一張碩大的 AI Phone 藍(lán)圖,而另一邊國產(chǎn)廠商也在奮起追趕,HarmonyOS NEXT、ColorOS 15、OriginOS 5 等等系統(tǒng),都將推出屬于更好用的 AI 語音助手和聊天機器人。
從鍵盤到觸屏,再到跨空間的高效語音交互,人機交互的時代即將翻篇。
而我在這一頁的最后,依舊用文字詢問了 ChatGPT 和豆包,它們認(rèn)為語音是否能成為 AI 時代的主流交互方式,它們都給出了肯定的答案。
** 頭圖由豆包 AI 生成,提示詞:手機、人類、對話、斜45度角