“吃肉的時(shí)候絕不吃主食,并且只吃七分飽。”4月16日,久未出現(xiàn)在公眾視野的京東創(chuàng)始人劉強(qiáng)東以AI分身(以下簡(jiǎn)稱“采銷東哥AI數(shù)字人”)的形式出現(xiàn)在京東超市采銷直播間,介紹著自己的生活飲食習(xí)慣,邊說還邊賣起了牛排、水果等產(chǎn)品。
與此同時(shí),采銷東哥AI數(shù)字人還同時(shí)在京東家電家居采銷直播間進(jìn)行直播,在該直播間采銷東哥AI數(shù)字人主要帶空調(diào)、電視等家電產(chǎn)品。
在直播間中,采銷東哥AI數(shù)字人身穿藍(lán)色西裝外套和白色襯衫,在為觀眾講解商品的同時(shí),口型與手勢(shì)均會(huì)做出相應(yīng)的變化,表情、音色、神態(tài)與本人高度相似,并且可以完成講解、簡(jiǎn)單的活動(dòng)互動(dòng)、上鏈接等指令。
截至發(fā)稿,兩個(gè)直播間的觀看量都超過1200萬,多款采銷東哥AI數(shù)字人推薦的產(chǎn)品也已售罄。采銷東哥AI數(shù)字人未來或?qū)⒗^續(xù)出現(xiàn)在直播間,其直播時(shí)表示下次還會(huì)來直播。
據(jù)悉,劉強(qiáng)東的AI數(shù)字分身由京東云言犀打造。一般而言,數(shù)字人的還原度與AI訓(xùn)練與“投喂”的素材有關(guān),為了高度還原劉強(qiáng)東本人,京東方面是如何做到形似又神似的?
據(jù)京東云方面介紹,形象訓(xùn)練時(shí),大模型捕捉并呈現(xiàn)了劉強(qiáng)東的習(xí)慣性表情和動(dòng)作,比如在講話時(shí)偶爾搓動(dòng)手指,強(qiáng)調(diào)某件事時(shí)會(huì)配合更大幅度的手部動(dòng)作,以及時(shí)不時(shí)點(diǎn)頭,等等。
京東云方面表示,“聲音訓(xùn)練時(shí),聽過東哥講話的人,對(duì)他的宿遷口音印象深刻,還會(huì)發(fā)現(xiàn)他語速比較快,吐字比較輕,有些詞語會(huì)習(xí)慣連讀,他對(duì)‘時(shí)間’‘正是’中的‘sh’發(fā)音帶有重鼻音,還喜歡稱呼‘兄弟們’鼓舞大家的士氣……說好普通話并不難,但要讓采銷東哥AI數(shù)字人說好宿遷普通話,學(xué)習(xí)本人的發(fā)音習(xí)慣并不容易。比如要不要加鼻音,哪里要連讀,就需要大模型給出準(zhǔn)確判斷。”
除此之外,數(shù)字人的聲音還需要更適合直播帶貨,以及把“兄弟們”這樣的口頭禪用在合適的地方。
京東云言犀團(tuán)隊(duì)也對(duì)這些細(xì)節(jié)進(jìn)行了模型調(diào)優(yōu)。他們起初“喂”給大模型的演講素材,雖然充滿激情、爆發(fā)力強(qiáng),但過于正式。為此,他們用最新錄制的閑談作為主要素材,其中有劉強(qiáng)東娓娓道來生動(dòng)的旅行經(jīng)歷,再提取5分鐘演講的韻律特征灌給大模型,通過不斷優(yōu)化,最終塑造出AI數(shù)字人親切自然、貼近用戶的聲音。