展會(huì)信息港展會(huì)大全

白菜價(jià)AI語(yǔ)音轉(zhuǎn)錄,“美國(guó)科大訊飛”3年融資1.5億美元
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-12-26 18:23:46   瀏覽:7325次  

導(dǎo)讀:作者丨王藝 編輯丨海腰 Assembly AI由Dylan Fox在2017年底創(chuàng)立,致力于研究、訓(xùn)練和部署領(lǐng)先的語(yǔ)音AI模型,供開(kāi)發(fā)人員和產(chǎn)品團(tuán)隊(duì)集成到他們的應(yīng)用程序和服務(wù)中。與國(guó)內(nèi)的訊飛聽(tīng)見(jiàn)類(lèi)似,執(zhí)行語(yǔ)音轉(zhuǎn)錄、內(nèi)容審核、關(guān)鍵提取等任務(wù)。 12月3日,Assembly AI宣布獲...

作者丨王藝

編輯丨海腰

Assembly AI由Dylan Fox在2017年底創(chuàng)立,致力于研究、訓(xùn)練和部署領(lǐng)先的語(yǔ)音AI模型,供開(kāi)發(fā)人員和產(chǎn)品團(tuán)隊(duì)集成到他們的應(yīng)用程序和服務(wù)中。與國(guó)內(nèi)的“訊飛聽(tīng)見(jiàn)”類(lèi)似,執(zhí)行語(yǔ)音轉(zhuǎn)錄、內(nèi)容審核、關(guān)鍵提取等任務(wù)。

12月3日,Assembly AI宣布獲得5000萬(wàn)美元C輪融資,用以加速增強(qiáng)語(yǔ)音AI功能。此輪投資由Accel領(lǐng)投,參投者包含Nat Friedman、Daniel Gross、Salesforce前聯(lián)合首席執(zhí)行官Keith Block、Insight Partners和Y Combinator等知名投資方。

據(jù)睿獸分析數(shù)據(jù),Assembly AI共計(jì)融資6輪,資金總額為1.581億美元,Accel連投4輪,參與此前輪次的知名資方包括Stripe創(chuàng)始人John Collison、Smith Point、TechNexus Venture Collaborative等。

當(dāng)前,Assembly AI稱(chēng)其付費(fèi)客群相較去年增長(zhǎng)了200%,增至4000個(gè)品牌,每日處理約2500萬(wàn)次API調(diào)用。

開(kāi)發(fā)模型需要時(shí)間、金錢(qián)和算力,規(guī)模較小的公司難以跟進(jìn),便會(huì)尋求“人工智能即服務(wù)”的供應(yīng)商的幫助,這些供應(yīng)商負(fù)責(zé)處理創(chuàng)建模型的高難度工作,并通過(guò)API收取訪問(wèn)費(fèi)用。Assembly AI就是這樣一家公司,專(zhuān)門(mén)提供語(yǔ)音轉(zhuǎn)錄和文本分析服務(wù),吃到了AI布局紅利。

IDC預(yù)測(cè)顯示,全球?qū)?ldquo;以人工智能為中心”的系統(tǒng)支出將在2023年達(dá)到1540億美元,同比增長(zhǎng)26.9%,到2026年將超過(guò)3000億美元。

10月,《麻省理工科技評(píng)論》對(duì)600家公司的調(diào)查發(fā)現(xiàn),將近一半公司表示來(lái)年在數(shù)據(jù)基礎(chǔ)設(shè)施和人工智能方面的支出增加25%以上。

“白菜價(jià)”語(yǔ)音轉(zhuǎn)錄

Assembly AI致力于讓開(kāi)發(fā)者利用他們的AI模型分析語(yǔ)音數(shù)據(jù)構(gòu)建AI產(chǎn)品,其稱(chēng)當(dāng)前有超過(guò)20萬(wàn)名開(kāi)發(fā)人員在使用該平臺(tái)。高級(jí)工程師Afiz在推特中表示,“在Assembly AI使用5行Python代碼就可以為視頻文件生成字幕。”在用戶(hù)頁(yè)中,用戶(hù)可選擇不同的編程語(yǔ)言通過(guò)官網(wǎng)簡(jiǎn)單的代碼引用寫(xiě)法完成實(shí)時(shí)/異時(shí)語(yǔ)音轉(zhuǎn)錄、提煉亮點(diǎn)等功能。

據(jù)官網(wǎng),Assembly AI的三大核心產(chǎn)品是語(yǔ)音轉(zhuǎn)錄、智能音頻和LeMUR。

語(yǔ)音轉(zhuǎn)錄是Assembly的基礎(chǔ)服務(wù),其最新的自動(dòng)語(yǔ)音識(shí)別AI模型為7月發(fā)布的Conformer-2。據(jù)稱(chēng),該模型使用110萬(wàn)小時(shí)的英語(yǔ)音頻數(shù)據(jù)進(jìn)行訓(xùn)練。此處,Assembly AI采用了一段Formula One中解說(shuō)者在嘈雜環(huán)境中對(duì)Verstappen彎道超車(chē)的評(píng)價(jià)音頻,展示了模型相比上一代Conformer-1專(zhuān)有名詞的錯(cuò)誤率改進(jìn)提升6.8%,字母數(shù)字識(shí)別提升31.7%,抗噪能力提升12%。

Assembly AI的語(yǔ)音轉(zhuǎn)錄包含異步轉(zhuǎn)錄、同步轉(zhuǎn)錄、說(shuō)話人分類(lèi)、自定義詞匯、時(shí)間軸精確至單詞、填充不流暢內(nèi)容、臟話過(guò)濾等功能。目前,Assembly AI支持全球英語(yǔ)(包含帶口音的英語(yǔ))、西班牙、法語(yǔ)、中文等16國(guó)語(yǔ)言的ASR(自動(dòng)語(yǔ)音識(shí)別)。

智能音頻服務(wù)提供總結(jié)語(yǔ)音、檢測(cè)惡意內(nèi)容、識(shí)別主題、提取見(jiàn)解等服務(wù)。

用戶(hù)在Assembly AI語(yǔ)音轉(zhuǎn)錄后,可以使用其總結(jié)、關(guān)鍵詞、自動(dòng)章節(jié)的功能對(duì)整體內(nèi)容做關(guān)鍵提齲這其中用戶(hù)能選擇不同風(fēng)格和語(yǔ)氣的摘要,也能在1分鐘內(nèi)獲得識(shí)別記錄中的關(guān)鍵詞和重要概念。其預(yù)測(cè)的主題標(biāo)簽遵循標(biāo)準(zhǔn)的IAB內(nèi)容分類(lèi)法,識(shí)別語(yǔ)音轉(zhuǎn)錄中的不同主題。

它在檢測(cè)與分析方面結(jié)合了用戶(hù)的數(shù)據(jù)安全需求。一方面,Assembly AI提供內(nèi)容審核檢測(cè)視頻中涉及暴力、惡意言論、社會(huì)敏感話題等內(nèi)容,還能檢測(cè)每句話的人物情緒。另一方面,Assembly AI能自動(dòng)識(shí)別語(yǔ)音中的個(gè)人與公司名稱(chēng)、住址、日期與位置。用戶(hù)對(duì)此可啟用PII編輯模型,將個(gè)人敏感信息如姓名、電話、郵件地址等用“###”替換,也可以創(chuàng)建經(jīng)過(guò)PII編輯的音頻,這其中將以蜂鳴聲替代敏感信息。

其新框架LeMUR在Conformer-2的一周后發(fā)布。據(jù)介紹,用戶(hù)通過(guò)API調(diào)用,可對(duì)100多個(gè)小時(shí)的音頻進(jìn)行會(huì)議總結(jié)、生成見(jiàn)解、回顧項(xiàng)目等操作。LeMUR對(duì)特定任務(wù)的高精度進(jìn)行優(yōu)化,從短時(shí)長(zhǎng)的客戶(hù)咨詢(xún)通話音頻到長(zhǎng)時(shí)間的播客,用戶(hù)可使用LeMUR進(jìn)行提問(wèn)并得到答案,也可以自行輸入提示詞生成輸出內(nèi)容。此外,LeMUR會(huì)按照用戶(hù)給定格式回顧會(huì)議上的行動(dòng)項(xiàng)目并分配給與會(huì)者。

目前,Assembly AI允許免費(fèi)用戶(hù)使用和探索,限制在每月5次異步轉(zhuǎn)錄與100M文件上傳。超出則需要付費(fèi)訂閱語(yǔ)音轉(zhuǎn)錄約0.65美元/小時(shí)(約4.6元/小時(shí)),實(shí)時(shí)轉(zhuǎn)錄約0.74988美元/小時(shí)(約5.4元/小時(shí)),相較國(guó)內(nèi)同類(lèi)軟件訊飛聽(tīng)見(jiàn)語(yǔ)音轉(zhuǎn)寫(xiě)約19.8元/小時(shí),Assembly AI幾乎是“白菜價(jià)”。

智能音頻服務(wù)按照不同模型從0.05美元/小時(shí)(約0.36元/小時(shí))到0.3美元/小時(shí)(約2.14元/小時(shí))不等。LeMUR按照輸入與輸出的口令數(shù)量計(jì)價(jià),默認(rèn)版輸入約0.017美元/k tokens(1毛錢(qián)/k tokens),輸出為0.049美元/k tokens(3毛錢(qián)/k tokens)。

2022年9月,Assembly AI推出企業(yè)版產(chǎn)品,最大用例涵蓋電話、視頻、虛擬會(huì)議和媒體四個(gè)方面。其主要客戶(hù)包括華爾街日?qǐng)?bào)、Spotify、Grain、BBC、NBC環(huán)球、Veeed.io、Dropbox、Runway等。

除知名報(bào)紙雜志、音頻網(wǎng)站對(duì)語(yǔ)音轉(zhuǎn)錄的剛需,小型公司如流媒體Loop的廣告內(nèi)容檢測(cè)、呼叫跟蹤平臺(tái)Call Rail的通話摘要、會(huì)議平臺(tái)Fireflies.ai的自動(dòng)會(huì)議記錄、業(yè)務(wù)管理平臺(tái)Clari的運(yùn)營(yíng)收入記錄等都通過(guò)API調(diào)用LeMUR。

Assembly AI聯(lián)合創(chuàng)始人兼首席執(zhí)行官Dylan Fox在采訪中表示:“要做到低成本、高利用是極具挑戰(zhàn)的,調(diào)用Assembly AI的API的企業(yè)可以專(zhuān)注構(gòu)建新的人工智能產(chǎn)品、應(yīng)用和業(yè)務(wù),而不需要關(guān)注大模型開(kāi)發(fā)和訓(xùn)練。”

Dylan Fox

從1萬(wàn)小時(shí)到1000萬(wàn)小時(shí)

Dylan Fox畢業(yè)于美國(guó)喬治華盛頓大學(xué),從小喜歡電腦和電子游戲的他大學(xué)時(shí)和朋友創(chuàng)業(yè)時(shí)學(xué)習(xí)了軟件知識(shí),這也讓將他引向了機(jī)器學(xué)習(xí)和NLP。

第一次創(chuàng)業(yè)失敗后,2015年,他在思科擔(dān)任高級(jí)軟件工程師,專(zhuān)門(mén)研究協(xié)作產(chǎn)品的機(jī)器學(xué)習(xí)。亞馬遜(Amazon)同年推出的語(yǔ)音助手Alexa席卷全球,將許多公司對(duì)將語(yǔ)音驅(qū)動(dòng)整合到產(chǎn)品中產(chǎn)生濃厚興趣,思科也不例外,開(kāi)始尋找做語(yǔ)音識(shí)別技術(shù)服務(wù)的公司。自從能用語(yǔ)音口述命令機(jī)器時(shí),Dylan就沉迷于語(yǔ)音識(shí)別這項(xiàng)技術(shù)。

Dylan開(kāi)始研究ASR的API實(shí)例,過(guò)程中,Dylan發(fā)現(xiàn)需要運(yùn)用語(yǔ)音識(shí)別的項(xiàng)目使用的人工智能技術(shù)體驗(yàn)糟糕且非常過(guò)時(shí),這些供應(yīng)商的技術(shù)要么使用過(guò)程復(fù)雜,要么沒(méi)有API。Dylan用實(shí)例解釋?zhuān)?ldquo;一家供應(yīng)商寄給我一張光盤(pán),拿到API的訪問(wèn)權(quán)限需要和一群銷(xiāo)售員交談。”

實(shí)際上此時(shí)用于語(yǔ)音識(shí)別的機(jī)器學(xué)習(xí)方法已在ASR實(shí)現(xiàn)了準(zhǔn)確性突破,如微軟Cortana2014年作為語(yǔ)音識(shí)別個(gè)人助理亮相,識(shí)別誤差率約為6%,2016年3月百度開(kāi)放語(yǔ)音搜索準(zhǔn)確識(shí)別,谷歌的語(yǔ)音搜索則從2008年起也已迭代了多個(gè)版本。

有先進(jìn)技術(shù)卻無(wú)良好用例,Dylan注意到語(yǔ)音識(shí)別領(lǐng)域存在的大量市場(chǎng)空白。

2016年,美國(guó)云通訊服務(wù)商Twilio在紐交所上市,據(jù)財(cái)報(bào),其毛利率自2015年開(kāi)始持續(xù)維持在50%以上,主要服務(wù)方式以API形式提供,包含語(yǔ)音API、電子郵件API,即為開(kāi)發(fā)者提供底層用于云通訊的技術(shù)模塊。

這不由激發(fā)了Dylan的思考:“如果能使用最新的AI研究來(lái)建立一個(gè)Twilio風(fēng)格的API公司,那會(huì)怎么樣?”

2017年,Dylan一個(gè)人帶著Assembly AI項(xiàng)目參加了夏季Y Combinator。在那里,他遇到了Daniel Gross,“他完全理解我的意思,因?yàn)樗部吹搅薃SR的市常”當(dāng)時(shí)Daniel Gross還在蘋(píng)果工作,后來(lái)成為Assembly AI的投資合伙人。此外,在Twilio工作9年的原內(nèi)容生成器高級(jí)總監(jiān)Matthew Makai也成為Assembly AI的VP。

Daniel Gross

初創(chuàng)時(shí)期,Dylan最常被問(wèn)的問(wèn)題是,“員工成千上萬(wàn)的大公司在和你做一樣的項(xiàng)目,而你只有一個(gè)人,你會(huì)中止嗎?”

起初,Assembly AI第一批模型訓(xùn)練數(shù)據(jù)約1萬(wàn)小時(shí),作為一家AI公司迭代速度較慢。Dylan傾注心力建立口碑,尋找需使用API的潛在初創(chuàng)企業(yè),參加黑客馬拉松打響知名度。在Hacker News上,Dylan獲得了對(duì)Assembly AI的API感興趣的第一批用戶(hù)。當(dāng)前,最新模型Conformer-2的訓(xùn)練數(shù)據(jù)已超過(guò)100萬(wàn)小時(shí),Dylan稱(chēng)還將發(fā)布1000萬(wàn)小時(shí)訓(xùn)練數(shù)據(jù)的模型。

Dylan堅(jiān)信ASR有巨大的市場(chǎng)潛力,這是他前進(jìn)的理由。“即使目前AI技術(shù)實(shí)際準(zhǔn)確性還存在迷惑性和混亂,人類(lèi)對(duì)它仍有巨大需求。所以,我相信語(yǔ)音識(shí)別一定會(huì)有市常”

市場(chǎng)機(jī)會(huì)是Dylan的“東風(fēng)”。2020年,受疫情影響,智能語(yǔ)音系統(tǒng)應(yīng)用需求激增,大數(shù)據(jù)、多模式識(shí)別、云服務(wù)等技術(shù)觸及行業(yè)核心需求。來(lái)自互聯(lián)網(wǎng)的大數(shù)據(jù)、客戶(hù)分享數(shù)據(jù)、客戶(hù)非機(jī)密數(shù)據(jù)等投入Assembly AI訓(xùn)練。同年11月,Accel、Daniel Gross、John Collison、Nat Friedman等給Assembly AI的天使輪投了5000萬(wàn)美元。

有數(shù)百家初創(chuàng)公司正在使用Assembly AI的API,迅速擴(kuò)大用戶(hù)群,如Call Rail使用AI讓人們?cè)儍r(jià),了解企業(yè)都能變得更高效,為全國(guó)數(shù)十萬(wàn)小企業(yè)提供AI對(duì)話平臺(tái)。

有分析指出,Assembly AI于2022年9月發(fā)布公告向高端市場(chǎng)拓展,而截至目前,官網(wǎng)價(jià)目表中Assembly AI還未提供本地解決方案用以滿足政府或醫(yī)療機(jī)構(gòu)等敏感數(shù)據(jù)處理要求。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港