展會(huì)信息港展會(huì)大全

探尋AI大模型平臺(tái)之巔——文心千帆
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-09-20 18:25:39   瀏覽:9924次  

導(dǎo)讀:作者| 碼農(nóng)研究僧 出品 | CSDN(ID:CSDNnews) 眾多AI大模型不斷涌現(xiàn),一時(shí)不知如何挑選,畏懼嘗試又期盼適配自身產(chǎn)品。 算法、算力、數(shù)據(jù)等參數(shù)常用于評(píng)判的標(biāo)準(zhǔn)。放眼大部分產(chǎn)品,平臺(tái)所具備的算力、服務(wù)企業(yè)的能力以及技術(shù)的豐富度,文心千帆即為首選,...

作者| 碼農(nóng)研究僧

出品 | CSDN(ID:CSDNnews)

眾多AI大模型不斷涌現(xiàn),一時(shí)不知如何挑選,畏懼嘗試又期盼適配自身產(chǎn)品。

算法、算力、數(shù)據(jù)等參數(shù)常用于評(píng)判的標(biāo)準(zhǔn)。放眼大部分產(chǎn)品,平臺(tái)所具備的算力、服務(wù)企業(yè)的能力以及技術(shù)的豐富度,文心千帆即為首選,有著文心一言的優(yōu)質(zhì)大模型以及主流的第三方開(kāi)源大模型(預(yù)測(cè)服務(wù)、Prompt工程),龐大的客戶(hù)量,運(yùn)維已久的數(shù)據(jù)量。

技術(shù)豐富、一站式服務(wù)、生態(tài)化建設(shè)等成就文心千帆的可視化AI平臺(tái),每一次的更新迭代可以說(shuō)都帶來(lái)諸多亮點(diǎn),這一次帶來(lái)了兩大亮點(diǎn):

第三方大模型:支持更多主流的開(kāi)源大模型,目前達(dá)到33個(gè)(此次迭代新增Llama2模型,后續(xù)融入更多開(kāi)源大模型)。

prompt模板庫(kù):幫助開(kāi)發(fā)者更好的調(diào)用,稱(chēng)得上國(guó)內(nèi)最多最全的模板庫(kù)。

通過(guò)文心千帆服務(wù)體驗(yàn)申請(qǐng)的官網(wǎng)地址申請(qǐng)公測(cè)權(quán)限,填寫(xiě)基本信息之后,工作人員會(huì)在三小時(shí)內(nèi)進(jìn)行審核。

1. 何為文心千帆

文心千帆大模型平臺(tái)是面向企業(yè)開(kāi)發(fā)者的一站式大模型開(kāi)發(fā)及服務(wù)運(yùn)行平臺(tái)。數(shù)據(jù)管理、自動(dòng)化模型SFT以及推理服務(wù)云端部署一站式大模型定制服務(wù),助力各行業(yè)的生成式AI應(yīng)用需求落地。

該平臺(tái)的功能和生態(tài)非常豐富,涵蓋了數(shù)據(jù)管理、模型訓(xùn)練、模型評(píng)估等多個(gè)方面,這為開(kāi)發(fā)者提供了強(qiáng)大的工具和資源,讓更多開(kāi)發(fā)者可以輕松應(yīng)用大模型技術(shù),專(zhuān)注自身開(kāi)發(fā)的能力。

結(jié)合自身經(jīng)驗(yàn)之談,談?wù)勎覍?duì)文心千帆整體功能的理解:

數(shù)據(jù)管理:一站式服務(wù),以可視化界面進(jìn)行展示,讓開(kāi)發(fā)者更好的理解其魅力。

模型訓(xùn)練:訓(xùn)練自身的應(yīng)用場(chǎng)景模型,并根據(jù)自身需求和數(shù)據(jù)特定進(jìn)行優(yōu)化。

模型評(píng)估:模型評(píng)估可讓開(kāi)發(fā)者選擇合適的模型,模型壓縮可讓成本和效率都達(dá)到優(yōu)化。

第三方大模型:為開(kāi)發(fā)者提供更多模型選擇,根據(jù)自身需求構(gòu)建個(gè)性化應(yīng)用,極大方便開(kāi)發(fā)者的創(chuàng)作需求。

諸多底層技術(shù)的支撐,讓訓(xùn)練與推理性能大幅提升,千億模型分布式并行訓(xùn)練加速能力和算力利用率大幅提升,加快快速應(yīng)用編排,逐漸變成一個(gè)超級(jí)系統(tǒng)。

面向不同的企業(yè)需求,文心千帆提供不同的功能服務(wù),通過(guò)文心一言企業(yè)級(jí)推理云服務(wù),并進(jìn)行業(yè)務(wù)集成。其平臺(tái)適用于對(duì)話(huà)溝通、內(nèi)容創(chuàng)作、分析控制等業(yè)務(wù)場(chǎng)景,特別是工業(yè)級(jí)別的場(chǎng)景中,本身百度擁有幾十年的搜索引擎,在數(shù)據(jù)層面的提煉已經(jīng)精湛高超。

選擇的服務(wù)不同,AI回復(fù)的示例會(huì)有所差距,快來(lái)體驗(yàn)下吧。!

場(chǎng)景應(yīng)用與示例(BLOOMZ-7B)

對(duì)話(huà)溝通

內(nèi)容創(chuàng)作

分析控制

2. 核心亮點(diǎn)

這一次的更新迭代,可以看到文心千帆的界面增加了一些組件,特別是第三方大模型、Prompt工程。整體一番體驗(yàn)下來(lái),感觸非常深,畢竟有大廠(chǎng)先邁出先例,這是為開(kāi)發(fā)者謀福利。

第三方大模型有多種模型種類(lèi),且提供多種API接口,涵蓋廣泛的功能和應(yīng)用場(chǎng)景,為開(kāi)發(fā)者提供豐富的選擇和靈活性,目前已達(dá)到33個(gè)。

Prompt模板是目前國(guó)內(nèi)最全的模板,擁有103個(gè),覆蓋了大部分的場(chǎng)景,這極大降低大模型的門(mén)檻。

2.1 第三方大模型

文心千帆提供了一定的大模型種類(lèi),涵蓋了多種功能和應(yīng)用場(chǎng)景,針對(duì)不同的需求,可以選擇相應(yīng)的API接口來(lái)滿(mǎn)足任務(wù)的要求。每種接口在可視化的平臺(tái)都有相應(yīng)的注釋說(shuō)明,極大降低開(kāi)發(fā)者門(mén)檻。

結(jié)合自身的經(jīng)驗(yàn),給出主流的API接口應(yīng)用場(chǎng)景:

ERNIE-Bot和ERNIE-Bot-turbo:覆蓋海量中文數(shù)據(jù),具有更強(qiáng)的對(duì)話(huà)問(wèn)答、內(nèi)容創(chuàng)作生成等能力。ERNIE-Bot-turbo有更高的響應(yīng)速度,可應(yīng)用在實(shí)時(shí)性比較高的應(yīng)用場(chǎng)景。

BLOOMZ-7B:支持多語(yǔ)言,廣泛應(yīng)用于跨語(yǔ)言的文本處理任務(wù)。

Embedding-V1:適用于文本搜索、信息推薦、知識(shí)挖掘等場(chǎng)景。

Prompt:模板包含多種任務(wù)和應(yīng)用場(chǎng)景,對(duì)于開(kāi)發(fā)者來(lái)說(shuō)可以獲得有價(jià)值的資源(文心千帆的一大亮點(diǎn)!)。

Llama2:適用于編碼、推理應(yīng)用場(chǎng)景,目前也延伸出比較多的版本(Llama-2-7b-chat為高性能版本,Llama-2-13b-chat為性能與效果均衡版本,Llama-2-70b-chat為高精度效果版本)。

為了測(cè)試其接口的有效性,服務(wù)是否鑒權(quán)。簡(jiǎn)單做了一個(gè)小測(cè)試,在左側(cè)欄目創(chuàng)建應(yīng)用之后,通過(guò)API接口進(jìn)行調(diào)用,獲取對(duì)應(yīng)的access_token。調(diào)用接口的示例代碼,平臺(tái)也為開(kāi)發(fā)者一鍵提供示例:示例代碼。

平臺(tái)的擴(kuò)展性極強(qiáng),不僅支持定制模型接口,而且接口調(diào)用成功之后,其代碼終端會(huì)有顯示調(diào)用結(jié)果,其可視化界面有每個(gè)接口被調(diào)用的次數(shù)。這讓更多開(kāi)發(fā)者只需專(zhuān)注自身的開(kāi)發(fā)功能,而不用在意大模型平臺(tái)的功能。

單看這一次的更新,增添了Llama2模型與API接口,可見(jiàn)文心千帆平臺(tái)的快速更新迭代,逐漸支持更多第三方主流開(kāi)源大模型,這是一個(gè)非常值得關(guān)注的點(diǎn),為開(kāi)發(fā)者提供更多的關(guān)注和挑戰(zhàn),有助于推動(dòng)AI技術(shù)的發(fā)展和應(yīng)用。

其大模型的種類(lèi)涵蓋對(duì)話(huà)問(wèn)答、內(nèi)容創(chuàng)作、多語(yǔ)言處理、文本搜索和知識(shí)挖掘等多個(gè)領(lǐng)域,更好的為數(shù)據(jù)進(jìn)行訓(xùn)練。再者通過(guò)對(duì)這些接口的靈活應(yīng)用,開(kāi)發(fā)者可以實(shí)現(xiàn)各種AI應(yīng)用需求的落地和創(chuàng)新。

2.2 Prompt模板

之所以說(shuō)Prompt模板是文心千帆的一大亮點(diǎn),是因?yàn)樗麚碛袊?guó)內(nèi)最多最全的Prompt模板,且種類(lèi)齊全。我們都知道在自然語(yǔ)言生成(NLG)任務(wù)中,更優(yōu)質(zhì)、更準(zhǔn)確的Prompt能夠幫助模型生成更具連貫性和準(zhǔn)確性的文本。這足以證明文心千帆在這一方面花了很大的功夫。

大模型會(huì)基于prompt所提供的信息,生成對(duì)應(yīng)的文本或者圖片。

之后通過(guò)左側(cè)欄目的在線(xiàn)測(cè)試調(diào)用Prompt模板,檢驗(yàn)其是否可靠正確。

為了做一個(gè)簡(jiǎn)單的對(duì)比,將沒(méi)有Prompt模板與Prompt模板的生成內(nèi)容進(jìn)行比較,發(fā)現(xiàn)有Prompt模板生成的token數(shù)據(jù),邏輯流暢,有理有據(jù),而沒(méi)有Prompt模板的言簡(jiǎn)意賅甚至過(guò)于簡(jiǎn)易。

無(wú)Prompt模板(使用BLOOMZ-7B)示例圖

使用Prompt模板示例圖

我們深度剖析該P(yáng)rompt模板的內(nèi)容:

我希望你充當(dāng)一個(gè)電影評(píng)論家。你將編寫(xiě)一篇引人入勝和有創(chuàng)意的影評(píng)。你可以涵蓋諸如情節(jié)、主題和基調(diào)、演技和角色、方向、配樂(lè)、電影攝影、制作設(shè)計(jì)、特效、剪輯、節(jié)奏、對(duì)話(huà)等主題。但最重要的方面是強(qiáng)調(diào)電影給你的感覺(jué)。什么是真正引起你的共鳴。你也可以對(duì)電影進(jìn)行批評(píng)。請(qǐng)避免劇透。電影名稱(chēng)是{content}

證實(shí)Prompt模板均符合如下特征:

正確的語(yǔ)法、用詞以及標(biāo)點(diǎn)。

避免歧義,簡(jiǎn)潔易懂。

擁有更完整的信息。

總的來(lái)說(shuō),其Prompt模板擁有如下功能:

支持定義模板后在在線(xiàn)服務(wù)-在線(xiàn)測(cè)試器中快速使用

通過(guò)Prompt模板的云服務(wù)調(diào)用獲取模板

單看可視化界面,整體排版格局清爽,以標(biāo)簽的方式進(jìn)行搜索,也可以名稱(chēng)的方式搜索,這極大降低AI入門(mén)檻。

2.3 安全可靠

該平臺(tái)在安全方面采取多種措施,提供豐富的功能性和靈活性,對(duì)于開(kāi)發(fā)者來(lái)說(shuō)這是一個(gè)值得信賴(lài)的平臺(tái)。同時(shí),安全措施本身為客戶(hù)和開(kāi)發(fā)者提供安全可信的體驗(yàn)。

其多重保障主要通過(guò)文心一言企業(yè)級(jí)服務(wù)、百度智能云安全控制機(jī)制以及文心底層內(nèi)容安全功能。(對(duì)推理內(nèi)容進(jìn)行審核與敏感詞過(guò)濾,確保安全可信。)

完善的鑒權(quán)與流控安全機(jī)制:預(yù)防未授權(quán)的訪(fǎng)問(wèn)和防范濫用。

自帶敏感詞過(guò)濾、增強(qiáng)審核安全:過(guò)濾不當(dāng)內(nèi)容,確保內(nèi)容的質(zhì)量和安全性。

3. 一站式服務(wù)

百度文心大平臺(tái)的完整流程包括數(shù)據(jù)導(dǎo)入、數(shù)據(jù)標(biāo)注、訓(xùn)練配置、模型納管、服務(wù)發(fā)布以及在線(xiàn)測(cè)試?梢暬慕缑嬉约敖M件很好的詮釋零門(mén)檻入門(mén)AI,從零開(kāi)始構(gòu)建數(shù)據(jù)集、模型訓(xùn)練以及部署。

為了將其整套流程串通,創(chuàng)建屬于自身的數(shù)據(jù)集并進(jìn)行模型訓(xùn)練,以下步驟中融入了自身的體會(huì)。

3.1 數(shù)據(jù)管理

通過(guò)如下界面創(chuàng)建自身的數(shù)據(jù)集,針對(duì)每種數(shù)據(jù)集,可視化平臺(tái)都加上注釋?zhuān)奖愀嗔汩T(mén)檻的人員步入這個(gè)平臺(tái)。該數(shù)據(jù)集有兩種標(biāo)注類(lèi)型,分別為文本對(duì)話(huà)以及query問(wèn)題集。

注意事項(xiàng):如果當(dāng)前數(shù)據(jù)小于32條,無(wú)法啟動(dòng)訓(xùn)練,可視化界面會(huì)進(jìn)行提示,可通過(guò)數(shù)據(jù)補(bǔ)充或者數(shù)據(jù)處理。

整體一番體驗(yàn)下來(lái),無(wú)標(biāo)注的信息支持多種數(shù)據(jù)格式,平臺(tái)的設(shè)計(jì)達(dá)到人性化。

3.2 數(shù)據(jù)標(biāo)注

可視化平臺(tái)進(jìn)行在線(xiàn)標(biāo)注以及修改標(biāo)注,可以說(shuō)很人性化,無(wú)需在專(zhuān)門(mén)的格式文件修改再二次上傳,這不僅方便開(kāi)發(fā)者,也足以說(shuō)明該平臺(tái)的超級(jí)系統(tǒng)。

3.3 數(shù)據(jù)處理

數(shù)據(jù)清洗和數(shù)據(jù)增強(qiáng)是非常主要的步驟,極大影響開(kāi)發(fā)者的內(nèi)容創(chuàng)作。

我們先看平臺(tái)對(duì)于這兩功能的可視化界面:

數(shù)據(jù)清洗:提升內(nèi)容質(zhì)量,降低噪音干擾,增強(qiáng)數(shù)據(jù)的適應(yīng)性,也提高模型的泛化性。

數(shù)據(jù)增強(qiáng):對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,提高模型的泛化能力。

總的來(lái)說(shuō),平臺(tái)對(duì)內(nèi)容創(chuàng)作的數(shù)據(jù)處理考慮很周全。后續(xù)開(kāi)發(fā)者也可反饋需要處理的選項(xiàng),這也是開(kāi)發(fā)者與平臺(tái)的雙向增益。

3.4 數(shù)據(jù)訓(xùn)練

文心千帆為開(kāi)發(fā)者提供了強(qiáng)大的工具和資源,合理利用平臺(tái)的資源可以充分發(fā)揮該模型以及數(shù)據(jù)的優(yōu)勢(shì),為自身的創(chuàng)作內(nèi)容帶來(lái)極大的助力。單看其可視化界面可以看到選項(xiàng)以及功能都非常豐富。

發(fā)布成功數(shù)據(jù)之后,通過(guò)平臺(tái)提供的預(yù)訓(xùn)練大模型進(jìn)行配置參數(shù)。創(chuàng)建任務(wù)并調(diào)整訓(xùn)練配置,其中各個(gè)參數(shù)都在可視化的界面中進(jìn)行注釋?zhuān)@極大降低AI開(kāi)發(fā)門(mén)檻。

我們都知道模型的訓(xùn)練,訓(xùn)練集和測(cè)試集都有一定的比例分配。在可視化的平臺(tái)中,只需配置數(shù)據(jù)的來(lái)源以及比例,平臺(tái)即可一鍵分配。

比如如下界面,設(shè)置比例20,則表示選定數(shù)據(jù)集版本總數(shù)的80%作為訓(xùn)練集,20%作為驗(yàn)證集。

使用SFT進(jìn)行訓(xùn)練,訓(xùn)練結(jié)束之后可看到模型的評(píng)估報(bào)告以及訓(xùn)練日志。

模型調(diào)優(yōu)之后,可將模型進(jìn)行發(fā)布。

總的來(lái)說(shuō),整體界面功能組件都很齊全,完美適配大模型的訓(xùn)練、多領(lǐng)域的應(yīng)用,多語(yǔ)言的支持。作為大平臺(tái)模型訓(xùn)練,后續(xù)模型的更新迭代,極大適應(yīng)不斷變化的市場(chǎng)需求和技術(shù)發(fā)展。

3.5 模型納管

模型倉(cāng)庫(kù)中的模型評(píng)估、模型壓縮為開(kāi)發(fā)者提供了一套完整的模型管理工具,有利于優(yōu)化模型的性能和效果,并支持模型的迭代和優(yōu)化。

可以看到如下界面,每個(gè)模型都可新增版本進(jìn)行管理,其任務(wù)列表中展示了模型不同版本、各類(lèi)任務(wù)的記錄。

3.5.1 模型評(píng)估

模型評(píng)估可以幫助開(kāi)發(fā)者了解生成的大模型性能表現(xiàn),支持模型之間的對(duì)比和選擇,提高內(nèi)容創(chuàng)作和服務(wù)的質(zhì)量。(目前文心千帆僅支持對(duì)基礎(chǔ)模型為BLOOMZ-7B的模型進(jìn)行評(píng)估,后續(xù)會(huì)持續(xù)更新)。

在該平臺(tái)中,需要注意的是,模型評(píng)估的時(shí)間和數(shù)據(jù)集量是成正比的,雖然模型評(píng)估時(shí)間會(huì)隨著數(shù)據(jù)集增加而增加,但較小的數(shù)據(jù)集會(huì)導(dǎo)致模型評(píng)估報(bào)告失效,因?yàn)闊o(wú)法反映模型的真實(shí)性能。

在圖例下方還有錯(cuò)例分析,展示BLUE-4指標(biāo)較低的樣本,以便用戶(hù)針對(duì)性分析和迭代模型。

為避免對(duì)頁(yè)面性能造成影響,每個(gè)模型最多展示2000條錯(cuò)例樣本。

總的來(lái)說(shuō),模型評(píng)估的結(jié)果,可以讓開(kāi)發(fā)者更好的優(yōu)化和不斷提升自己的模型和內(nèi)容創(chuàng)作,其錯(cuò)例分析也是非常不錯(cuò)的功能,讓開(kāi)發(fā)者了解模型的不足和局限性,以此不斷改進(jìn)模型提高自身的能力。

3.5.2 模型壓縮

模型壓縮通過(guò)量化壓縮等工具提升大模型的推理速度(當(dāng)前僅支持對(duì)基礎(chǔ)模型為BLOOMZ-7B的模型進(jìn)行壓縮,后續(xù)會(huì)持續(xù)更新)。

總的來(lái)說(shuō),可以更好的應(yīng)對(duì)大規(guī)模數(shù)據(jù)和實(shí)時(shí)服務(wù)需求,通過(guò)選擇合適的源模型和壓縮策略,更好的優(yōu)化其模型。

3.6 服務(wù)發(fā)布

將訓(xùn)練完成的模型部署在百度云服務(wù)器,實(shí)現(xiàn)高效的預(yù)測(cè)服務(wù)。開(kāi)發(fā)者通過(guò)云服務(wù)器接口輕松調(diào)用模型,快速響應(yīng)用戶(hù)需求(目前僅支持私有資源池,后續(xù)會(huì)開(kāi)放公共資源池)。

對(duì)于計(jì)費(fèi)的項(xiàng)目,購(gòu)買(mǎi)時(shí)間越長(zhǎng),可以購(gòu)買(mǎi)的算力資源也就越多,意味著QPS可以申請(qǐng)的越高。

發(fā)布成功的服務(wù)之后可通過(guò)可視化界面管理,通過(guò)上線(xiàn)、下線(xiàn)以及指定版本進(jìn)行操作。甚至數(shù)據(jù)發(fā)布之后,可能個(gè)別回答不滿(mǎn)意需要調(diào)整,這時(shí)需要用到數(shù)據(jù)回流,其數(shù)據(jù)回流的循環(huán)迭代方式有助于持續(xù)改進(jìn)和優(yōu)化模型。

總的來(lái)說(shuō),可視化界面管理和數(shù)據(jù)回流為開(kāi)發(fā)者提供了強(qiáng)大的工具和方法來(lái)管理和優(yōu)化預(yù)測(cè)服務(wù)。

總結(jié)

文心千帆一站式大模型定制服務(wù)在A(yíng)I應(yīng)用領(lǐng)域中提供了豐富的功能和優(yōu)勢(shì)。這對(duì)于開(kāi)發(fā)者來(lái)說(shuō),有很大的吸引力。整體一番體驗(yàn)下來(lái),可視化界面組件分類(lèi)清晰,大部分功能都增加上注釋?zhuān)奖懔汩T(mén)檻的AI開(kāi)發(fā)者。

豐富的技術(shù)支持、完整的服務(wù)內(nèi)容和強(qiáng)大的生態(tài)建設(shè)。其提供的Prompt模板為開(kāi)發(fā)者提供了更多的靈活性和創(chuàng)作能力,助力各行各業(yè)的生成式AI應(yīng)用需求落地。作為AI開(kāi)發(fā)者來(lái)說(shuō),文心千帆這個(gè)平臺(tái)非常有吸引力,值得選擇,將開(kāi)發(fā)者與平臺(tái)與時(shí)俱進(jìn)雙向發(fā)展,極大促進(jìn)AI技術(shù)的應(yīng)用和發(fā)展。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港