當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 探尋AI大模型平臺(tái)之巔——文心千帆

探尋AI大模型平臺(tái)之巔——文心千帆
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-20 18:25:39 瀏覽：9924次

導(dǎo)讀：作者| 碼農(nóng)研究僧出品 | CSDN（ID：CSDNnews）眾多AI大模型不斷涌現(xiàn)，一時(shí)不知如何挑選，畏懼嘗試又期盼適配自身產(chǎn)品。算法、算力、數(shù)據(jù)等參數(shù)常用于評(píng)判的標(biāo)準(zhǔn)。放眼大部分產(chǎn)品，平臺(tái)所具備的算力、服務(wù)企業(yè)的能力以及技術(shù)的豐富度，文心千帆即為首選，...

作者| 碼農(nóng)研究僧

出品 | CSDN（ID：CSDNnews）

眾多AI大模型不斷涌現(xiàn)，一時(shí)不知如何挑選，畏懼嘗試又期盼適配自身產(chǎn)品。

算法、算力、數(shù)據(jù)等參數(shù)常用于評(píng)判的標(biāo)準(zhǔn)。放眼大部分產(chǎn)品，平臺(tái)所具備的算力、服務(wù)企業(yè)的能力以及技術(shù)的豐富度，文心千帆即為首選，有著文心一言的優(yōu)質(zhì)大模型以及主流的第三方開(kāi)源大模型（預(yù)測(cè)服務(wù)、Prompt工程），龐大的客戶(hù)量，運(yùn)維已久的數(shù)據(jù)量。

技術(shù)豐富、一站式服務(wù)、生態(tài)化建設(shè)等成就文心千帆的可視化AI平臺(tái)，每一次的更新迭代可以說(shuō)都帶來(lái)諸多亮點(diǎn)，這一次帶來(lái)了兩大亮點(diǎn)：

第三方大模型：支持更多主流的開(kāi)源大模型，目前達(dá)到33個(gè)（此次迭代新增Llama2模型，后續(xù)融入更多開(kāi)源大模型）。

prompt模板庫(kù)：幫助開(kāi)發(fā)者更好的調(diào)用，稱(chēng)得上國(guó)內(nèi)最多最全的模板庫(kù)。

通過(guò)文心千帆服務(wù)體驗(yàn)申請(qǐng)的官網(wǎng)地址申請(qǐng)公測(cè)權(quán)限，填寫(xiě)基本信息之后，工作人員會(huì)在三小時(shí)內(nèi)進(jìn)行審核。

1. 何為文心千帆

文心千帆大模型平臺(tái)是面向企業(yè)開(kāi)發(fā)者的一站式大模型開(kāi)發(fā)及服務(wù)運(yùn)行平臺(tái)。數(shù)據(jù)管理、自動(dòng)化模型SFT以及推理服務(wù)云端部署一站式大模型定制服務(wù)，助力各行業(yè)的生成式AI應(yīng)用需求落地。

該平臺(tái)的功能和生態(tài)非常豐富，涵蓋了數(shù)據(jù)管理、模型訓(xùn)練、模型評(píng)估等多個(gè)方面，這為開(kāi)發(fā)者提供了強(qiáng)大的工具和資源，讓更多開(kāi)發(fā)者可以輕松應(yīng)用大模型技術(shù)，專(zhuān)注自身開(kāi)發(fā)的能力。

結(jié)合自身經(jīng)驗(yàn)之談，談?wù)勎覍?duì)文心千帆整體功能的理解：

數(shù)據(jù)管理：一站式服務(wù)，以可視化界面進(jìn)行展示，讓開(kāi)發(fā)者更好的理解其魅力。

模型訓(xùn)練：訓(xùn)練自身的應(yīng)用場(chǎng)景模型，并根據(jù)自身需求和數(shù)據(jù)特定進(jìn)行優(yōu)化。

模型評(píng)估：模型評(píng)估可讓開(kāi)發(fā)者選擇合適的模型，模型壓縮可讓成本和效率都達(dá)到優(yōu)化。

第三方大模型：為開(kāi)發(fā)者提供更多模型選擇，根據(jù)自身需求構(gòu)建個(gè)性化應(yīng)用，極大方便開(kāi)發(fā)者的創(chuàng)作需求。

諸多底層技術(shù)的支撐，讓訓(xùn)練與推理性能大幅提升，千億模型分布式并行訓(xùn)練加速能力和算力利用率大幅提升，加快快速應(yīng)用編排，逐漸變成一個(gè)超級(jí)系統(tǒng)。

面向不同的企業(yè)需求，文心千帆提供不同的功能服務(wù)，通過(guò)文心一言企業(yè)級(jí)推理云服務(wù)，并進(jìn)行業(yè)務(wù)集成。其平臺(tái)適用于對(duì)話(huà)溝通、內(nèi)容創(chuàng)作、分析控制等業(yè)務(wù)場(chǎng)景，特別是工業(yè)級(jí)別的場(chǎng)景中，本身百度擁有幾十年的搜索引擎，在數(shù)據(jù)層面的提煉已經(jīng)精湛高超。

選擇的服務(wù)不同，AI回復(fù)的示例會(huì)有所差距，快來(lái)體驗(yàn)下吧�。�！

場(chǎng)景應(yīng)用與示例（BLOOMZ-7B）

對(duì)話(huà)溝通

內(nèi)容創(chuàng)作

分析控制

2. 核心亮點(diǎn)

這一次的更新迭代，可以看到文心千帆的界面增加了一些組件，特別是第三方大模型、Prompt工程。整體一番體驗(yàn)下來(lái)，感觸非常深，畢竟有大廠(chǎng)先邁出先例，這是為開(kāi)發(fā)者謀福利。

第三方大模型有多種模型種類(lèi)，且提供多種API接口，涵蓋廣泛的功能和應(yīng)用場(chǎng)景，為開(kāi)發(fā)者提供豐富的選擇和靈活性，目前已達(dá)到33個(gè)。

Prompt模板是目前國(guó)內(nèi)最全的模板，擁有103個(gè)，覆蓋了大部分的場(chǎng)景，這極大降低大模型的門(mén)檻。

2.1 第三方大模型

文心千帆提供了一定的大模型種類(lèi)，涵蓋了多種功能和應(yīng)用場(chǎng)景，針對(duì)不同的需求，可以選擇相應(yīng)的API接口來(lái)滿(mǎn)足任務(wù)的要求。每種接口在可視化的平臺(tái)都有相應(yīng)的注釋說(shuō)明，極大降低開(kāi)發(fā)者門(mén)檻。

結(jié)合自身的經(jīng)驗(yàn)，給出主流的API接口應(yīng)用場(chǎng)景：

ERNIE-Bot和ERNIE-Bot-turbo：覆蓋海量中文數(shù)據(jù)，具有更強(qiáng)的對(duì)話(huà)問(wèn)答、內(nèi)容創(chuàng)作生成等能力。ERNIE-Bot-turbo有更高的響應(yīng)速度，可應(yīng)用在實(shí)時(shí)性比較高的應(yīng)用場(chǎng)景。

BLOOMZ-7B：支持多語(yǔ)言，廣泛應(yīng)用于跨語(yǔ)言的文本處理任務(wù)。

Embedding-V1：適用于文本搜索、信息推薦、知識(shí)挖掘等場(chǎng)景。

Prompt：模板包含多種任務(wù)和應(yīng)用場(chǎng)景，對(duì)于開(kāi)發(fā)者來(lái)說(shuō)可以獲得有價(jià)值的資源（文心千帆的一大亮點(diǎn)！）。

Llama2：適用于編碼、推理應(yīng)用場(chǎng)景，目前也延伸出比較多的版本（Llama-2-7b-chat為高性能版本，Llama-2-13b-chat為性能與效果均衡版本，Llama-2-70b-chat為高精度效果版本）。

為了測(cè)試其接口的有效性，服務(wù)是否鑒權(quán)。簡(jiǎn)單做了一個(gè)小測(cè)試，在左側(cè)欄目創(chuàng)建應(yīng)用之后，通過(guò)API接口進(jìn)行調(diào)用，獲取對(duì)應(yīng)的access_token。調(diào)用接口的示例代碼，平臺(tái)也為開(kāi)發(fā)者一鍵提供示例：示例代碼。

平臺(tái)的擴(kuò)展性極強(qiáng)，不僅支持定制模型接口，而且接口調(diào)用成功之后，其代碼終端會(huì)有顯示調(diào)用結(jié)果，其可視化界面有每個(gè)接口被調(diào)用的次數(shù)。這讓更多開(kāi)發(fā)者只需專(zhuān)注自身的開(kāi)發(fā)功能，而不用在意大模型平臺(tái)的功能。

單看這一次的更新，增添了Llama2模型與API接口，可見(jiàn)文心千帆平臺(tái)的快速更新迭代，逐漸支持更多第三方主流開(kāi)源大模型，這是一個(gè)非常值得關(guān)注的點(diǎn)，為開(kāi)發(fā)者提供更多的關(guān)注和挑戰(zhàn)，有助于推動(dòng)AI技術(shù)的發(fā)展和應(yīng)用。

其大模型的種類(lèi)涵蓋對(duì)話(huà)問(wèn)答、內(nèi)容創(chuàng)作、多語(yǔ)言處理、文本搜索和知識(shí)挖掘等多個(gè)領(lǐng)域，更好的為數(shù)據(jù)進(jìn)行訓(xùn)練。再者通過(guò)對(duì)這些接口的靈活應(yīng)用，開(kāi)發(fā)者可以實(shí)現(xiàn)各種AI應(yīng)用需求的落地和創(chuàng)新。

2.2 Prompt模板

之所以說(shuō)Prompt模板是文心千帆的一大亮點(diǎn)，是因?yàn)樗麚碛袊?guó)內(nèi)最多最全的Prompt模板，且種類(lèi)齊全。我們都知道在自然語(yǔ)言生成（NLG）任務(wù)中，更優(yōu)質(zhì)、更準(zhǔn)確的Prompt能夠幫助模型生成更具連貫性和準(zhǔn)確性的文本。這足以證明文心千帆在這一方面花了很大的功夫。

大模型會(huì)基于prompt所提供的信息，生成對(duì)應(yīng)的文本或者圖片。

之后通過(guò)左側(cè)欄目的在線(xiàn)測(cè)試調(diào)用Prompt模板，檢驗(yàn)其是否可靠正確。

為了做一個(gè)簡(jiǎn)單的對(duì)比，將沒(méi)有Prompt模板與Prompt模板的生成內(nèi)容進(jìn)行比較，發(fā)現(xiàn)有Prompt模板生成的token數(shù)據(jù)，邏輯流暢，有理有據(jù)，而沒(méi)有Prompt模板的言簡(jiǎn)意賅甚至過(guò)于簡(jiǎn)易。

無(wú)Prompt模板（使用BLOOMZ-7B）示例圖

使用Prompt模板示例圖

我們深度剖析該P(yáng)rompt模板的內(nèi)容：

我希望你充當(dāng)一個(gè)電影評(píng)論家。你將編寫(xiě)一篇引人入勝和有創(chuàng)意的影評(píng)。你可以涵蓋諸如情節(jié)、主題和基調(diào)、演技和角色、方向、配樂(lè)、電影攝影、制作設(shè)計(jì)、特效、剪輯、節(jié)奏、對(duì)話(huà)等主題。但最重要的方面是強(qiáng)調(diào)電影給你的感覺(jué)。什么是真正引起你的共鳴。你也可以對(duì)電影進(jìn)行批評(píng)。請(qǐng)避免劇透。電影名稱(chēng)是{content}

證實(shí)Prompt模板均符合如下特征：

正確的語(yǔ)法、用詞以及標(biāo)點(diǎn)。

避免歧義，簡(jiǎn)潔易懂。

擁有更完整的信息。

總的來(lái)說(shuō)，其Prompt模板擁有如下功能：

支持定義模板后在在線(xiàn)服務(wù)-在線(xiàn)測(cè)試器中快速使用

通過(guò)Prompt模板的云服務(wù)調(diào)用獲取模板

單看可視化界面，整體排版格局清爽，以標(biāo)簽的方式進(jìn)行搜索，也可以名稱(chēng)的方式搜索，這極大降低AI入門(mén)檻。

2.3 安全可靠

該平臺(tái)在安全方面采取多種措施，提供豐富的功能性和靈活性，對(duì)于開(kāi)發(fā)者來(lái)說(shuō)這是一個(gè)值得信賴(lài)的平臺(tái)。同時(shí)，安全措施本身為客戶(hù)和開(kāi)發(fā)者提供安全可信的體驗(yàn)。

其多重保障主要通過(guò)文心一言企業(yè)級(jí)服務(wù)、百度智能云安全控制機(jī)制以及文心底層內(nèi)容安全功能。（對(duì)推理內(nèi)容進(jìn)行審核與敏感詞過(guò)濾，確保安全可信。）

完善的鑒權(quán)與流控安全機(jī)制：預(yù)防未授權(quán)的訪(fǎng)問(wèn)和防范濫用。

自帶敏感詞過(guò)濾、增強(qiáng)審核安全：過(guò)濾不當(dāng)內(nèi)容，確保內(nèi)容的質(zhì)量和安全性。

3. 一站式服務(wù)

百度文心大平臺(tái)的完整流程包括數(shù)據(jù)導(dǎo)入、數(shù)據(jù)標(biāo)注、訓(xùn)練配置、模型納管、服務(wù)發(fā)布以及在線(xiàn)測(cè)試�？梢暬慕缑嬉约敖M件很好的詮釋零門(mén)檻入門(mén)AI，從零開(kāi)始構(gòu)建數(shù)據(jù)集、模型訓(xùn)練以及部署。

為了將其整套流程串通，創(chuàng)建屬于自身的數(shù)據(jù)集并進(jìn)行模型訓(xùn)練，以下步驟中融入了自身的體會(huì)。

3.1 數(shù)據(jù)管理

通過(guò)如下界面創(chuàng)建自身的數(shù)據(jù)集，針對(duì)每種數(shù)據(jù)集，可視化平臺(tái)都加上注釋?zhuān)奖愀嗔汩T(mén)檻的人員步入這個(gè)平臺(tái)。該數(shù)據(jù)集有兩種標(biāo)注類(lèi)型，分別為文本對(duì)話(huà)以及query問(wèn)題集。

注意事項(xiàng)：如果當(dāng)前數(shù)據(jù)小于32條，無(wú)法啟動(dòng)訓(xùn)練，可視化界面會(huì)進(jìn)行提示，可通過(guò)數(shù)據(jù)補(bǔ)充或者數(shù)據(jù)處理。

整體一番體驗(yàn)下來(lái)，無(wú)標(biāo)注的信息支持多種數(shù)據(jù)格式，平臺(tái)的設(shè)計(jì)達(dá)到人性化。

3.2 數(shù)據(jù)標(biāo)注

可視化平臺(tái)進(jìn)行在線(xiàn)標(biāo)注以及修改標(biāo)注，可以說(shuō)很人性化，無(wú)需在專(zhuān)門(mén)的格式文件修改再二次上傳，這不僅方便開(kāi)發(fā)者，也足以說(shuō)明該平臺(tái)的超級(jí)系統(tǒng)。

3.3 數(shù)據(jù)處理

數(shù)據(jù)清洗和數(shù)據(jù)增強(qiáng)是非常主要的步驟，極大影響開(kāi)發(fā)者的內(nèi)容創(chuàng)作。

我們先看平臺(tái)對(duì)于這兩功能的可視化界面：

數(shù)據(jù)清洗：提升內(nèi)容質(zhì)量，降低噪音干擾，增強(qiáng)數(shù)據(jù)的適應(yīng)性，也提高模型的泛化性。

數(shù)據(jù)增強(qiáng)：對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充，提高模型的泛化能力。

總的來(lái)說(shuō)，平臺(tái)對(duì)內(nèi)容創(chuàng)作的數(shù)據(jù)處理考慮很周全。后續(xù)開(kāi)發(fā)者也可反饋需要處理的選項(xiàng)，這也是開(kāi)發(fā)者與平臺(tái)的雙向增益。

3.4 數(shù)據(jù)訓(xùn)練

文心千帆為開(kāi)發(fā)者提供了強(qiáng)大的工具和資源，合理利用平臺(tái)的資源可以充分發(fā)揮該模型以及數(shù)據(jù)的優(yōu)勢(shì)，為自身的創(chuàng)作內(nèi)容帶來(lái)極大的助力。單看其可視化界面可以看到選項(xiàng)以及功能都非常豐富。

發(fā)布成功數(shù)據(jù)之后，通過(guò)平臺(tái)提供的預(yù)訓(xùn)練大模型進(jìn)行配置參數(shù)。創(chuàng)建任務(wù)并調(diào)整訓(xùn)練配置，其中各個(gè)參數(shù)都在可視化的界面中進(jìn)行注釋?zhuān)@極大降低AI開(kāi)發(fā)門(mén)檻。

我們都知道模型的訓(xùn)練，訓(xùn)練集和測(cè)試集都有一定的比例分配。在可視化的平臺(tái)中，只需配置數(shù)據(jù)的來(lái)源以及比例，平臺(tái)即可一鍵分配。

比如如下界面，設(shè)置比例20，則表示選定數(shù)據(jù)集版本總數(shù)的80%作為訓(xùn)練集，20%作為驗(yàn)證集。

使用SFT進(jìn)行訓(xùn)練，訓(xùn)練結(jié)束之后可看到模型的評(píng)估報(bào)告以及訓(xùn)練日志。

模型調(diào)優(yōu)之后，可將模型進(jìn)行發(fā)布。

總的來(lái)說(shuō)，整體界面功能組件都很齊全，完美適配大模型的訓(xùn)練、多領(lǐng)域的應(yīng)用，多語(yǔ)言的支持。作為大平臺(tái)模型訓(xùn)練，后續(xù)模型的更新迭代，極大適應(yīng)不斷變化的市場(chǎng)需求和技術(shù)發(fā)展。

3.5 模型納管

模型倉(cāng)庫(kù)中的模型評(píng)估、模型壓縮為開(kāi)發(fā)者提供了一套完整的模型管理工具，有利于優(yōu)化模型的性能和效果，并支持模型的迭代和優(yōu)化。

可以看到如下界面，每個(gè)模型都可新增版本進(jìn)行管理，其任務(wù)列表中展示了模型不同版本、各類(lèi)任務(wù)的記錄。

3.5.1 模型評(píng)估

模型評(píng)估可以幫助開(kāi)發(fā)者了解生成的大模型性能表現(xiàn)，支持模型之間的對(duì)比和選擇，提高內(nèi)容創(chuàng)作和服務(wù)的質(zhì)量。（目前文心千帆僅支持對(duì)基礎(chǔ)模型為BLOOMZ-7B的模型進(jìn)行評(píng)估，后續(xù)會(huì)持續(xù)更新）。

在該平臺(tái)中，需要注意的是，模型評(píng)估的時(shí)間和數(shù)據(jù)集量是成正比的，雖然模型評(píng)估時(shí)間會(huì)隨著數(shù)據(jù)集增加而增加，但較小的數(shù)據(jù)集會(huì)導(dǎo)致模型評(píng)估報(bào)告失效，因?yàn)闊o(wú)法反映模型的真實(shí)性能。

在圖例下方還有錯(cuò)例分析，展示BLUE-4指標(biāo)較低的樣本，以便用戶(hù)針對(duì)性分析和迭代模型。

為避免對(duì)頁(yè)面性能造成影響，每個(gè)模型最多展示2000條錯(cuò)例樣本。

總的來(lái)說(shuō)，模型評(píng)估的結(jié)果，可以讓開(kāi)發(fā)者更好的優(yōu)化和不斷提升自己的模型和內(nèi)容創(chuàng)作，其錯(cuò)例分析也是非常不錯(cuò)的功能，讓開(kāi)發(fā)者了解模型的不足和局限性，以此不斷改進(jìn)模型提高自身的能力。

3.5.2 模型壓縮

模型壓縮通過(guò)量化壓縮等工具提升大模型的推理速度（當(dāng)前僅支持對(duì)基礎(chǔ)模型為BLOOMZ-7B的模型進(jìn)行壓縮，后續(xù)會(huì)持續(xù)更新）。

總的來(lái)說(shuō)，可以更好的應(yīng)對(duì)大規(guī)模數(shù)據(jù)和實(shí)時(shí)服務(wù)需求，通過(guò)選擇合適的源模型和壓縮策略，更好的優(yōu)化其模型。

3.6 服務(wù)發(fā)布

將訓(xùn)練完成的模型部署在百度云服務(wù)器，實(shí)現(xiàn)高效的預(yù)測(cè)服務(wù)。開(kāi)發(fā)者通過(guò)云服務(wù)器接口輕松調(diào)用模型，快速響應(yīng)用戶(hù)需求（目前僅支持私有資源池，后續(xù)會(huì)開(kāi)放公共資源池）。

對(duì)于計(jì)費(fèi)的項(xiàng)目，購(gòu)買(mǎi)時(shí)間越長(zhǎng)，可以購(gòu)買(mǎi)的算力資源也就越多，意味著QPS可以申請(qǐng)的越高。

發(fā)布成功的服務(wù)之后可通過(guò)可視化界面管理，通過(guò)上線(xiàn)、下線(xiàn)以及指定版本進(jìn)行操作。甚至數(shù)據(jù)發(fā)布之后，可能個(gè)別回答不滿(mǎn)意需要調(diào)整，這時(shí)需要用到數(shù)據(jù)回流，其數(shù)據(jù)回流的循環(huán)迭代方式有助于持續(xù)改進(jìn)和優(yōu)化模型。

總的來(lái)說(shuō)，可視化界面管理和數(shù)據(jù)回流為開(kāi)發(fā)者提供了強(qiáng)大的工具和方法來(lái)管理和優(yōu)化預(yù)測(cè)服務(wù)。

總結(jié)

文心千帆一站式大模型定制服務(wù)在A(yíng)I應(yīng)用領(lǐng)域中提供了豐富的功能和優(yōu)勢(shì)。這對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，有很大的吸引力。整體一番體驗(yàn)下來(lái)，可視化界面組件分類(lèi)清晰，大部分功能都增加上注釋?zhuān)奖懔汩T(mén)檻的AI開(kāi)發(fā)者。

豐富的技術(shù)支持、完整的服務(wù)內(nèi)容和強(qiáng)大的生態(tài)建設(shè)。其提供的Prompt模板為開(kāi)發(fā)者提供了更多的靈活性和創(chuàng)作能力，助力各行各業(yè)的生成式AI應(yīng)用需求落地。作為AI開(kāi)發(fā)者來(lái)說(shuō)，文心千帆這個(gè)平臺(tái)非常有吸引力，值得選擇，將開(kāi)發(fā)者與平臺(tái)與時(shí)俱進(jìn)雙向發(fā)展，極大促進(jìn)AI技術(shù)的應(yīng)用和發(fā)展。