當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 企業(yè)如何搭建并使用人工智能？

企業(yè)如何搭建并使用人工智能？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-16 06:26:22 瀏覽：14364次

導(dǎo)讀：AI人工智能技術(shù)的發(fā)展吸引了許多人涌入，相關(guān)技術(shù)的進(jìn)步也為企業(yè)的發(fā)展帶來了許多新的機(jī)遇。那么如果企業(yè)想搭建人工智能技術(shù)、培育模型，可以怎么操作？本篇文章里，作者對企業(yè)如何搭建并使用人工智能一事進(jìn)行了解讀，一起來看。前言人工智能無疑是繼Web3...

AI人工智能技術(shù)的發(fā)展吸引了許多人涌入，相關(guān)技術(shù)的進(jìn)步也為企業(yè)的發(fā)展帶來了許多新的機(jī)遇。那么如果企業(yè)想搭建人工智能技術(shù)、培育模型，可以怎么操作？本篇文章里，作者對企業(yè)如何搭建并使用人工智能一事進(jìn)行了解讀，一起來看。

前言

人工智能無疑是繼Web3、元宇宙之后最火的方向，吸引了大量資本的涌入。盡管許多人對于人工智能是否會(huì)取代人類感到擔(dān)憂，但是了解之后，我們會(huì)發(fā)現(xiàn)每一次科技創(chuàng)新和工業(yè)革命都會(huì)帶來新的職業(yè)機(jī)會(huì)。人工智能的出現(xiàn)雖然會(huì)取代部分重復(fù)性勞動(dòng)，但同時(shí)也會(huì)釋放更多的思考空間，提高執(zhí)行效率和思考能力。然而，它永遠(yuǎn)無法完全取代人類！

一、為什么企業(yè)需要人工智能

在企業(yè)中引入人工智能技術(shù)，可以有效提升員工內(nèi)部的運(yùn)作效率。通過自動(dòng)化流程性質(zhì)的內(nèi)容，人工智能能夠更加高效地完成任務(wù)。此外，人工智能還可以通過不斷的自我迭代，產(chǎn)生更加客觀的結(jié)論，幫助企業(yè)避免走彎路，減少在關(guān)鍵決策上的資源和精力浪費(fèi)。

除了解決人工效率問題，同時(shí)也能夠提升制造業(yè)的生產(chǎn)流程，包括節(jié)約生產(chǎn)過程中的資源，從而達(dá)到了降本增效。例如：亞馬遜正在使用 AI 來改善個(gè)性化推薦并優(yōu)化庫存管理。在亞馬遜向股東提交的年度股東信中，CEO Jeff Bezos 討論了通過其云計(jì)算部門采用 AI 快速交付產(chǎn)品，增強(qiáng)現(xiàn)有產(chǎn)品和創(chuàng)建新工具的重要性。

1. AI提升工作效率

舉一個(gè)現(xiàn)實(shí)中的例子：

在互聯(lián)網(wǎng)公司中，每周都會(huì)舉行周例會(huì)，會(huì)議的進(jìn)行中將本周的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析，以觀察是否存在異常和數(shù)據(jù)波動(dòng)。如果將這項(xiàng)工作交給AI執(zhí)行，只需一句命令，就能得出異常原因和異常數(shù)據(jù)，從而大大減少每次拉取數(shù)據(jù)的痛苦。這樣釋放出的時(shí)間和精力可以全身心地投入到解決問題上，而不是懷疑數(shù)據(jù)的真實(shí)性，或者針對數(shù)據(jù)做無休止的爭論。

在上述的例子中，我們可以觀察到AI能力的一部分，即替代重復(fù)性的勞動(dòng)力。然而，要實(shí)現(xiàn)數(shù)據(jù)分析以及針對特定行業(yè)的分析，需要數(shù)據(jù)分析師與AI進(jìn)行有效的溝通和引導(dǎo)，以得出科學(xué)且客觀的結(jié)論。因此，企業(yè)引入的AI不僅需要具備能力，還需要是一個(gè)行業(yè)專屬模型。

2. AI提升業(yè)務(wù)能力

人工智能不僅能夠解決重復(fù)性的勞動(dòng)，還能根據(jù)以往的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析，提前預(yù)測企業(yè)未來可能面臨的問題。這個(gè)過程所輸出的內(nèi)容可以幫助企業(yè)內(nèi)部員工提升能力，從而提高企業(yè)整體業(yè)務(wù)能力。這樣的結(jié)果可以幫助企業(yè)在行業(yè)內(nèi)快速成長。

人工智能在這個(gè)過程就像每個(gè)員工的專屬助理一樣，通過業(yè)務(wù)數(shù)據(jù)的分析，給出客觀的預(yù)判，根據(jù)行業(yè)的發(fā)展?fàn)顩r，結(jié)合公司內(nèi)部的數(shù)據(jù)，給出未來1到5年的規(guī)劃，AI都可以完美的駕馭。但是依然是需要企業(yè)內(nèi)部要有個(gè)專屬模型。

3. 企業(yè)需要專屬模型

我多次提到了“行業(yè)專屬模型”，而這個(gè)模型就是目前所有業(yè)內(nèi)人士最關(guān)心的內(nèi)容，有學(xué)者稱之為“大規(guī)模預(yù)訓(xùn)練模型”(large pretrained language model）。未來，大模型就是AI基礎(chǔ)通用能力，就像ChatGPT一樣，你問它的內(nèi)容基本都不屬于專屬行業(yè)的內(nèi)容，但是一旦問了，可能得出的結(jié)論并不能直解決問題，所以大模型是基礎(chǔ)，那就要在這個(gè)基礎(chǔ)上做小模型的訓(xùn)練，而小模型針對就是具體的場景，或者說具體的行業(yè)能力。

“小模型”：針對特定應(yīng)用場景需求進(jìn)行訓(xùn)練，能完成特定任務(wù)，但是換到另外一個(gè)應(yīng)用場景中可能并不適用，需要重新訓(xùn)練（我們現(xiàn)在用的大多數(shù)模型都是這樣）。這些模型訓(xùn)練基本是“手工作坊式”，并且模型訓(xùn)練需要大規(guī)模的標(biāo)注數(shù)據(jù)，如果某些應(yīng)用場景的數(shù)據(jù)量少，訓(xùn)練出的模型精度就會(huì)不理想。

“大模型”：在大規(guī)模無標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練，學(xué)習(xí)出一種特征和規(guī)則�；诖竽Ｐ瓦M(jìn)行應(yīng)用開發(fā)時(shí)，將大模型進(jìn)行微調(diào)（在下游小規(guī)模有標(biāo)注數(shù)據(jù)進(jìn)行二次訓(xùn)練）或者不進(jìn)行微調(diào)，就可以完成多個(gè)應(yīng)用場景的任務(wù)，實(shí)現(xiàn)通用的智能能力。

二、如何培育模型

首先，值得注意的是，培育大型模型并非所有企業(yè)都能夠輕松承擔(dān)的任務(wù)，因?yàn)檫@需要高門檻和強(qiáng)大的技術(shù)儲備。因此，我們需要利用已經(jīng)培育好的通用模型為基礎(chǔ)，進(jìn)行特殊場景的訓(xùn)練。

這個(gè)過程一般需要分為幾個(gè)步驟。

首先，我們需要對數(shù)據(jù)進(jìn)行清洗和預(yù)處理，以提供更高質(zhì)量的數(shù)據(jù)內(nèi)容。其次，我們需要根據(jù)訓(xùn)練場景制定訓(xùn)練模式。在訓(xùn)練過程中，Transformer（自主意力神經(jīng)網(wǎng)絡(luò)模型）、LLM（自然語言處理模型）以及prompt（提示詞）等相關(guān)內(nèi)容都是不可或缺的。最后，我們需要進(jìn)行場景化的應(yīng)用和微調(diào)，這個(gè)過程就是不斷試驗(yàn)?zāi)Ｐ洼敵龅膬?nèi)容，然后不斷地優(yōu)化模型，以達(dá)到最優(yōu)的效果，下面就展開說說部署的核心步驟。

三、數(shù)據(jù)處理

1. 數(shù)據(jù)提取

當(dāng)前，企業(yè)均擁有自己的數(shù)據(jù)庫，這些數(shù)據(jù)以數(shù)據(jù)庫的節(jié)奏存儲，半結(jié)構(gòu)/非結(jié)構(gòu)化數(shù)據(jù)并非人工智能有效識別，因此需要重新提取這些數(shù)據(jù)。提取過程需要消除無效數(shù)據(jù)，重新定義基礎(chǔ)元數(shù)據(jù)，并為有效數(shù)據(jù)重新定義標(biāo)簽。最后，關(guān)鍵的一步是對這些數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)注（Annotation），標(biāo)注后的數(shù)據(jù)可以更好地被AI理解。核心的四個(gè)步驟包括：

清洗無效數(shù)據(jù)；定義基礎(chǔ)元數(shù)據(jù)；標(biāo)記標(biāo)簽；數(shù)據(jù)標(biāo)注。

2. 數(shù)據(jù)劃分

將已提取并標(biāo)注好的數(shù)據(jù)內(nèi)容進(jìn)行組合，相當(dāng)于將關(guān)聯(lián)性較強(qiáng)的數(shù)據(jù)放置于一個(gè)集合中，通常稱之為訓(xùn)練集。當(dāng)然，也可以通過應(yīng)用場景反推數(shù)據(jù)如何合理地劃分。數(shù)據(jù)劃分是非常關(guān)鍵的一步，該過程包括訓(xùn)練集、驗(yàn)證集、測試集、分層抽樣和交叉驗(yàn)證。

數(shù)據(jù)劃分的目的是確保模型在訓(xùn)練、調(diào)優(yōu)和評估過程中具有合理的數(shù)據(jù)集，并能夠?qū)ξ匆娺^的數(shù)據(jù)進(jìn)行泛化。合理的數(shù)據(jù)劃分可以避免模型過擬合訓(xùn)練集和驗(yàn)證集，同時(shí)提供獨(dú)立的測試集來評估模型的真實(shí)性能。在選擇數(shù)據(jù)劃分比例時(shí)，需要根據(jù)具體任務(wù)、數(shù)據(jù)規(guī)模和可用數(shù)據(jù)量等因素進(jìn)行調(diào)整，并進(jìn)行交叉驗(yàn)證等方法來穩(wěn)定評估結(jié)果。

3. 特征工程

特征是指從數(shù)據(jù)集中提取出具有較強(qiáng)特點(diǎn)的內(nèi)容，具備一定預(yù)測能力的特征。以文本數(shù)據(jù)集為例，這需要運(yùn)用NLP技術(shù)，對數(shù)據(jù)集進(jìn)行分詞、去除停用詞、處理近義詞、向量化等操作，然后進(jìn)行壓縮和重組，生成新的數(shù)據(jù)處理集。通過領(lǐng)域知識和對數(shù)據(jù)的理解，可以構(gòu)建新的特征，或者通過特征之間的組合和衍生來創(chuàng)造更有意義的特征。

特征工程的目標(biāo)是使數(shù)據(jù)更適合機(jī)器學(xué)習(xí)算法的處理和建模，并提供更有表達(dá)能力和預(yù)測能力的特征。根據(jù)具體的任務(wù)、數(shù)據(jù)集和模型選擇合適的特征工程步驟和技術(shù)，以提高模型的準(zhǔn)確性和泛化能力。

四、模型訓(xùn)練

1. 模型類型

首先要明確訓(xùn)練的目標(biāo)和目的，分析后期AI的應(yīng)用場景的本質(zhì)，確定好之后，才能夠?qū)δＰ皖愋瓦M(jìn)行選擇。常見的模型類型包括線性模型（如線性回歸、邏輯回歸）、決策樹模型（如隨機(jī)森林、梯度提升樹）、神經(jīng)網(wǎng)絡(luò)模型（如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)）等。根據(jù)問題的復(fù)雜度、數(shù)據(jù)量和可用資源等因素，選擇適當(dāng)?shù)哪Ｐ皖愋汀?/p>

還有更深層次的架構(gòu)內(nèi)容：

卷積神經(jīng)網(wǎng)絡(luò)（CNN）：適用于圖像和空間數(shù)據(jù)處理，通過卷積和池化層來提取圖像的局部和全局特征。循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）：適用于序列數(shù)據(jù)處理，通過循環(huán)結(jié)構(gòu)捕捉序列中的時(shí)間依賴關(guān)系。注意力機(jī)制（Attention Mechanism）：用于關(guān)注模型關(guān)注輸入中的重要部分，可以應(yīng)用于機(jī)器翻譯、文本摘要等任務(wù)。轉(zhuǎn)移學(xué)習(xí)（Transfer Learning）：利用預(yù)訓(xùn)練模型來初始化網(wǎng)絡(luò)參數(shù)，提高模型的性能和收斂速度。融合多個(gè)模型（Ensemble Learning）：將多個(gè)模型的預(yù)測結(jié)果進(jìn)行組合，以提高整體的準(zhǔn)確性和泛化能力。

上述的內(nèi)容，并不是都要在一個(gè)場景下用到，而是根據(jù)問題的性質(zhì)、數(shù)據(jù)的特點(diǎn)、任務(wù)的要求和可用資源等因素，選擇適合的模型類型和設(shè)計(jì)合理的網(wǎng)絡(luò)架構(gòu)。

2. 硬件資源

常用的硬件包括：CPU（中央處理器）、GPU（圖形處理器）、TPU（張量處理器）、FPGA（現(xiàn)場可編程門陣列）、硬件加速平臺等。

選擇適當(dāng)?shù)挠布O(shè)備取決于許多因素，如任務(wù)的復(fù)雜性、數(shù)據(jù)集的大孝可用的資源和預(yù)算等。對于小規(guī)模的任務(wù)和數(shù)據(jù)集，使用CPU可能是足夠的。對于大規(guī)模的深度學(xué)習(xí)任務(wù)，GPU和TPU可以提供更高的性能和效率。使用云計(jì)算平臺的硬件加速服務(wù)可以靈活地?cái)U(kuò)展計(jì)算資源，并提供高性能的訓(xùn)練環(huán)境。

此外，還應(yīng)考慮硬件和軟件的兼容性、開發(fā)和調(diào)試工具的可用性，以及供應(yīng)商的支持和更新等因素。綜合考慮這些因素，選擇合適的硬件設(shè)備可以提供高效的模型訓(xùn)練和優(yōu)化，從而獲得更好的性能和結(jié)果。

3. 訓(xùn)練模型

在此階段，我們將對前述所有內(nèi)容進(jìn)行程序化處理，并在服務(wù)器上進(jìn)行自動(dòng)化訓(xùn)練。訓(xùn)練過程將通過可視化平臺進(jìn)行監(jiān)測訓(xùn)練結(jié)果。我們將使用各種參數(shù)進(jìn)行微調(diào)，并反復(fù)進(jìn)行訓(xùn)練。訓(xùn)練結(jié)束后，我們將逐一保存模型版本，并進(jìn)行測試驗(yàn)證。

跑模型的核心流程是一個(gè)迭代的過程，需要不斷調(diào)優(yōu)和改進(jìn)，以提高模型的性能和適應(yīng)性。在每個(gè)步驟中，數(shù)據(jù)的準(zhǔn)備和清洗、模型的選擇和配置、訓(xùn)練和評估、預(yù)測和應(yīng)用都是重要的環(huán)節(jié)。通過不斷的實(shí)踐和經(jīng)驗(yàn)積累，可以逐步優(yōu)化和改進(jìn)模型，以滿足具體問題和應(yīng)用的需求。

五、模型應(yīng)用

不同的應(yīng)用場景所運(yùn)用的模型都需要在服務(wù)器存儲，同時(shí)要與業(yè)務(wù)系統(tǒng)進(jìn)行打通，比如將訓(xùn)練成型的模型嵌入到企業(yè)的業(yè)務(wù)系統(tǒng)中，或者部署到SAAS、PAAS等應(yīng)用后臺中。通過應(yīng)用層的不斷使用，數(shù)據(jù)進(jìn)行再次回收，就形成了完整的閉環(huán)，而人工智能也可以在這個(gè)過程不斷的自學(xué)，加快自我提升的速度。

六、總結(jié)

人工智能已經(jīng)不再是一個(gè)概念性的產(chǎn)物，也不再是電影中所描繪的幻想。如今，它已經(jīng)廣泛應(yīng)用于各個(gè)行業(yè)領(lǐng)域。一旦模型訓(xùn)練完成，它就可以應(yīng)用于各種場景，并嵌入到各種系統(tǒng)中。

正如電影《超體》中所說：“我將無處不在！”，未來的人工智能完全可以跨越平臺，在移動(dòng)設(shè)備、智能家居、企業(yè)系統(tǒng)、應(yīng)用軟件以及各個(gè)平臺中出現(xiàn)。如果企業(yè)想要快速發(fā)展，或者行業(yè)需要快速迭代，那么人工智能將成為最核心的部分。學(xué)會(huì)如何控制人工智能也將衍生出更多的新興職業(yè)！

本文由 @金鍇原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議