當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > AI屆的英雄好漢“訓(xùn)練集、驗(yàn)證集、測(cè)試集”各顯神通！

AI屆的英雄好漢“訓(xùn)練集、驗(yàn)證集、測(cè)試集”各顯神通！
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-02 07:34:34 瀏覽：2145次

導(dǎo)讀：充分利用好訓(xùn)練集、驗(yàn)證集和測(cè)試集，有助于我們構(gòu)建出性能優(yōu)秀的模型，這篇文章里，作者就對(duì)三者做了介紹，并結(jié)合貓貓識(shí)別模型的模擬案例來(lái)展示訓(xùn)練集、驗(yàn)證集和測(cè)試集各自的能力，一起來(lái)看看作者的解讀與分析。各位看官：歡迎一起揭秘AI的世界。AI的運(yùn)行...

充分利用好訓(xùn)練集、驗(yàn)證集和測(cè)試集，有助于我們構(gòu)建出性能優(yōu)秀的模型，這篇文章里，作者就對(duì)三者做了介紹，并結(jié)合貓貓識(shí)別模型的模擬案例來(lái)展示訓(xùn)練集、驗(yàn)證集和測(cè)試集各自的能力，一起來(lái)看看作者的解讀與分析。

各位看官：

歡迎一起揭秘AI的世界。AI的運(yùn)行離不開(kāi)數(shù)據(jù)，若數(shù)據(jù)就是AI的“大米”，良米炊而成飯，質(zhì)地上乘。我們喂養(yǎng)給AI多好的“大米”，AI就會(huì)輸出多好的“飯”。

原本是打算僅用一篇來(lái)說(shuō)清楚AI數(shù)據(jù)集，但在持續(xù)的梳理和撰寫(xiě)過(guò)程中，發(fā)現(xiàn)字?jǐn)?shù)越碼越多，所以就決定分幾篇說(shuō)完吧。

上一篇《帶你識(shí)別AI數(shù)據(jù)集的各種面孔（AI從業(yè)萬(wàn)字干貨）》中，我主要介紹了AI數(shù)據(jù)集是什么，這些數(shù)據(jù)集的常見(jiàn)格式有哪些，分別有哪些適用場(chǎng)景和局限之處，也給大家整理了一些網(wǎng)上的公開(kāi)數(shù)據(jù)集，當(dāng)我們需要數(shù)據(jù)來(lái)做AI項(xiàng)目時(shí)，可供君參考。

本篇，我會(huì)繼續(xù)聊聊AI中的數(shù)據(jù)集。全文8000字左右，預(yù)計(jì)閱讀時(shí)間8分鐘，若是碎片時(shí)間不夠，建議先收藏后看，便于找回。

照例，開(kāi)篇提供文章結(jié)構(gòu)導(dǎo)圖，方便大家在閱讀前總攬全局，有大致的畫(huà)面框架。

Now let’s start，在人工智能和機(jī)器學(xué)習(xí)的世界里，數(shù)據(jù)訓(xùn)練是不可避免的。機(jī)器學(xué)習(xí)的核心任務(wù)就是從數(shù)據(jù)中學(xué)習(xí)和構(gòu)建模型（該過(guò)程稱之為訓(xùn)練），并且能夠在未遇見(jiàn)的數(shù)據(jù)上進(jìn)行預(yù)測(cè)。我們通過(guò)數(shù)據(jù)訓(xùn)練，期待模型能夠展現(xiàn)出優(yōu)秀的預(yù)測(cè)性能。

項(xiàng)目實(shí)踐中，我們?cè)跇?gòu)建模型的不同階段時(shí)，通常會(huì)將數(shù)據(jù)集劃分成三種：訓(xùn)練集、驗(yàn)證集和測(cè)試集。這樣劃分的目的是希望可以更好地評(píng)估模型的性能，同時(shí)也能避免數(shù)據(jù)過(guò)擬合和欠擬合的問(wèn)題。

BTW，關(guān)于數(shù)據(jù)擬合的問(wèn)題，我寫(xiě)過(guò)的一篇《（萬(wàn)字干貨）如何訓(xùn)練優(yōu)化“AI神經(jīng)網(wǎng)絡(luò)”模型？》中，有詳細(xì)介紹，本篇不贅述。

接下來(lái)，我們將重點(diǎn)圍繞訓(xùn)練集、驗(yàn)證集和測(cè)試集來(lái)展開(kāi)，進(jìn)一步揭曉AI數(shù)據(jù)集背后的故事。

一、教師角色：訓(xùn)練集（Training Set）

顧名思義，訓(xùn)練集是機(jī)器學(xué)習(xí)中用于訓(xùn)練模型的數(shù)據(jù)集合。訓(xùn)練集通常包含已標(biāo)記的樣本，即每個(gè)樣本都有對(duì)應(yīng)的輸入特征和相應(yīng)的目標(biāo)標(biāo)簽或輸出。

在訓(xùn)練模型的過(guò)程中，模型通過(guò)學(xué)習(xí)分析訓(xùn)練集中的樣本數(shù)據(jù)來(lái)調(diào)整其參數(shù)和權(quán)重，以實(shí)現(xiàn)對(duì)新樣本的準(zhǔn)確預(yù)測(cè)或分類。

簡(jiǎn)單來(lái)說(shuō)，訓(xùn)練集就像是教師，教學(xué)生知識(shí)，給學(xué)生提供教材，學(xué)生通過(guò)閱讀和理解所教授的內(nèi)容和教材來(lái)學(xué)習(xí)新的知識(shí)和技能。

所需的“知識(shí)”需具備一定的廣度，我們?cè)谶x取訓(xùn)練集時(shí)，要注意“訓(xùn)練集是否具備代表性”，“數(shù)據(jù)量大小是否足夠”，“數(shù)據(jù)質(zhì)量是否符合要求”。

1. 訓(xùn)練集中的樣本需要具有代表性

這是指被訓(xùn)練的數(shù)據(jù)需要涵蓋模型在實(shí)際應(yīng)用中可能遇到的各種情況。

如果說(shuō)，我們要構(gòu)建一個(gè)用于圖像分類的訓(xùn)練集，任務(wù)是將動(dòng)物圖像分為貓和狗兩類。為了保證訓(xùn)練集的代表性，我們需要包含各種情境下的動(dòng)物圖像，比如以下因素：

【物種多樣性】：確保訓(xùn)練集中涵蓋多種不同種類的貓和狗，而不僅僅是某一特定品種。例如，包括短毛貓和長(zhǎng)毛貓，各類狗的品種也要有廣泛覆蓋。

【背景和環(huán)境】：圖像中的背景和環(huán)境對(duì)于模型的泛化至關(guān)重要。訓(xùn)練集應(yīng)該包含不同的背景，例如室內(nèi)、室外、草地、水域等，以確保模型不僅僅是學(xué)到了特定背景下的特征。

【姿勢(shì)和動(dòng)作】：動(dòng)物在圖像中的不同姿勢(shì)和動(dòng)作也是代表性的一部分。包括站立、躺下、奔跑等動(dòng)作，以及正面、側(cè)面等不同的拍攝角度所呈現(xiàn)的圖像。

【光照條件】：不同的光照條件會(huì)影響圖像的外觀，因此訓(xùn)練集應(yīng)該包含，例如陽(yáng)光明媚、陰天、夜晚等不同光照條件下的樣本。

【年齡和大鋅：動(dòng)物的不同年齡和大小也是重要的代表性樣本。包含幼年和成年階段，以及不同體型大小的貓和狗。

所以，為了確保模型在處理真實(shí)世界圖像時(shí)能夠?qū)崿F(xiàn)更加精準(zhǔn)的分類，我們最好提供一個(gè)涵蓋各種情景的樣本數(shù)據(jù)集。

因此，在構(gòu)建訓(xùn)練集時(shí)，我們應(yīng)當(dāng)注重?cái)?shù)據(jù)的代表性，幫助模型學(xué)到更全面的特征，提高模型在實(shí)際應(yīng)用中的性能和可靠性，使其更好地適應(yīng)和處理多樣化的真實(shí)場(chǎng)景。

2. 訓(xùn)練集中的樣本數(shù)量需足夠大

除了訓(xùn)練集的代表性以外，樣本數(shù)量也是至關(guān)重要的。在實(shí)際應(yīng)用中，我們通常會(huì)發(fā)現(xiàn)，隨著訓(xùn)練集樣本數(shù)量的增加，模型的性能也會(huì)得到相應(yīng)的提高。

我們發(fā)現(xiàn)，當(dāng)訓(xùn)練集樣本數(shù)量較小時(shí)，模型更容易受到隨機(jī)變動(dòng)的影響，導(dǎo)致模型對(duì)訓(xùn)練數(shù)據(jù)過(guò)于敏感，難以捕捉真實(shí)的數(shù)據(jù)分布。相反，大規(guī)模訓(xùn)練集則有助于降低隨機(jī)性，使模型更穩(wěn)劍

假設(shè)我們想讓AI模型完成一個(gè)分類任務(wù)，比如訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別手寫(xiě)數(shù)字。

如果訓(xùn)練集只包含幾十個(gè)圖像，而且這些圖像中只有很少的數(shù)字樣本，那模型可能只能學(xué)到非常有限的特征，無(wú)法泛化到新的手寫(xiě)數(shù)字。也就是說(shuō)，因?yàn)閿?shù)據(jù)量過(guò)少，模型將無(wú)法成功完成手寫(xiě)數(shù)字的識(shí)別任務(wù)。

相反，如果我們有數(shù)萬(wàn)張包含各種手寫(xiě)數(shù)字的圖像，模型將有更多機(jī)會(huì)學(xué)到數(shù)字的共同特征，從而提高其在未見(jiàn)過(guò)的數(shù)據(jù)上的表現(xiàn)。這時(shí)候，給它一個(gè)新的手寫(xiě)數(shù)字圖片，它就可以成功識(shí)別了。

3. 訓(xùn)練集中的數(shù)據(jù)質(zhì)量是關(guān)鍵

高質(zhì)量的訓(xùn)練數(shù)據(jù)能幫助模型更準(zhǔn)確地把握數(shù)據(jù)的真實(shí)分布，從而提升模型在處理未知數(shù)據(jù)時(shí)的表現(xiàn)。

訓(xùn)練集中的質(zhì)量關(guān)注點(diǎn)會(huì)落在標(biāo)簽的準(zhǔn)確性，圖像質(zhì)量，數(shù)據(jù)異常值或噪聲，數(shù)據(jù)采樣偏差，數(shù)據(jù)來(lái)源一致性等方面。

如果標(biāo)簽有誤，模型將學(xué)到錯(cuò)誤的關(guān)系，影響其泛化能力。

假設(shè)需要AI模型完成一個(gè)醫(yī)學(xué)圖像識(shí)別的任務(wù)，如果圖像標(biāo)簽錯(cuò)誤地標(biāo)注了病變類型，模型可能會(huì)對(duì)患者的健康狀況做出錯(cuò)誤的預(yù)測(cè)。

如果訓(xùn)練集包含錯(cuò)誤的數(shù)據(jù)，模型可能會(huì)學(xué)到不準(zhǔn)確的模式。

例如，在圖像分類任務(wù)中，如果識(shí)別貓狗的圖像中，出現(xiàn)了其他動(dòng)物的圖片，模型就會(huì)因訓(xùn)練不到位，產(chǎn)生不準(zhǔn)確的分類結(jié)果。

不只是錯(cuò)誤數(shù)據(jù)，低質(zhì)量的數(shù)據(jù)也不行。

如果識(shí)別貓狗的圖像訓(xùn)練集中，大都是模糊的，分辨率低的，光線暗的，邊緣不清晰的圖片。那么最后模型的預(yù)測(cè)性能也不會(huì)好到哪里去。

還有哦，數(shù)據(jù)集中的采樣偏差也可能導(dǎo)致模型在某些類別上表現(xiàn)較差。

如果訓(xùn)練集中某個(gè)類別的樣本數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)其他類別，模型可能會(huì)偏向于學(xué)習(xí)這個(gè)類別，而對(duì)其他類別的分類效果較差。

在金融欺詐檢測(cè)中，如果正常交易的數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)欺詐交易，模型可能更難捕捉欺詐交易的模式。

最后一點(diǎn)，如果訓(xùn)練集包含來(lái)自不同來(lái)源的數(shù)據(jù)，數(shù)據(jù)之間的不一致性可能導(dǎo)致模型性能下降。

例如，在自動(dòng)駕駛領(lǐng)域，如果訓(xùn)練數(shù)據(jù)來(lái)自于不同城市或天氣條件下的駕駛場(chǎng)景，模型可能在特定城市場(chǎng)景下的泛化能力較差。

4. 訓(xùn)練集模擬案例-貓貓識(shí)別模型

說(shuō)了這么多，我們不妨來(lái)一個(gè)模擬案例-貓貓識(shí)別模型

此刻，我們腦暴一下，如果我們要訓(xùn)練一個(gè)識(shí)別貓的圖像分類模型，我們?cè)撊绾螠?zhǔn)備訓(xùn)練集數(shù)據(jù)呢？

首先，圖片的數(shù)量不能少。我們至少要準(zhǔn)備上萬(wàn)張圖片，確保模型可以更全面地學(xué)習(xí)到貓的特征差異。

同時(shí)，我們?cè)谑占瘓D片時(shí)，還需要注重圖片的代表性。也就是說(shuō)訓(xùn)練集應(yīng)該包含各種各樣的貓的圖片。

這意味著我們不僅需要收集不同品種、年齡和顏色的貓的圖片，還要收集正面、側(cè)面、背面以及俯視和仰視角度的貓的圖片。

此外，我們還需要收集在不同光照條件下拍攝的貓的圖片，如自然光、室內(nèi)燈光和夜晚等。同時(shí)，還應(yīng)該收集各種背景環(huán)境的貓的圖片，如草地、沙灘、街道等。

有了一定數(shù)量和代表性的圖片后，在質(zhì)量方面也不能忽視。因此，在收集圖片時(shí)，我們需要確保訓(xùn)練集中的每一張圖片都是高清的、無(wú)模糊或失真的，并且盡量避免使用過(guò)度處理或有濾鏡效果的圖片。

在圖片中，貓的毛發(fā)、眼睛、耳朵等特征都是模型學(xué)習(xí)的重要依據(jù)，而高清圖片能夠?yàn)槟Ｐ吞峁└S富的細(xì)節(jié)信息。

如果圖片質(zhì)量較差，這些特征可能會(huì)被模糊或者丟失，導(dǎo)致模型無(wú)法準(zhǔn)確識(shí)別。因此，在收集訓(xùn)練數(shù)據(jù)時(shí)，我們應(yīng)盡量選擇分辨率較高的圖片，以便模型能夠捕捉到更多的細(xì)節(jié)。

還有一點(diǎn)，我們可以在收集訓(xùn)練數(shù)據(jù)時(shí)，要盡量拿到無(wú)噪聲的圖片。因?yàn)闊o(wú)噪聲的圖片有助于提高模型的學(xué)習(xí)效率。

在實(shí)際場(chǎng)景中，拍攝環(huán)境可能受到光線、設(shè)備等因素的影響，導(dǎo)致圖片存在一定的噪聲。這些噪聲會(huì)對(duì)模型的學(xué)習(xí)產(chǎn)生干擾，降低訓(xùn)練效果。

為了解決這個(gè)問(wèn)題，要盡量選擇光線充足、設(shè)備穩(wěn)定的環(huán)境進(jìn)行拍攝，或者通過(guò)后期處理技術(shù)去除圖片中的噪聲。

此外，我們還需要關(guān)注圖片的色彩平衡和對(duì)比度。色彩平衡是指圖片中各種顏色的分布是否均勻，對(duì)比度是指圖片中明暗區(qū)域的對(duì)比程度。

一個(gè)具有良好色彩平衡和對(duì)比度的圖片，能夠更準(zhǔn)確地反映貓的顏色和紋理信息，有助于模型進(jìn)行準(zhǔn)確的識(shí)別。因此，在進(jìn)行圖片收集時(shí)，我們應(yīng)盡量選擇色彩平衡且對(duì)比度適中的圖片，以提高模型的學(xué)習(xí)效果。

還有非常關(guān)鍵的一環(huán)，當(dāng)我們準(zhǔn)備好了合適的圖庫(kù)后，我們需要關(guān)注每張圖像是否添加了正確的標(biāo)簽。正確的標(biāo)簽會(huì)告訴模型，圖像中是否真的包含貓。這是模型能正確訓(xùn)練的前提。

最后，我們將圖片庫(kù)數(shù)據(jù)進(jìn)行劃分，通常會(huì)劃分出60%～80%左右的數(shù)量比例用于訓(xùn)練集中。剩下的劃分到驗(yàn)證集和測(cè)試集中。

是不是覺(jué)得，機(jī)器識(shí)別圖片和我們?nèi)祟愖R(shí)別圖片，有很大的差異呢？連準(zhǔn)備訓(xùn)練數(shù)據(jù)都有那么多注意事項(xiàng)，這和我們隨便拿一張有貓的圖片教小孩識(shí)別圖中的貓，還是很不一樣的。

二、輔導(dǎo)員角色：驗(yàn)證集（Validation Set）

在機(jī)器學(xué)習(xí)中，訓(xùn)練集是用來(lái)訓(xùn)練模型的數(shù)據(jù)，而驗(yàn)證集通常是從原始數(shù)據(jù)集中劃分出來(lái)的一個(gè)子集，用于在訓(xùn)練過(guò)程中檢查模型的性能，是在過(guò)擬合或欠擬合的情況下對(duì)模型進(jìn)行評(píng)估和調(diào)整的數(shù)據(jù)。

驗(yàn)證集的主要目的是為了找到一個(gè)最佳的模型及參數(shù)，使得模型在未知數(shù)據(jù)上的表現(xiàn)最好。

之前提到，訓(xùn)練集一般會(huì)占用60%或80%的比例，對(duì)應(yīng)的驗(yàn)證集則一般會(huì)占用20%或10%的比例。劃分比例的依據(jù)可以根據(jù)實(shí)際需求和數(shù)據(jù)集的大小來(lái)確定。

通常情況下，我們可以使用隨機(jī)抽樣的方法從原始數(shù)據(jù)集中劃分驗(yàn)證集。

驗(yàn)證集在整個(gè)模型訓(xùn)練的過(guò)程中起著關(guān)鍵的作用，我們從幾個(gè)方面出發(fā)，聊聊其重要性。

1. 調(diào)整模型的超參數(shù)

在機(jī)器學(xué)習(xí)模型中，有許多超參數(shù)需要我們參與設(shè)置，例如學(xué)習(xí)率、隱藏層神經(jīng)元數(shù)量等。這些超參數(shù)的選擇對(duì)模型的性能有很大影響。

為了找到最優(yōu)的超參數(shù)組合，我們可以將訓(xùn)練過(guò)程分為多個(gè)階段，每個(gè)階段使用不同的超參數(shù)組合進(jìn)行訓(xùn)練。然后，我們可以使用驗(yàn)證集來(lái)評(píng)估每個(gè)階段模型的性能，從而選擇出最優(yōu)的超參數(shù)組合。

BTW，補(bǔ)充一個(gè)知識(shí)點(diǎn)，關(guān)于模型參數(shù)和模型超參數(shù)，是怎么回事。

在機(jī)器學(xué)習(xí)中，模型參數(shù)是模型內(nèi)部的配置變量，它們是在建模過(guò)程中通過(guò)數(shù)據(jù)自動(dòng)學(xué)習(xí)得到的。例如，在線性回歸或邏輯回歸模型中，這些參數(shù)對(duì)應(yīng)于方程中的系數(shù)；在支持向量機(jī)中，它們是支持向量；在神經(jīng)網(wǎng)絡(luò)中，則是連接不同層之間的權(quán)重。這些參數(shù)的學(xué)習(xí)是模型訓(xùn)練的核心，旨在捕捉數(shù)據(jù)中的模式和關(guān)系。

相對(duì)地，模型超參數(shù)是模型外部的配置變量，它們不是從數(shù)據(jù)中學(xué)習(xí)得到的，而是由研究人員或數(shù)據(jù)科學(xué)家根據(jù)先驗(yàn)知識(shí)和經(jīng)驗(yàn)預(yù)先設(shè)定的。超參數(shù)包括學(xué)習(xí)率、迭代次數(shù)、網(wǎng)絡(luò)層數(shù)、隱藏單元的數(shù)量等，它們對(duì)模型的性能和訓(xùn)練過(guò)程有顯著影響。正確的超參數(shù)選擇對(duì)于獲得高效的模型至關(guān)重要，通常需要通過(guò)實(shí)驗(yàn)和調(diào)優(yōu)來(lái)確定最佳值。

2. 早停策略

在訓(xùn)練過(guò)程中，如果我們發(fā)現(xiàn)模型在驗(yàn)證集上的性能不再提高時(shí)，可以提前停止訓(xùn)練。

具體來(lái)說(shuō)，我們可以設(shè)置一個(gè)小的閾值，當(dāng)模型在連續(xù)多個(gè)迭代周期內(nèi)，驗(yàn)證集上的誤差沒(méi)有降低到這個(gè)閾值以下時(shí)，我們就認(rèn)為模型已經(jīng)收斂，可以停止訓(xùn)練。

這樣既可以節(jié)省訓(xùn)練時(shí)間，也可以降低不必要的成本。

3. 防止過(guò)擬合

過(guò)擬合是機(jī)器學(xué)習(xí)中的一個(gè)常見(jiàn)問(wèn)題，指的是模型在訓(xùn)練集上表現(xiàn)很好，但在測(cè)試集上表現(xiàn)較差的現(xiàn)象。這是因?yàn)槟Ｐ瓦^(guò)于復(fù)雜，學(xué)習(xí)到了訓(xùn)練集中的一些噪聲和異常數(shù)據(jù)。

為了解決這個(gè)問(wèn)題，我們可以使用驗(yàn)證集來(lái)監(jiān)控模型在訓(xùn)練過(guò)程中的性能。

如果發(fā)現(xiàn)模型在訓(xùn)練集上的表現(xiàn)越來(lái)越好，但在驗(yàn)證集上的表現(xiàn)越來(lái)越差，那么我們可以考慮減少模型的復(fù)雜度或者增加正則化項(xiàng)，以防止過(guò)擬合的發(fā)生。

4. 對(duì)比不同模型結(jié)構(gòu)

我們可以通過(guò)對(duì)比不同模型結(jié)構(gòu)在驗(yàn)證集上的性能，選擇最適合任務(wù)的模型結(jié)構(gòu)。

這有助于避免選擇過(guò)于簡(jiǎn)單或過(guò)于復(fù)雜的模型，從而提高模型的實(shí)際效果。

比如，比較卷積神經(jīng)網(wǎng)絡(luò)(CNN) 和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) 在情感分析任務(wù)上的性能。通過(guò)觀察它們的表現(xiàn)，選擇更適合處理文本數(shù)據(jù)的模型結(jié)構(gòu)。

5. 驗(yàn)證集模擬案例-貓貓識(shí)別模型

了解了驗(yàn)證集后，我們趁熱打鐵，繼續(xù)貓貓識(shí)別模型的模擬案例。

為了有效完成貓的圖像識(shí)別任務(wù)，我們假設(shè)已經(jīng)選擇好了一個(gè)合適的圖像分類模型：卷積神經(jīng)網(wǎng)絡(luò)（CNN）。

在訓(xùn)練CNN模型時(shí)，我們需要設(shè)置一些超參數(shù)，如學(xué)習(xí)率、批次大孝迭代次數(shù)等。

一般來(lái)說(shuō)，我們可以先設(shè)置一個(gè)較大的學(xué)習(xí)率，然后逐漸減小，以加快收斂速度。

批次大小和迭代次數(shù)的選擇則需要根據(jù)具體任務(wù)和計(jì)算資源來(lái)確定。

在模型的訓(xùn)練過(guò)程中，我們需要周期性地使用驗(yàn)證集來(lái)評(píng)估模型在未見(jiàn)過(guò)的數(shù)據(jù)上的表現(xiàn)。這有助于檢測(cè)模型是否過(guò)擬合訓(xùn)練，泛化能力如何等等。

評(píng)估性能時(shí)，我們會(huì)用到一些數(shù)據(jù)指標(biāo)。最常用的指標(biāo)是準(zhǔn)確率（accuracy），即正確分類的樣本數(shù)占總樣本數(shù)的比例。

此外，我們還可以使用其他指標(biāo)，如精確率（precision）、召回率（recall）和F1分?jǐn)?shù)（F1-score）等，以便更全面地了解模型的性能。這些指標(biāo)可以反映CNN模型對(duì)新的貓圖片數(shù)據(jù)的分類能力。

BTW，關(guān)于這些指標(biāo)的詳細(xì)解釋，我在本篇《產(chǎn)品經(jīng)理的獨(dú)門(mén)技能AI監(jiān)督學(xué)習(xí)（6000字干貨）》中有進(jìn)一步的介紹，感興趣的朋友也可以去看看。

通過(guò)驗(yàn)證集的指標(biāo)反饋，我們會(huì)觀測(cè)到一些問(wèn)題。

如果模型在某一類別上的準(zhǔn)確率較低，可能說(shuō)明該類別的訓(xùn)練樣本較少或者特征不夠明顯。

針對(duì)這種情況，我們可以嘗試增加該類別的訓(xùn)練樣本或者調(diào)整模型結(jié)構(gòu)。

此外，我們還需要注意數(shù)據(jù)的過(guò)擬合現(xiàn)象。

如果出現(xiàn)過(guò)擬合問(wèn)題，我們可以采用增加數(shù)據(jù)量、簡(jiǎn)化模型、正則化技術(shù)等方法來(lái)解決。

最后，我們還需要關(guān)注驗(yàn)證集的損失函數(shù)（loss function）。損失函數(shù)用于衡量模型預(yù)測(cè)結(jié)果與真實(shí)結(jié)果之間的差距。

損失函數(shù)的值越小，越意味著模型的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果更接近�！叮ㄈf(wàn)字干貨）如何訓(xùn)練優(yōu)化“AI神經(jīng)網(wǎng)絡(luò)”模型？》中有對(duì)損失函數(shù)的展開(kāi)介紹。

總體而言，驗(yàn)證集的使用是一個(gè)迭代的調(diào)優(yōu)過(guò)程，它會(huì)輔助我們觀測(cè)和調(diào)整CNN模型，以確保模型能夠有效學(xué)習(xí)和區(qū)分貓的特征，提高CNN模型在實(shí)際應(yīng)用中識(shí)別貓圖像的準(zhǔn)確性和可靠性。

至此，我們可以說(shuō)，算是完成了CNN模型在驗(yàn)證集上的訓(xùn)練調(diào)優(yōu)。

溫馨提示，在使用驗(yàn)證集時(shí)，我們還需要注意一些問(wèn)題。

首先，我們不能在驗(yàn)證集上進(jìn)行多次迭代，否則驗(yàn)證集就變成了一個(gè)“小訓(xùn)練集”。就可能會(huì)導(dǎo)致信息泄露，使得模型過(guò)分適應(yīng)驗(yàn)證集的數(shù)據(jù)分布，從而失去了泛化能力。

還需注意的是，為了避免信息泄露。驗(yàn)證集中的數(shù)據(jù)應(yīng)該是模型在訓(xùn)練過(guò)程中沒(méi)有見(jiàn)過(guò)的，以真實(shí)地模擬模型在實(shí)際應(yīng)用中的性能。

三、考官角色：測(cè)試集（Test Set）

現(xiàn)在，我們已經(jīng)知道了驗(yàn)證集主要用于在訓(xùn)練過(guò)程中對(duì)模型進(jìn)行評(píng)估和調(diào)整。

那它能保證模型在未來(lái)的未知數(shù)據(jù)上具有良好的性能嗎？

為了找到這個(gè)答案，我們?cè)隍?yàn)證集訓(xùn)練完成后，還需要進(jìn)行測(cè)試，以進(jìn)一步評(píng)估模型的泛化能力。

這時(shí)候，測(cè)試集就要閃亮登場(chǎng)了。

它扮演著模型性能的“考官”角色，它的考核結(jié)果將幫助我們衡量模型是否真正學(xué)會(huì)了我們需要它學(xué)習(xí)的知識(shí)。

測(cè)試集也是從原始數(shù)據(jù)集中分離出來(lái)的一部分?jǐn)?shù)據(jù)，但它不參與模型的訓(xùn)練過(guò)程。它是一個(gè)獨(dú)立的數(shù)據(jù)集，其中的數(shù)據(jù)樣例是模型在實(shí)際應(yīng)用中首次遇到的數(shù)據(jù)，之前素未謀面。

測(cè)試集在整個(gè)模型訓(xùn)練的過(guò)程中，無(wú)論是評(píng)估模型泛化能力，還是發(fā)現(xiàn)潛在問(wèn)題，又或者是幫助模型優(yōu)化和調(diào)參等方面，都起到了重要的作用。

下面我們來(lái)展開(kāi)討論一下測(cè)試集在整個(gè)數(shù)據(jù)集中起到了什么作用？

1. 評(píng)估模型的泛化能力

測(cè)試集的最大價(jià)值之一是用于評(píng)估模型的泛化能力，以衡量模型在未知數(shù)據(jù)上的表現(xiàn)。

在AI模型訓(xùn)練過(guò)程中，我們往往會(huì)在訓(xùn)練集上看到很好的表現(xiàn)。

然而，這并不意味著模型已經(jīng)真正掌握了知識(shí)，能夠在新遇到的數(shù)據(jù)上同樣表現(xiàn)優(yōu)秀。為了驗(yàn)證這一點(diǎn)，我們需要借助測(cè)試集來(lái)進(jìn)行評(píng)估。

通過(guò)測(cè)試集，我們可以得到模型在真實(shí)世界中的泛化能力，而不僅僅是在訓(xùn)練數(shù)據(jù)上的記憶能力。

我們的目標(biāo)不僅僅是讓模型在訓(xùn)練中取得高分，而是要確保它能夠靈活應(yīng)對(duì)新的挑戰(zhàn)。

2. 發(fā)現(xiàn)潛在問(wèn)題

測(cè)試集會(huì)幫助我們發(fā)現(xiàn)模型的潛在問(wèn)題，比如，發(fā)現(xiàn)模型不穩(wěn)定。

正常來(lái)說(shuō)，在不同時(shí)間或不同環(huán)境下，模型在測(cè)試集上的性能應(yīng)該保持相對(duì)一致。

又或者，發(fā)現(xiàn)數(shù)據(jù)質(zhì)量不一致性的問(wèn)題，測(cè)試集中出現(xiàn)了與訓(xùn)練集不同的數(shù)據(jù)分布或標(biāo)簽分布。

測(cè)試集還可以用于評(píng)估模型對(duì)于異常情況的處理能力。

在真實(shí)場(chǎng)景中，模型可能會(huì)面對(duì)不同于訓(xùn)練數(shù)據(jù)的情形，如噪聲、異常值或極端情況。

測(cè)試集的設(shè)計(jì)可以包含這些異常情況，幫助評(píng)估模型的魯棒性和處理能力。

一個(gè)魯棒性強(qiáng)的模型能夠在各種條件下都能穩(wěn)定地工作，而不會(huì)因?yàn)槟承┬〉淖兓蛘咴肼暥鴮?dǎo)致性能大幅下降。

例如，一個(gè)用于自動(dòng)駕駛汽車的圖像識(shí)別模型，即使在雨天、霧天或者光照不足的情況下，也能夠準(zhǔn)確地識(shí)別出物體，我們就可以說(shuō)這個(gè)模型的魯棒性很強(qiáng)。

因此，通過(guò)測(cè)試集，我們能發(fā)現(xiàn)模型的潛在問(wèn)題和缺陷，也有助于我們及時(shí)對(duì)模型進(jìn)行調(diào)整和改進(jìn)。

3. 模型調(diào)優(yōu)

測(cè)試集的結(jié)果為我們提供了寶貴的反饋，它們是優(yōu)化模型和調(diào)整參數(shù)的客觀依據(jù)。

通過(guò)分析測(cè)試集的表現(xiàn)，我們可以確定最佳的模型結(jié)構(gòu)和參數(shù)設(shè)置。

例如，我們可以根據(jù)測(cè)試集的準(zhǔn)確率來(lái)調(diào)整神經(jīng)網(wǎng)絡(luò)的層數(shù)、每層的神經(jīng)元數(shù)量以及激活函數(shù)等關(guān)鍵參數(shù)。

如果測(cè)試結(jié)果顯示，使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）和特定參數(shù)配置時(shí)，模型的表現(xiàn)最為出色，那么我們很可能會(huì)選擇這個(gè)配置作為我們的最終模型。

這樣的選擇會(huì)更靠譜和可信。因?yàn)樗腔跍y(cè)試集上實(shí)際的數(shù)據(jù)反饋，而不是僅僅依賴于訓(xùn)練集上的性能來(lái)確定模型是否具有良好的泛化能力。

4. 防止過(guò)擬合

測(cè)試集可以幫助我們檢測(cè)模型是否過(guò)擬合。當(dāng)模型在訓(xùn)練集和驗(yàn)證集上表現(xiàn)良好，但在測(cè)試集上表現(xiàn)不佳時(shí)，這可能是一個(gè)警示信號(hào)。

打個(gè)比方，假設(shè)我們有一個(gè)信貸審批模型，它在訓(xùn)練和驗(yàn)證階段都展現(xiàn)出了很高的準(zhǔn)確率，但在測(cè)試階段準(zhǔn)確率卻明顯降低。

這種情況通常意味著模型對(duì)訓(xùn)練數(shù)據(jù)過(guò)于敏感，沒(méi)有很好地泛化到新數(shù)據(jù)上。

我們需要采取一些措施，如簡(jiǎn)化模型結(jié)構(gòu)或引入正則化方法來(lái)減少過(guò)擬合的風(fēng)險(xiǎn)。

最后，在整個(gè)AI項(xiàng)目中，我們也要注意做好數(shù)據(jù)隔離，保證數(shù)據(jù)獨(dú)立性，避免在處理過(guò)程中將測(cè)試集的信息泄露到訓(xùn)練集中。

我們需要確保AI遇見(jiàn)的測(cè)試集中的數(shù)據(jù)都是新面孔。

5. 測(cè)試集模擬案例-貓貓識(shí)別模型

我們繼續(xù)貓貓識(shí)別模型的模擬案例，說(shuō)說(shuō)測(cè)試集的使用。

照例，要先做好數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)劃分。通常，測(cè)試集占原始數(shù)據(jù)集的10%至20%。

數(shù)據(jù)劃分時(shí)要確保數(shù)據(jù)分布的一致性，以便在不同階段的模型訓(xùn)練和評(píng)估中能夠準(zhǔn)確地反映出模型的性能。

然后，我們將經(jīng)歷過(guò)訓(xùn)練集和驗(yàn)證集考驗(yàn)后的模型，引入測(cè)試集進(jìn)行訓(xùn)練并觀測(cè)，通過(guò)數(shù)據(jù)指標(biāo)來(lái)進(jìn)行評(píng)估。

我們可以重點(diǎn)關(guān)注準(zhǔn)確率和損失函數(shù)這兩個(gè)值，準(zhǔn)確率表示模型在識(shí)別貓圖像時(shí)的正確率，損失函數(shù)表示模型在預(yù)測(cè)貓圖像時(shí)的誤差。

根據(jù)測(cè)試集反饋的指標(biāo)結(jié)果，我們可以知曉模型是否能夠準(zhǔn)確地識(shí)別圖像中的貓。

比如當(dāng)出現(xiàn)新的貓的姿勢(shì)、顏色和背景時(shí)，當(dāng)圖片的光照和清晰度水準(zhǔn)不一時(shí)，模型是否都能認(rèn)出圖中有貓。

當(dāng)模型經(jīng)過(guò)測(cè)試集的檢驗(yàn)后，我們最后要做的，就是完成模型部署。

我們將表現(xiàn)最好的貓貓圖像識(shí)別模型部署到實(shí)際應(yīng)用中。例如，我們可以將這個(gè)模型應(yīng)用于智能監(jiān)控系統(tǒng)，自動(dòng)識(shí)別和追蹤攝像頭范圍內(nèi)的貓。

四、總結(jié)與預(yù)告

以上，就是關(guān)于訓(xùn)練集，驗(yàn)證集，測(cè)試集的獨(dú)家介紹了。我將三者比喻成了教師、輔導(dǎo)員和考官，通過(guò)貓貓識(shí)別模型的模擬案例來(lái)展示了它們各自的能力。

訓(xùn)練集為模型提供了學(xué)習(xí)的基礎(chǔ)，使得模型能夠從數(shù)據(jù)中學(xué)習(xí)到規(guī)律和特征。

正如，古人云：“授人以魚(yú)不如授人以漁”，訓(xùn)練集就是那個(gè)“漁”，它為模型提供了學(xué)習(xí)的方法和途徑。

驗(yàn)證集的作用在于調(diào)整模型的超參數(shù)，防止過(guò)擬合，采用早停策略，以及對(duì)比不同模型結(jié)構(gòu)。

通過(guò)驗(yàn)證集，我們能夠在訓(xùn)練過(guò)程中及時(shí)發(fā)現(xiàn)模型的問(wèn)題，并采取相應(yīng)的措施進(jìn)行調(diào)整。

恰似，“他山之石，可以攻玉”，驗(yàn)證集就是那個(gè)“他山之石”，它幫助我們發(fā)現(xiàn)問(wèn)題，改進(jìn)模型。

測(cè)試集是對(duì)模型最終性能的評(píng)估，它能夠客觀地反映模型的泛化能力。

可謂，“路遙知馬力，日久見(jiàn)人心”，測(cè)試集就是那個(gè)“路遙”探測(cè)器，它能夠檢驗(yàn)?zāi)Ｐ偷恼嬲龑?shí)力。

“工欲善其事，必先利其器”，訓(xùn)練集、驗(yàn)證集和測(cè)試集就是我們構(gòu)建和評(píng)估模型的“利器”。

充分利用好它們，我們可以構(gòu)建出性能優(yōu)秀、泛化能力強(qiáng)的模型，在人工智能的發(fā)展中，抓住機(jī)遇，收獲成功。

預(yù)告一下，AI數(shù)據(jù)集的內(nèi)容我還沒(méi)說(shuō)完。

下一篇章我會(huì)嘮嘮“訓(xùn)練集，驗(yàn)證集，測(cè)試集”的區(qū)別和聯(lián)系，也會(huì)說(shuō)一些目前國(guó)內(nèi)數(shù)據(jù)集的現(xiàn)狀、挑戰(zhàn)和應(yīng)對(duì)之策。

本文由 @果釀原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)作者許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash，基于CC0協(xié)議。

相關(guān)熱詞： 英雄好漢訓(xùn)練集驗(yàn)證測(cè)試各顯神通

上一篇：網(wǎng)宿科技：除了AI，公司也非常關(guān)注vision pro的進(jìn)展

下一篇：芯片植入人腦待長(zhǎng)期評(píng)估，馬斯克腦機(jī)接口終極目標(biāo)：人與AI共生

AiLab云推薦

AI屆的英雄好漢“訓(xùn)練集、驗(yàn)證集、測(cè)試集”各顯神通！
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-02 07:34:34 瀏覽：2145次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

AI屆的英雄好漢“訓(xùn)練集、驗(yàn)證集、測(cè)試集”各顯神通！ 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-02 07:34:34 瀏覽：2145次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

AI屆的英雄好漢“訓(xùn)練集、驗(yàn)證集、測(cè)試集”各顯神通！
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-02 07:34:34 瀏覽：2145次