欧美精品视频一区二区免费看,污污黄黄的成年亚洲毛片

無需人類或GPT-4打標(biāo)簽！無監(jiān)督新范式大幅降低視覺大模型對(duì)齊成本

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-06-24 08:05:22 瀏覽：4271次

導(dǎo)讀：曠視研究院投稿量子位 | 公眾號(hào) QbitAI 不用打標(biāo)簽，也能解決視覺大模型的偏好對(duì)齊問題了。南大與曠視研究院的研究人員，推出了適用于VLM的無監(jiān)督范式。對(duì)比偏好對(duì)齊前后，可以發(fā)現(xiàn)模型的輸出發(fā)生了顯著的變化。目前的視覺大模型已經(jīng)比較成熟，但作者發(fā)...

曠視研究院投稿

量子位 | 公眾號(hào) QbitAI

不用打標(biāo)簽，也能解決視覺大模型的偏好對(duì)齊問題了。

南大與曠視研究院的研究人員，推出了適用于VLM的無監(jiān)督范式。

對(duì)比偏好對(duì)齊前后，可以發(fā)現(xiàn)模型的輸出發(fā)生了顯著的變化。

目前的視覺大模型已經(jīng)比較成熟，但作者發(fā)現(xiàn)它們?cè)谟脩趔w感方面仍然有所欠缺。

于是團(tuán)隊(duì)經(jīng)過研究，通過構(gòu)造偏好樣本對(duì)的方式解決了視覺語言模型的偏好對(duì)齊問題，并提出了Self-Supervised Visual Preference Alignment（SeVa）范式。

該范式基于LLaVa-1.5-7B/13B完成，整個(gè)過程無需GPT-4或者是人類參與打標(biāo)簽，目前項(xiàng)目已經(jīng)開源！

構(gòu)建正負(fù)樣本對(duì)比數(shù)據(jù)集

目前視覺大模型基本上在流程上已經(jīng)非常成熟預(yù)訓(xùn)練+指導(dǎo)監(jiān)督微調(diào)（SFT）+對(duì)齊（可選）。

去年下半年開始，工業(yè)界和學(xué)術(shù)界主要聚焦在多模態(tài)大模型的數(shù)據(jù)（數(shù)據(jù)構(gòu)造，配比，打標(biāo)簽）和模型結(jié)構(gòu)（Connector，打開模型權(quán)重等）的設(shè)計(jì)上，目標(biāo)是提升VLM的理解能力（傳統(tǒng)QA+多模態(tài)benchmark）。

但是，研究團(tuán)隊(duì)發(fā)現(xiàn)部分開源大模型，雖然在跑分時(shí)有不錯(cuò)的性能，但在用戶體感方面會(huì)比較欠缺不遵循指令，產(chǎn)生幻覺回答，違背3H準(zhǔn)則（helpfulness, harmless, honest）等問題紛紛出現(xiàn)。

研究團(tuán)隊(duì)認(rèn)為，多模態(tài)對(duì)齊的一大難點(diǎn)，在于偏好數(shù)據(jù)的構(gòu)造。

主要的原因是，純NLP領(lǐng)域的偏好數(shù)據(jù)非常昂貴且稀缺（一般需要GPT-4或者人類的參與），Vision-Language領(lǐng)域的偏好數(shù)據(jù)還沒有形成一個(gè)成熟的pipeline（數(shù)據(jù)構(gòu)造方式，數(shù)據(jù)質(zhì)量，數(shù)據(jù)的效果都還沒完全得到驗(yàn)證）。

因此，本文首次提出一套自動(dòng)化構(gòu)造偏好數(shù)據(jù)的pipeline用于Alignment的訓(xùn)練。作者通過嚴(yán)格的實(shí)驗(yàn)，從多個(gè)角度展示了該pipeline對(duì)多模理解和用戶友好性的提升。

研究當(dāng)中，作者發(fā)現(xiàn)VLM對(duì)于圖像層面的擾動(dòng)非常敏感，也就是說，輕微的圖像增廣就會(huì)使得VLM對(duì)同一個(gè)Question產(chǎn)生錯(cuò)誤且不同的回答。

具體來說，作者將多種圖像層面的擾動(dòng)分別作用于LLaVA-1.5的測(cè)試階段，并在3個(gè)常規(guī)的多模態(tài)benchmark上運(yùn)行，得到的結(jié)果如下：

因此SeVa將原始圖像產(chǎn)生的回答作為正樣本，將增廣后的圖像產(chǎn)生的回答作為負(fù)樣本，用于構(gòu)造DPO的數(shù)據(jù)集并訓(xùn)練。

△SeVa的6行偽代碼實(shí)現(xiàn)

如果以流程圖的形式來展示，SeVa的工作流如下：

具體來說，作者使用LLaVA665k 數(shù)據(jù)集中的TextVQA和OCRVQA來構(gòu)造DPO數(shù)據(jù)，基于7B和13B的LLaVA-v1.5模型，使用其pretrained+SFT作為DPO的初始化權(quán)重，結(jié)合LoRA訓(xùn)練語言模型，r默認(rèn)在512/1024。

實(shí)驗(yàn)結(jié)果表明，僅僅使用8k構(gòu)造的無監(jiān)督的數(shù)據(jù)能夠顯著提高VLM的指令遵循能力、降低幻覺，并且在多模態(tài)等benchmark上提升明顯。

而且構(gòu)造過程輕而易舉、成本低廉，不需要任何人類或者是GPT-4的標(biāo)注。

另外，作者還系統(tǒng)闡述了在DPO訓(xùn)練中用到的偏好分布與對(duì)比損失之間的關(guān)系。他們的形式在一定程度上是一致的，但是核心區(qū)別在于負(fù)樣本的定義。

和對(duì)比學(xué)習(xí)統(tǒng)一之后的好處是，可以輕易的通過對(duì)比學(xué)習(xí)的思路，在DPO中添加更多由SeVa構(gòu)建的負(fù)樣本對(duì)，從而推導(dǎo)出一個(gè)更加通用的DPO形式。

讓視覺模型更符合人類偏好

在9個(gè)benchmark上，SeVa幾乎都能夠做到穩(wěn)定的提升，特別是在GPT-4評(píng)估的MMVet,和LLaVA-bench上提升顯著，在用于評(píng)估幻覺的指標(biāo)POPE、SHR上也有穩(wěn)定的性能提升。

進(jìn)一步實(shí)驗(yàn)表明，SeVa DPO的范式比SFT在微調(diào)VLM上具有更大的優(yōu)勢(shì)，例如訓(xùn)練時(shí)間更短、數(shù)據(jù)量更少、pipeline無需監(jiān)督等，另外再性能上也有所提升。

換句話說，該實(shí)驗(yàn)也證明了Preference Alignment在某些情況會(huì)遠(yuǎn)遠(yuǎn)超過SFT的效率。

而且，經(jīng)過DPO之后，SeVa的輸出會(huì)更加的與模型得到的Question更加的接近。

同時(shí)，SeVa每次回答的一致性也更高，對(duì)于不同temperature的擾動(dòng)擁有更強(qiáng)的魯棒性。

通過可視化，作者還發(fā)現(xiàn)，SeVa的輸出結(jié)果比原始LLaVA（未經(jīng)過DPO訓(xùn)練）更加的優(yōu)質(zhì)（在win-lose的比例上明顯占優(yōu)）。

同時(shí)，經(jīng)過DPO之后，SeVA產(chǎn)生了普遍比LLaVA更長(zhǎng)更詳細(xì)的回答。以上兩個(gè)方面的可視化也解釋了為什么SeVa能夠更加的與人類的偏好對(duì)齊。

另外，本文還進(jìn)行了諸多關(guān)于SeVa的細(xì)化和分析，有很多有意思的結(jié)論：

SeVa能夠被視作一種特殊的對(duì)比學(xué)習(xí)方法。

SeVa構(gòu)造的數(shù)據(jù)進(jìn)行DPO訓(xùn)練后，模型會(huì)產(chǎn)生更長(zhǎng)token的輸出，并且抗干擾能力更強(qiáng)。

正負(fù)樣本之間的margin很重要，過大或過小都會(huì)sup-optimal。

對(duì)齊過程中的LoRA參數(shù)非常關(guān)鍵。

論文地址：

https://arxiv.org/abs/2404.10501

GitHub：

https://github.com/Kevinz-code/SeVa

無需人類或GPT-4打標(biāo)簽！無監(jiān)督新范式大幅降低視覺大模型對(duì)齊成本
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-06-24 08:05:22 瀏覽：4271次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

無需人類或GPT-4打標(biāo)簽！無監(jiān)督新范式大幅降低視覺大模型對(duì)齊成本 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-06-24 08:05:22 瀏覽：4271次