-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 營銷推廣 > 專題列表 > 正文
模型評測
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于模型評測的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,相關(guān)業(yè)務(wù)請撥打電話:175-8598-2043,或添加微信:1454722008
本文目錄:
一、ROC曲線原理實例分析 【1】
在選擇診斷試驗時,許多研究者會在靈敏度和特異度之間進(jìn)行艱難的取舍。那么,是否可以綜合考慮靈敏度和特異度的特點,根據(jù)一個指標(biāo)評價診斷試驗的準(zhǔn)確性呢?受試者工作特征曲線(receiver operating characteristic curve,簡稱ROC曲線),用來描述診斷試驗的內(nèi)在真實程度,應(yīng)用十分廣泛。
ROC曲線是以真陽性率(靈敏度)為縱坐標(biāo),假陽性率(1-特異度)為橫坐標(biāo)繪制的。每一個點都對應(yīng)診斷試驗的一個截點,我們將這些可能的點連接起來即可制作出經(jīng)驗ROC曲線(empirical ROC curve)。該方法可以幫助研究者簡單、直觀地分析診斷試驗的臨床準(zhǔn)確性,選擇更加合適的截點。
一、背景介紹
在介紹ROC曲線之前,首先來介紹一下預(yù)測模型的背景。
(一)預(yù)測模型建模流程簡介
1.利用數(shù)據(jù)中的訓(xùn)練集進(jìn)行模擬的生成。
2.利用測試集進(jìn)行模型的評測。
3.將評測的結(jié)果反饋給生成模型。
4.若評測結(jié)果比較滿意,進(jìn)行生成模型的輸出,否則重新生成。
那么測試集如何評測預(yù)測模型?這里引出混淆矩陣的概念。
(二)混淆矩陣
混淆矩陣也稱誤差矩陣,是表示精度評價的一種標(biāo)準(zhǔn)格式,常用來預(yù)測模型的準(zhǔn)確率。
圖1 混淆矩陣
P:樣本中的正例,n:樣本中的負(fù)例 Y:通過模型預(yù)測出來樣本中的正列,N:通過模型預(yù)測出來樣本中的負(fù)列 TP(True Positives):本來是正列,通過模型預(yù)測出來也是正列FP(False Positives):本來是負(fù)列,通過模型預(yù)測出來也是正列預(yù)測模型準(zhǔn)確率accuracy=(TP+TN)/(P+n) (三)案例分析
表1 原始數(shù)據(jù)
從表1可以看出,有20個觀測值,結(jié)局有1和0兩種狀態(tài),分別代表著陽性和陰性。類似于Logistic回歸當(dāng)中某個人是否患疾病,患病為1,不患病為0。預(yù)測概率是通過Logistic回歸預(yù)測的結(jié)果。那怎么去預(yù)測這組概率的準(zhǔn)確率呢?
從表2中可以看出前6個數(shù)據(jù)預(yù)測結(jié)局為陽性,其他14個數(shù)據(jù)預(yù)測結(jié)局為陰性。計算它的混淆矩陣如表3,真實結(jié)局中有10個1和10個0。但是預(yù)測結(jié)局的陽性數(shù)有6個,其中有5個是真實陽性,有1個是真實陰性。第三個觀測值結(jié)局本來是陰性的,但預(yù)測結(jié)局是陽性的,這個觀測值預(yù)測錯誤。同理,預(yù)測結(jié)局的陰性數(shù)有14個,其中有9個是真實陰性,有5個是真實陽性。第九個觀測值結(jié)局本來是陽性的,但預(yù)測結(jié)局是陰性的,這個觀測值預(yù)測錯誤。
表3 混淆矩陣表
真陽率是指本來是陽性的,預(yù)測出的結(jié)果也是陽性的。假陽率是指本來是陰性的,但預(yù)測出的結(jié)果是陽性的。從表3中可以看出,在真實陽性數(shù)這一豎列中,預(yù)測正確的觀測值有5個,所以真陽率(TPR)=5/P=5/10=0.5。在真實陰性數(shù)這一豎列中,預(yù)測正確的觀測值有1個,所以假陽率(FPR)=1/n=1/10=0.1。
同理真陰率(TNR)=9/10=0.1,假陰率(FNR)=5/10=0.5。
表4 真陽率和假陽率
從表4可以看出,以0.54為閾值,作出來的混淆矩陣真陽率為0.5,假陽率為0.1。真陽率和假陽率是以每一次相應(yīng)的預(yù)測概率為閾值,算出混淆矩陣而得到的。
將1-20每個樣本的評分均作為分類器的判定閾值,可以得到20組TPR和FPR的有序數(shù)對。然后以TPR和FPR為兩個坐標(biāo)軸建立一個直角坐標(biāo)系,就可以得到圖2。
圖2 TPR和FPR的有序數(shù)對
二、ROC曲線概念
ROC曲線:受試者工作特征曲線(receiver operating characteristic curve,簡稱ROC曲線),又稱為感受性曲線(sensitivity curve)。
采用真陽性率和假陽性率作出的曲線,適用于診斷試驗結(jié)果為連續(xù)變量。試驗的真陽性率(Sen)為縱坐標(biāo)(Y),假陽性率(1-Spe)為橫坐標(biāo)(X),坐標(biāo)軸上的率值由0 1或0% 100%。
圖3 ROC曲線示意圖橫軸FPR:1-TPR,1-Specificity,F(xiàn)PR越大,預(yù)測正類中實際負(fù)類越多??v軸TPR:Sensitivity,TPR越大,預(yù)測正類中實際正類越多。理想目標(biāo):TPR=1,TPR=0,即圖中(0,1)點,故ROC曲線越靠攏(0,1)點,越偏離45°對角線越好,Sensitivity、Specificity越大效果越好。
三、最佳閾值的確定——約登指數(shù)
約登指數(shù)(Youden index,YI):是評價篩查試驗真實性的方法,假設(shè)其假陰性和假陽性的危害性同等意義時,即可應(yīng)用約登指數(shù)。約登指數(shù)=靈敏度Sensitivity+特異度Specificit-1=[a/(a+c)+d/(b+d)]-1。指數(shù)越大說明篩查試驗的效果越好,真實性越大。從表中可以看出,真陽率與假陽率的差值就是約登指數(shù),最大的約登指數(shù)為0.4,0.4對應(yīng)的預(yù)測概率為0.54,大于0.54認(rèn)為是陽性的,小于0.54認(rèn)為是陰性的。0.54就是最佳閾值。
四、AUC概念
AUC(Area Under Curve)值為ROC曲線下方的面積大小。顯然,AUC越大,預(yù)測效果越好。AUC=1,是完美分類器,采用這個預(yù)測模型時,不管設(shè)定什么截斷點都能得出完美預(yù)測。絕大多數(shù)預(yù)測的場合,不存在完美分類器。0.5<AUC<1,優(yōu)于隨機猜測。這個預(yù)測模型妥善設(shè)定截斷點的話,能有預(yù)測價值。AUC=0.5,跟隨機猜測一樣(例:拋硬幣),模型沒有預(yù)測價值。AUC<0.5,比隨機猜測還差,但只要總是反預(yù)測而行,就優(yōu)于隨機預(yù)測。
圖4 包含AUC值的ROC曲線
[參考資料]( https://mp.weixin.qq.com/s?src=11×tamp=1584533576&ver=2224&signature=6PwC6AuccTKFKXc0sXP0Cp7rEVSF3Qp2QFHfyfE 7Bq3d1cN-XspGn-EV2gqpTVgaS2q 1ZBqgxp7bx3zDNkhfOxz7DM62BCpshh*EiK7oj9QD517iKBdoR58gaYLBMM&new=1
)
二、收型不錯選擇——評測保時捷911汽車模型
很高興能參加到家家眾測的活動當(dāng)中來,期盼已久的家家眾測雨露均沾的活動終于又來看了,這次活動的獎品是一個2T的移動硬盤,為了它,讓我們一起發(fā)發(fā)發(fā)吧。
這次給大家評測的是一款汽車模型,是來自保時捷的911,品牌是威利的國產(chǎn)入門的模型品牌,絕對是出入門者的不錯選擇 首先就是它的型比較準(zhǔn)確,整體的比例協(xié)調(diào),還原了實車的形態(tài),兩車門,前后蓋都能開啟,前輪轉(zhuǎn)向角度比較滿意,外拍時候能擺出更多姿勢,帶全窗玻璃,要知道這個價位不容易,20寸輪轂做工精致,還原度很高,以假亂真,卡鉗也有噴紅處理,一定給個贊,內(nèi)飾做工還算滿意,雖然沒有植絨,但是各個按鍵,小細(xì)節(jié)還算到位。下面一起具體看看吧
前臉呆萌,和實車保持一致,只是這大燈,黑壓壓一片,顯得不那么精神,日行燈LED燈的細(xì)節(jié)造型倒是不錯,還是一句話成本成本,不然哪來的這么高性價比
車身側(cè)面線條完美還原了蛙王的神韻,縫隙做的也還可以
飽滿的尾部十分有力量,只是尾燈依舊無神
這款車魔師全開模型,什么是全開,就是車門前后蓋能打開,增加可玩性,只是內(nèi)飾細(xì)節(jié)一般,不夠豐富
前備箱也是黑壓壓一片沒什么細(xì)節(jié)
尾部保時捷的字樣是印上去的字,不是立體的,排氣管塑料感略強,不過畢竟價位在這,收型的不錯選擇
三、性價比之選,評測英菲尼迪Q50模型,一起發(fā)發(fā)發(fā)
很高興能參加到家家眾測的活動當(dāng)中來,期盼已久的家家眾測雨露均沾的活動終于又來看了,這次活動的獎品是一個2T的移動硬盤,為了它,讓我們一起發(fā)發(fā)發(fā)吧。
今天來評測一款英菲尼迪Q50汽車模型,這款模型是原廠車模,比例是1:18的,這款模型在原廠模型黨中可以說是屬于上等水平,為什么這么說呢,聽我慢慢道來 首先這款模型是合金材質(zhì),非常有分量,整體造型也非常的精準(zhǔn),還原度很高,漆面采用了和真是一樣的金屬漆,表面非常光滑,這款模型有兩個顏色,一個就是這款紅色,還有一個白色,白色的價格要高上許多,不過紅色也還不錯吧,再有他的大燈,內(nèi)部的構(gòu)造十分細(xì)膩,把實車的眼神很好地還原了出來,車子的四車門,前后蓋都能夠打開,不僅如此,像后視鏡折疊,天窗開啟,甚至油箱蓋都能打開,可玩性很高,內(nèi)飾也非常的逼真,有植絨,一般原廠車模都會有植絨,還有一點,他的前后蓋不再是大狗腿的結(jié)構(gòu),竟然用上了金屬鉸鏈和液壓桿,非常走心,所以這款Q50模型的性價比還是非常高的
犀利的外形,模型把他犀利的身姿完美的展現(xiàn)出來
前后比例十分協(xié)調(diào)
鷹眼式的大燈炯炯有神
尾部仿真度也很高,特別是這兩個尾喉,十分粗壯有力
內(nèi)飾,經(jīng)典的雙屏設(shè)計,模型也沒有含糊,都還原了出來
打開機蓋,這才是精華所在,超多的分色處理,機油尺,管道,冷卻壺都栩栩如生
液壓桿,鉸鏈,真是下足了功夫
一起欣賞一下
四、只需要十分之一數(shù)據(jù),就能通關(guān)四大視覺任務(wù),居然還開源了
Github鏈接:https://github.com/opengvlab
家人們,你們有沒有這種苦惱?
搬一次家就換一次家具,那些又貴又重的家具既不好搬運,又不好全部帶走。
下一次又重新購置一遍家具,浪費錢不說,關(guān)鍵是來來回回都做一樣的事情!家具還沒用過幾次,利用率不高呀!
這種搬家的苦惱,就好比AI領(lǐng)域,做幾個任務(wù)就需要開發(fā)幾個高度定制的模型,不僅所需的數(shù)據(jù)采集量非常大,每次還都得從頭標(biāo)注。既提不起數(shù)據(jù)的學(xué)習(xí)效率,又耗費巨大的數(shù)據(jù)獲取成本。
光是AI前端研究就耗費如此巨大的精力,更別提應(yīng)用場景中數(shù)以萬計的長尾任務(wù)。
那怎么辦?
做一款通用的深度學(xué)習(xí)模型,才是關(guān)鍵。
1 通用,才是技術(shù)根本
目前,通用語言模型(GLM)已經(jīng)取得了令人矚目的進(jìn)展,比如BERT、T5和GPT-3,它們在應(yīng)對廣泛的語言下游任務(wù)時已經(jīng)游刃有余。
相形之下,通用視覺模型(GVM)的研究遲遲未交出一份令人滿意的答卷。
以往的大多數(shù) GVM 研究主要利用一種監(jiān)督信號來源,如 ViT-G/14 采用有標(biāo)簽監(jiān)督,SEER 采用樣本的不同增強之間的對比學(xué)習(xí),CLIP采用圖片文本對進(jìn)行監(jiān)督。如果是在單個監(jiān)督信號下進(jìn)行的預(yù)訓(xùn)練,這幾種范式確實能夠生成在固定場景下表現(xiàn)良好的模型。但如果用在場景多元、任務(wù)多樣的下游場景,這些模型就難以勝任了。
比如現(xiàn)在最火的自動駕駛, 汽車 處于移動狀態(tài),既要看到路況,又要看到紅綠燈,還要注意行人,甚至在智能座艙興起后,還要和語言技術(shù)、LBS場景服務(wù)協(xié)同,這么多的感知數(shù)據(jù)與協(xié)同任務(wù),這么多隨機的新任務(wù),無論在體量還是維度方面,都對視覺模型的要求極大提高。
這時,打造一款通用視覺模型,降低研發(fā)門檻,尤其是學(xué)術(shù)界的時間成本、資金成本,才能暢享下游的極致場景體驗。
去年11月,上海人工智能實驗室聯(lián)合商湯 科技 、香港中文大學(xué)、上海交通大學(xué)發(fā)布通用視覺技術(shù)體系“書生”(INTERN),一套持續(xù)學(xué)習(xí)框架,用于系統(tǒng)化解決當(dāng)下人工智能視覺領(lǐng)域中存在的任務(wù)通用、場景泛化和數(shù)據(jù)效率等一系列瓶頸問題。
前不久,上海人工智能實驗室聯(lián)合商湯 科技 發(fā)布通用視覺開源平臺OpenGVLab,面向?qū)W術(shù)界和產(chǎn)業(yè)界開放其超高效預(yù)訓(xùn)練模型、超大規(guī)模公開數(shù)據(jù)集,以及業(yè)內(nèi)首個針對通用視覺模型的評測基準(zhǔn)。
這些開源技術(shù),究竟有何魔力?
2 大力出奇跡,打造通用視覺模型
“書生” (INTERN),就是練就通用視覺能力的底層技術(shù)。
從技術(shù)實現(xiàn)上講,“書生”技術(shù)體系由由七大模塊組成,包括三個基礎(chǔ)設(shè)施模塊和四個訓(xùn)練階段構(gòu)成。
書生(INTERN)結(jié)構(gòu)圖
首先,通用視覺數(shù)據(jù)系統(tǒng)。
這是一個超大規(guī)模的精標(biāo)數(shù)據(jù)集,擁有100億個樣本和各種監(jiān)督信號,并依照四大視覺任務(wù)分別設(shè)置了四個數(shù)據(jù)子集:多模態(tài)數(shù)據(jù)GV-D- 10B分類標(biāo)注的GV-Dc-36M、檢測標(biāo)注的GV-Dd-3M、分割標(biāo)注的GV-Ds-143K。
另外,這一數(shù)據(jù)集還包含11.9萬的標(biāo)簽系統(tǒng),不僅涵蓋了自然界的眾多領(lǐng)域和目前計算機視覺研究中的幾乎所有標(biāo)簽,還擴充了大量細(xì)粒度標(biāo)簽,涵蓋各類圖像中的屬性、狀態(tài)等。
而這,就是書生“大力出奇跡”的一大注腳。
其次,通用視覺模型結(jié)構(gòu)。
它是由一個具有CNN和Transformer的統(tǒng)一搜索空間構(gòu)建而成。
為何要建立這樣的混合結(jié)構(gòu)?要知道,多年來,卷積神經(jīng)網(wǎng)絡(luò)(CNN)一直主導(dǎo)著視覺表征學(xué)習(xí),并在圖像分類、目標(biāo)檢測和語義分割等下游任務(wù)中表現(xiàn)出穩(wěn)定的可遷移性。但最近幾年,Vision Transformer (ViT)僅使用普通的Transformer結(jié)構(gòu)就能作為圖像編碼模型在ImageNet-1k上取得媲美 CNN 的性能,在大規(guī)模數(shù)據(jù)集上 ViT 更是展示出比 CNN 更大的潛力。
盡管ViT在性能上有優(yōu)點,但純Transformer網(wǎng)絡(luò)相比卷積神經(jīng)網(wǎng)絡(luò)缺乏某些歸納偏置(inductive biases),因此需要更多的數(shù)據(jù)和計算資源。此外,自注意的計算成本相對于輸入的數(shù)量是平方的,限制了對高輸入分辨率的應(yīng)用。因此,將CNN和Transformer和MLP結(jié)合起來,平衡效率和有效性兩個方面,才是模型通用的關(guān)鍵。
這種兼具更好的泛化能力和更高的模型容量的模型結(jié)構(gòu)名為MetaNet。在MetaNet網(wǎng)絡(luò)結(jié)構(gòu)族里面進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)搜索,從而得到最優(yōu)的一個模型訓(xùn)練結(jié)構(gòu)。
統(tǒng)一搜索的MetaNet架構(gòu):Conv和Trans分別表示卷積和Transformer。C和S為每一階輸出通道數(shù)和步幅。
具體來看,MetaNet不僅基于強化學(xué)習(xí) 的PPO算法提出了統(tǒng)一搜索架構(gòu),并且,為了避免傳統(tǒng)的下采樣模塊會成為模型性能的瓶頸,“書生“結(jié)合了包含 local-global-DSM (LG_DSM) 和 global-DSM (G-DSM)的context-aware down-sampling modules (DSM),用來代替原本的下采樣模塊。
因此,在淺層,模型依然使用卷積來提取特征,但在深層,模型卻能將Transformer模塊和LG-DSM結(jié)合使用,以便于更好地提取全局信息。
同時,書生還基于最大的MetaNet-B15蒸餾出了多達(dá)13種不同的模型結(jié)構(gòu),共24種不同的模型權(quán)重,現(xiàn)已全部開源。
這些模型結(jié)構(gòu)基本涵蓋了現(xiàn)有市面上大部分的主流backbone,不僅能夠很輕易地遷移到所需要的算法框架作為新網(wǎng)絡(luò)預(yù)訓(xùn)練的初始化,而且只需要更短的訓(xùn)練時間就可以達(dá)到比原來更好的訓(xùn)練效果。
MetaNet 模型與其他模型結(jié)構(gòu)比較,結(jié)果如下:
基于卷積、Transformer和兩者混合的結(jié)構(gòu),分別用C,T和H表示,可以看出,在圖像分類性能上,MetaNet系列的MN-B1,MN-B4和MN-B7,和其他的SOTA模型相比,不僅有更高的精度,還有更低的FLOPS和參數(shù)量。
除了分類任務(wù),把MetaNet做為檢測和分割的backbone,在COCO數(shù)據(jù)集上使用Mask R-CNN結(jié)構(gòu)訓(xùn)練,結(jié)果發(fā)現(xiàn):在模型參數(shù)量更小的前提下,MN-B4比Swin-T精度高出2到4個點。另外還在ADE20K數(shù)據(jù)集上進(jìn)行了語義分割任務(wù),MN-B4的mIoU指標(biāo)比Swin-T高出5個點之多。
上述兩個實驗結(jié)果表明,MetaNet系列模型結(jié)構(gòu),在模型精度與計算量之間,都達(dá)到了新的SOTA!
最后,通用視覺評測基準(zhǔn)。
視覺評測基準(zhǔn)GV-B ,就像是一個「擂臺」。
如下表所示,測評基準(zhǔn)收集了 26 個下游任務(wù)數(shù)據(jù)集,囊括了 4 種視覺任務(wù)類型:分類,檢測,分割和深度估計。
在設(shè)置上,該基準(zhǔn)引入了百分比樣本(percentage-shot),只需要選取整個數(shù)據(jù)集的一部分,例如 10%、20% ,對比縮小下游任務(wù)的訓(xùn)練數(shù)據(jù)量后的模型性能。
與傳統(tǒng)的少樣本設(shè)置相比,這種百分比樣本設(shè)置可以很好地保留原始數(shù)據(jù)集的長尾分布等屬性,并減輕對樣本選擇的敏感性。因為有一些數(shù)據(jù)集樣本類別分布不平衡,比如下表中的VOC07+12,百分比數(shù)據(jù)的劃分方式卻會繼承這種分布情況。
右側(cè)三列avg,min和max,分別表示在10%的數(shù)據(jù)中,不同類別樣本數(shù)量的平均值,最小值和最大值。
結(jié)合上述數(shù)據(jù)集和任務(wù)類型,論文選取了一些具有代表性的模型來做評測對比。為了比較公平性,該對比使用了這些模型的官方預(yù)訓(xùn)練權(quán)重。這些模型包括:
有了超大精標(biāo)數(shù)據(jù)集、模型結(jié)構(gòu),以及評測基準(zhǔn)后,已經(jīng)是萬事俱備,只欠訓(xùn)練。
書生作為中國古代讀書人的經(jīng)典形象,代表著一個通過不斷學(xué)習(xí)、不斷成長進(jìn)而擁有各方面才能的人格化角色:從基礎(chǔ)的知識技能學(xué)習(xí)開始,到對多種專業(yè)知識觸類旁通,進(jìn)而成長為擁有通用知識的通才。借此意象,“書生”(INTERN)系統(tǒng)可通過持續(xù)學(xué)習(xí),舉一反三,逐步實現(xiàn)通用視覺領(lǐng)域的融會貫通,最終實現(xiàn)靈活高效的模型部署。
下面就來看看,這套系統(tǒng)是如何通過訓(xùn)練,一步步從生手變成專家再到多面手,最終在各種任務(wù)中大顯身手。
第一階段,訓(xùn)練的是基礎(chǔ)能力,被稱為“基礎(chǔ)模型”(Amateur)。
然而CLIP需要400M的圖像-文本對進(jìn)行前訓(xùn)練,囿于極大的數(shù)據(jù)量,CLIP很難進(jìn)一步發(fā)展。但“書生”提出了一種新的訓(xùn)練范式,DeCLIP(Data efficient CLIP ),能夠同時使用來自圖像-文本、圖像-圖像和文本-文本對的監(jiān)督信號進(jìn)行模型預(yù)訓(xùn)練,從而更有效地實現(xiàn)通用性。
此外,為了充分利用大規(guī)模多模態(tài)數(shù)據(jù)獲取基礎(chǔ)模型的優(yōu)勢,這一階段提出了Upstream-Amateur (Up-A)視覺語言預(yù)訓(xùn)練框架,同時挖掘模態(tài)內(nèi)和跨模態(tài)知識。
這一訓(xùn)練框架分為兩個預(yù)訓(xùn)練階段:Upstream-Amateur for Global Representation (Up-A-G)和Upstream-Amateur for Local Representation (Up-A-L)。
其中,Up-A-G(左)使用群體監(jiān)督功能,從更豐富的監(jiān)督中學(xué)習(xí)。Up-A-L(右)采用局部自我監(jiān)督學(xué)習(xí)方法,對訓(xùn)練好的視覺-語言模型進(jìn)行調(diào)整,從而提高自身在密集預(yù)測CV任務(wù)中的表現(xiàn)。
Upstream-Amateur的框架
得益于這些內(nèi)在的監(jiān)督,DeCLIP-ResNet50可以在ImageNet上實現(xiàn)60.4%的zero-shot 精度第一。這比CLIP-ResNet50高出0.8%,數(shù)據(jù)使用量少了81%。當(dāng)遷移到下游任務(wù)時,DeCLIP-ResNet50在11個視覺數(shù)據(jù)集中有8個優(yōu)于CLIP。
更關(guān)鍵的是,訓(xùn)練完成的Upstream-Amateur為后續(xù)的訓(xùn)練階段提供了一個很高的起點。
第二階段,訓(xùn)練的是專業(yè)能力,被稱為“專家模型”(Expert)。
Up-A階段得到的基礎(chǔ)模型,在一般的視覺識別問題上顯示出優(yōu)異的性能。但要完全掌握檢測、分割等更具體的任務(wù),還需要在每個任務(wù)中進(jìn)行更專業(yè)的預(yù)訓(xùn)練,這就促成了第二個階段的到來,專家模型。
對于每個專家,“書生”采用了一種簡單的多頭設(shè)計,每個頭是一個特定數(shù)據(jù)集的子網(wǎng)絡(luò),從一個公共的、共享的“主干”分支出來。比如Up-E (C)、Up-E (D)和Up-E (S),分別用于圖像分類、對象檢測和語義分割。
第三階段,訓(xùn)練的是組合能力,被稱為“通才模型”(Generalist)。
上述的多任務(wù)是指不同數(shù)據(jù)集(如ImageNet和CIFAR)的一個視覺問題(如分類),或一個數(shù)據(jù)集的多個視覺問題(如分類和檢測)。但關(guān)鍵是,如何將專家整合到一個統(tǒng)一的模型中,獲得一個更加通用的視覺模型。因此,在預(yù)訓(xùn)練“專家”階段之后,又將“通才”作為第三個預(yù)訓(xùn)練階段,以進(jìn)一步統(tǒng)一特征表示。
“書生”提出了一個新的范式,名為“混合參數(shù)共享”,從而開發(fā)一個名為“多面手”的通才模型。
具體來說,由于專家捕獲的知識是相互關(guān)聯(lián)的,當(dāng)專家的特征融合為一個共享的表示形式時,再利用基于軟共享的跨任務(wù)知識轉(zhuǎn)移和基于硬共享的通用表示學(xué)習(xí)的方法,在不引入任務(wù)沖突的情況下在專家之間傳遞信息(特征轉(zhuǎn)移),從而進(jìn)一步提高了多任務(wù)訓(xùn)練的模型(專家)性能,即“通才”能力。
在結(jié)構(gòu)上,通才模型是所有專家的一個相互關(guān)聯(lián)的版本,因此可以把每個“專家主干”稱為“通才分支”。此外,我們還可以根據(jù)訓(xùn)練相應(yīng)專家的任務(wù)將通才中的每個分支分為圖像、補丁和像素。但無論是軟共享還是硬共享,都意味著從專家模型到通才模型的一次躍升。
在經(jīng)歷了前三個訓(xùn)練階段模塊后,終于來到最后的任務(wù)遷移階段 (Adaptation)。
這個階段屬于技術(shù)鏈條的下游,用來解決各式各樣不同類型的任務(wù),而這也是最考驗“書生”舉一反三能力的時刻。它需要在這個階段把之前學(xué)到的通用知識,融會貫通地應(yīng)用到不同特定任務(wù)中。
在此之前,很多遷移學(xué)習(xí)方法確實取得了很多進(jìn)步,但問題是,這些方法既沒有利用上游預(yù)訓(xùn)練中的隱含信息,也沒有考慮到下游數(shù)據(jù)在少鏡頭場景中的不足。
因此,“書生”提出了一種Multi-stage Fine-tuning (MF)方法,緩解在數(shù)據(jù)較少的情況下傳輸?shù)睦щy,再通過將上游數(shù)據(jù)編碼成生成模型,即VQ-GAN,可以將預(yù)訓(xùn)練的模型轉(zhuǎn)移到多個任務(wù)和領(lǐng)域,而無需每次都使用上游數(shù)據(jù),而這也使得“書生”更具通用性和可擴展性。
多級微調(diào)(MF)概述:VQ-GAN模型首先在第一階段使用上游數(shù)據(jù)進(jìn)行訓(xùn)練,然后在第二階段由它重構(gòu)下游數(shù)據(jù)。在此之后,第三階段只對新增任務(wù)的特定參數(shù)進(jìn)行重新表示的圖像訓(xùn)練,第四階段則通過下游數(shù)據(jù)對整個模型進(jìn)行微調(diào)。
至此,一個具有持續(xù)學(xué)習(xí)能力的通用視覺模型終于出世。
而具體有哪些提升,不如看一下更直觀的實驗數(shù)據(jù)對比!
3 一網(wǎng)打盡視覺領(lǐng)域四大任務(wù)
視覺領(lǐng)域,任務(wù)繁多,主流任務(wù)包含分類、目標(biāo)檢測、語義分割、深度估計四大類型。
在這四大任務(wù)中,最強大的視覺模型還是去年OpenAI發(fā)布的CLIP模型。但相比較而言,“書生”則在準(zhǔn)確率和數(shù)據(jù)使用效率上都有所提升。
1、精度表現(xiàn)
通過對“書生”訓(xùn)練出的模型在GV-B上的評測對比,發(fā)現(xiàn)經(jīng)過多階段預(yù)訓(xùn)練的MetaNet精度表現(xiàn)優(yōu)異。
在ImageNet等26個最具代表性的下游場景中, “書生”在分類、目標(biāo)檢測、語義分割及深度估計等四大任務(wù)上,平均錯誤率分別降低了40.2%、47.3%、34.8%和9.4%。
書生(INTERN)與CLIP-R50x16在不同樣本量上的性能對比,正確率展示
2、數(shù)據(jù)使用效率
“書生”在數(shù)據(jù)效率方面的提升尤為矚目:只需要1/10的下游數(shù)據(jù),就能超過CLIP基于完整下游數(shù)據(jù)訓(xùn)練的準(zhǔn)確度。
以CLIP-R50x16和Up-G MN-B15在GV-B的評測對比為例,分別在分類、目標(biāo)檢測、語義分割、深度估計四大類型的26個下游任務(wù)數(shù)據(jù)集上進(jìn)行了評測,僅使用了10%數(shù)據(jù)進(jìn)行訓(xùn)練的Up-G MN-B15模型,在絕大部分?jǐn)?shù)據(jù)集上都能比使用了全部訓(xùn)練數(shù)據(jù)的CLIP-R50有更好的精度表現(xiàn)。這表明,經(jīng)過多階段預(yù)訓(xùn)練的MetaNet具有極強的泛化能力,能夠在僅有少量的訓(xùn)練樣本情況下,達(dá)到SOTA的精度表現(xiàn)。
在下游視覺場景中,小樣本訓(xùn)練帶來的是極高的訓(xùn)練速度,以及極低的訓(xùn)練成本。
例如在花卉種類識別任務(wù)上,“書生“只需要每一類型的花卉提供兩個訓(xùn)練樣本,就能實現(xiàn)99.7%的準(zhǔn)確率。
這個花卉數(shù)據(jù)集由102種英國常見的花組成,每個類別有40至258張圖片。其中包含有很大的比例、姿勢和光線變化。
102個類別的花卉數(shù)據(jù)集:
https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html
4 通用視覺平臺,已正式開源
如此強大的通用視覺訓(xùn)練模型已經(jīng)正式開源!
更關(guān)鍵的是,連同上述講到的標(biāo)簽數(shù)據(jù)集、網(wǎng)絡(luò)結(jié)構(gòu)以及評測基準(zhǔn),均在OpenGVLab被統(tǒng)一打包開源。
其中的網(wǎng)絡(luò)結(jié)構(gòu)除了MetaNet,還包含大家普遍使用的ResNet, MobileNet, ViT, EfficientNet等,以滿足不同場景的應(yīng)用,賦能計算機視覺。
然而,「書生」的布局不止于此。
OpenGVLab將與上海人工智能實驗室此前發(fā)布的OpenMMLab、OpenDILab一道,共同構(gòu)筑開源體系OpenXLab,持續(xù)推進(jìn)通用人工智能的技術(shù)突破和生態(tài)構(gòu)建。
一位已經(jīng)使用過此次開源平臺的自動駕駛算法研究員表示:“書生系列模型充分覆蓋了從移動可部署的小模型,到超大規(guī)模自研結(jié)構(gòu),為行業(yè)帶來了希望,尤其是它的收斂速度,大幅節(jié)省了訓(xùn)練開銷,是技術(shù)落地的一大助推器。“
不僅是自動駕駛領(lǐng)域,智慧城市、智慧醫(yī)療、智慧交通,以及千千萬萬其他的智能化領(lǐng)域,都將獲得通用視覺模型帶來的技術(shù)紅利。
一位騰訊研究員大贊OpenGVLab:“能把這么大的工作開源出來真的是業(yè)界良心。簡單用了一下,確實比CLIP要更fine-grained(細(xì)粒度更高)。”
而來自學(xué)界的師生也對此感慨有加:“OpenGVLab集成了大量各種量級的state-of-the-art(先進(jìn))模型,使用起來更得心應(yīng)手,省去了對不同codebase、不同模型繁瑣調(diào)研的煩惱?!?
換句話說,當(dāng)那些代碼和公式脫去了枯燥乏味的外衣,人們才發(fā)現(xiàn)了真正的創(chuàng)造力。而這,也是技術(shù)創(chuàng)新與平臺開源的魅力所在。
往近了說,用這款通用視覺模型打比賽,怕不是獎金多到飛起!在技術(shù)生產(chǎn)力的道路上,又誕生了一個致富小妙招!
目前,“書生”技術(shù)報告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平臺發(fā)布。
論文地址:arxiv.org/abs/2111.08687
以上就是關(guān)于模型評測相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服QQ: 1454722008(同微信)進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
商標(biāo)注冊了別人還能用嗎(商標(biāo)注冊了別人還能用嗎知乎)