HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務(wù)案例
NEWS 熱點資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    模型評測

    發(fā)布時間:2023-03-05 03:02:49     稿源: 創(chuàng)意嶺    閱讀: 914        問大家

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于模型評測的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,相關(guān)業(yè)務(wù)請撥打電話:175-8598-2043,或添加微信:1454722008

    本文目錄:

    模型評測

    一、ROC曲線原理實例分析 【1】

    在選擇診斷試驗時,許多研究者會在靈敏度和特異度之間進(jìn)行艱難的取舍。那么,是否可以綜合考慮靈敏度和特異度的特點,根據(jù)一個指標(biāo)評價診斷試驗的準(zhǔn)確性呢?受試者工作特征曲線(receiver operating characteristic curve,簡稱ROC曲線),用來描述診斷試驗的內(nèi)在真實程度,應(yīng)用十分廣泛。

    ROC曲線是以真陽性率(靈敏度)為縱坐標(biāo),假陽性率(1-特異度)為橫坐標(biāo)繪制的。每一個點都對應(yīng)診斷試驗的一個截點,我們將這些可能的點連接起來即可制作出經(jīng)驗ROC曲線(empirical ROC curve)。該方法可以幫助研究者簡單、直觀地分析診斷試驗的臨床準(zhǔn)確性,選擇更加合適的截點。

    一、背景介紹

    在介紹ROC曲線之前,首先來介紹一下預(yù)測模型的背景。

    (一)預(yù)測模型建模流程簡介

    1.利用數(shù)據(jù)中的訓(xùn)練集進(jìn)行模擬的生成。

    2.利用測試集進(jìn)行模型的評測。

    3.將評測的結(jié)果反饋給生成模型。

    4.若評測結(jié)果比較滿意,進(jìn)行生成模型的輸出,否則重新生成。

    那么測試集如何評測預(yù)測模型?這里引出混淆矩陣的概念。

    (二)混淆矩陣

    混淆矩陣也稱誤差矩陣,是表示精度評價的一種標(biāo)準(zhǔn)格式,常用來預(yù)測模型的準(zhǔn)確率。

    圖1 混淆矩陣

    P:樣本中的正例,n:樣本中的負(fù)例 Y:通過模型預(yù)測出來樣本中的正列,N:通過模型預(yù)測出來樣本中的負(fù)列 TP(True Positives):本來是正列,通過模型預(yù)測出來也是正列FP(False Positives):本來是負(fù)列,通過模型預(yù)測出來也是正列預(yù)測模型準(zhǔn)確率accuracy=(TP+TN)/(P+n) (三)案例分析

    表1 原始數(shù)據(jù)

    從表1可以看出,有20個觀測值,結(jié)局有1和0兩種狀態(tài),分別代表著陽性和陰性。類似于Logistic回歸當(dāng)中某個人是否患疾病,患病為1,不患病為0。預(yù)測概率是通過Logistic回歸預(yù)測的結(jié)果。那怎么去預(yù)測這組概率的準(zhǔn)確率呢?

    從表2中可以看出前6個數(shù)據(jù)預(yù)測結(jié)局為陽性,其他14個數(shù)據(jù)預(yù)測結(jié)局為陰性。計算它的混淆矩陣如表3,真實結(jié)局中有10個1和10個0。但是預(yù)測結(jié)局的陽性數(shù)有6個,其中有5個是真實陽性,有1個是真實陰性。第三個觀測值結(jié)局本來是陰性的,但預(yù)測結(jié)局是陽性的,這個觀測值預(yù)測錯誤。同理,預(yù)測結(jié)局的陰性數(shù)有14個,其中有9個是真實陰性,有5個是真實陽性。第九個觀測值結(jié)局本來是陽性的,但預(yù)測結(jié)局是陰性的,這個觀測值預(yù)測錯誤。

    表3 混淆矩陣表

    真陽率是指本來是陽性的,預(yù)測出的結(jié)果也是陽性的。假陽率是指本來是陰性的,但預(yù)測出的結(jié)果是陽性的。從表3中可以看出,在真實陽性數(shù)這一豎列中,預(yù)測正確的觀測值有5個,所以真陽率(TPR)=5/P=5/10=0.5。在真實陰性數(shù)這一豎列中,預(yù)測正確的觀測值有1個,所以假陽率(FPR)=1/n=1/10=0.1。

    同理真陰率(TNR)=9/10=0.1,假陰率(FNR)=5/10=0.5。

    表4 真陽率和假陽率

    從表4可以看出,以0.54為閾值,作出來的混淆矩陣真陽率為0.5,假陽率為0.1。真陽率和假陽率是以每一次相應(yīng)的預(yù)測概率為閾值,算出混淆矩陣而得到的。

    將1-20每個樣本的評分均作為分類器的判定閾值,可以得到20組TPR和FPR的有序數(shù)對。然后以TPR和FPR為兩個坐標(biāo)軸建立一個直角坐標(biāo)系,就可以得到圖2。

    圖2 TPR和FPR的有序數(shù)對

    二、ROC曲線概念

    ROC曲線:受試者工作特征曲線(receiver operating characteristic curve,簡稱ROC曲線),又稱為感受性曲線(sensitivity curve)。

    采用真陽性率和假陽性率作出的曲線,適用于診斷試驗結(jié)果為連續(xù)變量。試驗的真陽性率(Sen)為縱坐標(biāo)(Y),假陽性率(1-Spe)為橫坐標(biāo)(X),坐標(biāo)軸上的率值由0 1或0% 100%。

    圖3 ROC曲線示意圖橫軸FPR:1-TPR,1-Specificity,F(xiàn)PR越大,預(yù)測正類中實際負(fù)類越多??v軸TPR:Sensitivity,TPR越大,預(yù)測正類中實際正類越多。理想目標(biāo):TPR=1,TPR=0,即圖中(0,1)點,故ROC曲線越靠攏(0,1)點,越偏離45°對角線越好,Sensitivity、Specificity越大效果越好。

    三、最佳閾值的確定——約登指數(shù)

    約登指數(shù)(Youden index,YI):是評價篩查試驗真實性的方法,假設(shè)其假陰性和假陽性的危害性同等意義時,即可應(yīng)用約登指數(shù)。約登指數(shù)=靈敏度Sensitivity+特異度Specificit-1=[a/(a+c)+d/(b+d)]-1。指數(shù)越大說明篩查試驗的效果越好,真實性越大。從表中可以看出,真陽率與假陽率的差值就是約登指數(shù),最大的約登指數(shù)為0.4,0.4對應(yīng)的預(yù)測概率為0.54,大于0.54認(rèn)為是陽性的,小于0.54認(rèn)為是陰性的。0.54就是最佳閾值。

    四、AUC概念

    AUC(Area Under Curve)值為ROC曲線下方的面積大小。顯然,AUC越大,預(yù)測效果越好。AUC=1,是完美分類器,采用這個預(yù)測模型時,不管設(shè)定什么截斷點都能得出完美預(yù)測。絕大多數(shù)預(yù)測的場合,不存在完美分類器。0.5<AUC<1,優(yōu)于隨機猜測。這個預(yù)測模型妥善設(shè)定截斷點的話,能有預(yù)測價值。AUC=0.5,跟隨機猜測一樣(例:拋硬幣),模型沒有預(yù)測價值。AUC<0.5,比隨機猜測還差,但只要總是反預(yù)測而行,就優(yōu)于隨機預(yù)測。

    圖4 包含AUC值的ROC曲線

    [參考資料]( https://mp.weixin.qq.com/s?src=11&timestamp=1584533576&ver=2224&signature=6PwC6AuccTKFKXc0sXP0Cp7rEVSF3Qp2QFHfyfE 7Bq3d1cN-XspGn-EV2gqpTVgaS2q 1ZBqgxp7bx3zDNkhfOxz7DM62BCpshh*EiK7oj9QD517iKBdoR58gaYLBMM&new=1

    二、收型不錯選擇——評測保時捷911汽車模型

    模型評測

    很高興能參加到家家眾測的活動當(dāng)中來,期盼已久的家家眾測雨露均沾的活動終于又來看了,這次活動的獎品是一個2T的移動硬盤,為了它,讓我們一起發(fā)發(fā)發(fā)吧。

    這次給大家評測的是一款汽車模型,是來自保時捷的911,品牌是威利的國產(chǎn)入門的模型品牌,絕對是出入門者的不錯選擇 首先就是它的型比較準(zhǔn)確,整體的比例協(xié)調(diào),還原了實車的形態(tài),兩車門,前后蓋都能開啟,前輪轉(zhuǎn)向角度比較滿意,外拍時候能擺出更多姿勢,帶全窗玻璃,要知道這個價位不容易,20寸輪轂做工精致,還原度很高,以假亂真,卡鉗也有噴紅處理,一定給個贊,內(nèi)飾做工還算滿意,雖然沒有植絨,但是各個按鍵,小細(xì)節(jié)還算到位。下面一起具體看看吧

    模型評測

    前臉呆萌,和實車保持一致,只是這大燈,黑壓壓一片,顯得不那么精神,日行燈LED燈的細(xì)節(jié)造型倒是不錯,還是一句話成本成本,不然哪來的這么高性價比

    模型評測

    模型評測

    模型評測

    車身側(cè)面線條完美還原了蛙王的神韻,縫隙做的也還可以

    模型評測

    飽滿的尾部十分有力量,只是尾燈依舊無神

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    這款車魔師全開模型,什么是全開,就是車門前后蓋能打開,增加可玩性,只是內(nèi)飾細(xì)節(jié)一般,不夠豐富

    模型評測

    前備箱也是黑壓壓一片沒什么細(xì)節(jié)

    模型評測

    尾部保時捷的字樣是印上去的字,不是立體的,排氣管塑料感略強,不過畢竟價位在這,收型的不錯選擇

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    三、性價比之選,評測英菲尼迪Q50模型,一起發(fā)發(fā)發(fā)

    模型評測

    很高興能參加到家家眾測的活動當(dāng)中來,期盼已久的家家眾測雨露均沾的活動終于又來看了,這次活動的獎品是一個2T的移動硬盤,為了它,讓我們一起發(fā)發(fā)發(fā)吧。

    今天來評測一款英菲尼迪Q50汽車模型,這款模型是原廠車模,比例是1:18的,這款模型在原廠模型黨中可以說是屬于上等水平,為什么這么說呢,聽我慢慢道來 首先這款模型是合金材質(zhì),非常有分量,整體造型也非常的精準(zhǔn),還原度很高,漆面采用了和真是一樣的金屬漆,表面非常光滑,這款模型有兩個顏色,一個就是這款紅色,還有一個白色,白色的價格要高上許多,不過紅色也還不錯吧,再有他的大燈,內(nèi)部的構(gòu)造十分細(xì)膩,把實車的眼神很好地還原了出來,車子的四車門,前后蓋都能夠打開,不僅如此,像后視鏡折疊,天窗開啟,甚至油箱蓋都能打開,可玩性很高,內(nèi)飾也非常的逼真,有植絨,一般原廠車模都會有植絨,還有一點,他的前后蓋不再是大狗腿的結(jié)構(gòu),竟然用上了金屬鉸鏈和液壓桿,非常走心,所以這款Q50模型的性價比還是非常高的

    犀利的外形,模型把他犀利的身姿完美的展現(xiàn)出來

    模型評測

    前后比例十分協(xié)調(diào)

    模型評測

    鷹眼式的大燈炯炯有神

    模型評測

    模型評測

    尾部仿真度也很高,特別是這兩個尾喉,十分粗壯有力

    模型評測

    模型評測

    模型評測

    模型評測

    內(nèi)飾,經(jīng)典的雙屏設(shè)計,模型也沒有含糊,都還原了出來

    模型評測

    模型評測

    打開機蓋,這才是精華所在,超多的分色處理,機油尺,管道,冷卻壺都栩栩如生

    模型評測

    液壓桿,鉸鏈,真是下足了功夫

    模型評測

    模型評測

    一起欣賞一下

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    模型評測

    四、只需要十分之一數(shù)據(jù),就能通關(guān)四大視覺任務(wù),居然還開源了

    Github鏈接:https://github.com/opengvlab

    家人們,你們有沒有這種苦惱?

    搬一次家就換一次家具,那些又貴又重的家具既不好搬運,又不好全部帶走。

    下一次又重新購置一遍家具,浪費錢不說,關(guān)鍵是來來回回都做一樣的事情!家具還沒用過幾次,利用率不高呀!

    這種搬家的苦惱,就好比AI領(lǐng)域,做幾個任務(wù)就需要開發(fā)幾個高度定制的模型,不僅所需的數(shù)據(jù)采集量非常大,每次還都得從頭標(biāo)注。既提不起數(shù)據(jù)的學(xué)習(xí)效率,又耗費巨大的數(shù)據(jù)獲取成本。

    光是AI前端研究就耗費如此巨大的精力,更別提應(yīng)用場景中數(shù)以萬計的長尾任務(wù)。

    那怎么辦?

    做一款通用的深度學(xué)習(xí)模型,才是關(guān)鍵。

    1 通用,才是技術(shù)根本

    目前,通用語言模型(GLM)已經(jīng)取得了令人矚目的進(jìn)展,比如BERT、T5和GPT-3,它們在應(yīng)對廣泛的語言下游任務(wù)時已經(jīng)游刃有余。

    相形之下,通用視覺模型(GVM)的研究遲遲未交出一份令人滿意的答卷。

    以往的大多數(shù) GVM 研究主要利用一種監(jiān)督信號來源,如 ViT-G/14 采用有標(biāo)簽監(jiān)督,SEER 采用樣本的不同增強之間的對比學(xué)習(xí),CLIP采用圖片文本對進(jìn)行監(jiān)督。如果是在單個監(jiān)督信號下進(jìn)行的預(yù)訓(xùn)練,這幾種范式確實能夠生成在固定場景下表現(xiàn)良好的模型。但如果用在場景多元、任務(wù)多樣的下游場景,這些模型就難以勝任了。

    比如現(xiàn)在最火的自動駕駛, 汽車 處于移動狀態(tài),既要看到路況,又要看到紅綠燈,還要注意行人,甚至在智能座艙興起后,還要和語言技術(shù)、LBS場景服務(wù)協(xié)同,這么多的感知數(shù)據(jù)與協(xié)同任務(wù),這么多隨機的新任務(wù),無論在體量還是維度方面,都對視覺模型的要求極大提高。

    這時,打造一款通用視覺模型,降低研發(fā)門檻,尤其是學(xué)術(shù)界的時間成本、資金成本,才能暢享下游的極致場景體驗。

    去年11月,上海人工智能實驗室聯(lián)合商湯 科技 、香港中文大學(xué)、上海交通大學(xué)發(fā)布通用視覺技術(shù)體系“書生”(INTERN),一套持續(xù)學(xué)習(xí)框架,用于系統(tǒng)化解決當(dāng)下人工智能視覺領(lǐng)域中存在的任務(wù)通用、場景泛化和數(shù)據(jù)效率等一系列瓶頸問題。

    前不久,上海人工智能實驗室聯(lián)合商湯 科技 發(fā)布通用視覺開源平臺OpenGVLab,面向?qū)W術(shù)界和產(chǎn)業(yè)界開放其超高效預(yù)訓(xùn)練模型、超大規(guī)模公開數(shù)據(jù)集,以及業(yè)內(nèi)首個針對通用視覺模型的評測基準(zhǔn)。

    這些開源技術(shù),究竟有何魔力?

    2 大力出奇跡,打造通用視覺模型

    “書生” (INTERN),就是練就通用視覺能力的底層技術(shù)。

    從技術(shù)實現(xiàn)上講,“書生”技術(shù)體系由由七大模塊組成,包括三個基礎(chǔ)設(shè)施模塊和四個訓(xùn)練階段構(gòu)成。

    書生(INTERN)結(jié)構(gòu)圖

    首先,通用視覺數(shù)據(jù)系統(tǒng)。

    這是一個超大規(guī)模的精標(biāo)數(shù)據(jù)集,擁有100億個樣本和各種監(jiān)督信號,并依照四大視覺任務(wù)分別設(shè)置了四個數(shù)據(jù)子集:多模態(tài)數(shù)據(jù)GV-D- 10B分類標(biāo)注的GV-Dc-36M、檢測標(biāo)注的GV-Dd-3M、分割標(biāo)注的GV-Ds-143K。

    另外,這一數(shù)據(jù)集還包含11.9萬的標(biāo)簽系統(tǒng),不僅涵蓋了自然界的眾多領(lǐng)域和目前計算機視覺研究中的幾乎所有標(biāo)簽,還擴充了大量細(xì)粒度標(biāo)簽,涵蓋各類圖像中的屬性、狀態(tài)等。

    而這,就是書生“大力出奇跡”的一大注腳。

    其次,通用視覺模型結(jié)構(gòu)。

    它是由一個具有CNN和Transformer的統(tǒng)一搜索空間構(gòu)建而成。

    為何要建立這樣的混合結(jié)構(gòu)?要知道,多年來,卷積神經(jīng)網(wǎng)絡(luò)(CNN)一直主導(dǎo)著視覺表征學(xué)習(xí),并在圖像分類、目標(biāo)檢測和語義分割等下游任務(wù)中表現(xiàn)出穩(wěn)定的可遷移性。但最近幾年,Vision Transformer (ViT)僅使用普通的Transformer結(jié)構(gòu)就能作為圖像編碼模型在ImageNet-1k上取得媲美 CNN 的性能,在大規(guī)模數(shù)據(jù)集上 ViT 更是展示出比 CNN 更大的潛力。

    盡管ViT在性能上有優(yōu)點,但純Transformer網(wǎng)絡(luò)相比卷積神經(jīng)網(wǎng)絡(luò)缺乏某些歸納偏置(inductive biases),因此需要更多的數(shù)據(jù)和計算資源。此外,自注意的計算成本相對于輸入的數(shù)量是平方的,限制了對高輸入分辨率的應(yīng)用。因此,將CNN和Transformer和MLP結(jié)合起來,平衡效率和有效性兩個方面,才是模型通用的關(guān)鍵。

    這種兼具更好的泛化能力和更高的模型容量的模型結(jié)構(gòu)名為MetaNet。在MetaNet網(wǎng)絡(luò)結(jié)構(gòu)族里面進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)搜索,從而得到最優(yōu)的一個模型訓(xùn)練結(jié)構(gòu)。

    統(tǒng)一搜索的MetaNet架構(gòu):Conv和Trans分別表示卷積和Transformer。C和S為每一階輸出通道數(shù)和步幅。

    具體來看,MetaNet不僅基于強化學(xué)習(xí) 的PPO算法提出了統(tǒng)一搜索架構(gòu),并且,為了避免傳統(tǒng)的下采樣模塊會成為模型性能的瓶頸,“書生“結(jié)合了包含 local-global-DSM (LG_DSM) 和 global-DSM (G-DSM)的context-aware down-sampling modules (DSM),用來代替原本的下采樣模塊。

    因此,在淺層,模型依然使用卷積來提取特征,但在深層,模型卻能將Transformer模塊和LG-DSM結(jié)合使用,以便于更好地提取全局信息。

    同時,書生還基于最大的MetaNet-B15蒸餾出了多達(dá)13種不同的模型結(jié)構(gòu),共24種不同的模型權(quán)重,現(xiàn)已全部開源。

    這些模型結(jié)構(gòu)基本涵蓋了現(xiàn)有市面上大部分的主流backbone,不僅能夠很輕易地遷移到所需要的算法框架作為新網(wǎng)絡(luò)預(yù)訓(xùn)練的初始化,而且只需要更短的訓(xùn)練時間就可以達(dá)到比原來更好的訓(xùn)練效果。

    MetaNet 模型與其他模型結(jié)構(gòu)比較,結(jié)果如下:

    基于卷積、Transformer和兩者混合的結(jié)構(gòu),分別用C,T和H表示,可以看出,在圖像分類性能上,MetaNet系列的MN-B1,MN-B4和MN-B7,和其他的SOTA模型相比,不僅有更高的精度,還有更低的FLOPS和參數(shù)量。

    除了分類任務(wù),把MetaNet做為檢測和分割的backbone,在COCO數(shù)據(jù)集上使用Mask R-CNN結(jié)構(gòu)訓(xùn)練,結(jié)果發(fā)現(xiàn):在模型參數(shù)量更小的前提下,MN-B4比Swin-T精度高出2到4個點。另外還在ADE20K數(shù)據(jù)集上進(jìn)行了語義分割任務(wù),MN-B4的mIoU指標(biāo)比Swin-T高出5個點之多。

    上述兩個實驗結(jié)果表明,MetaNet系列模型結(jié)構(gòu),在模型精度與計算量之間,都達(dá)到了新的SOTA!

    最后,通用視覺評測基準(zhǔn)。

    視覺評測基準(zhǔn)GV-B ,就像是一個「擂臺」。

    如下表所示,測評基準(zhǔn)收集了 26 個下游任務(wù)數(shù)據(jù)集,囊括了 4 種視覺任務(wù)類型:分類,檢測,分割和深度估計。

    在設(shè)置上,該基準(zhǔn)引入了百分比樣本(percentage-shot),只需要選取整個數(shù)據(jù)集的一部分,例如 10%、20% ,對比縮小下游任務(wù)的訓(xùn)練數(shù)據(jù)量后的模型性能。

    與傳統(tǒng)的少樣本設(shè)置相比,這種百分比樣本設(shè)置可以很好地保留原始數(shù)據(jù)集的長尾分布等屬性,并減輕對樣本選擇的敏感性。因為有一些數(shù)據(jù)集樣本類別分布不平衡,比如下表中的VOC07+12,百分比數(shù)據(jù)的劃分方式卻會繼承這種分布情況。

    右側(cè)三列avg,min和max,分別表示在10%的數(shù)據(jù)中,不同類別樣本數(shù)量的平均值,最小值和最大值。

    結(jié)合上述數(shù)據(jù)集和任務(wù)類型,論文選取了一些具有代表性的模型來做評測對比。為了比較公平性,該對比使用了這些模型的官方預(yù)訓(xùn)練權(quán)重。這些模型包括:

    有了超大精標(biāo)數(shù)據(jù)集、模型結(jié)構(gòu),以及評測基準(zhǔn)后,已經(jīng)是萬事俱備,只欠訓(xùn)練。

    書生作為中國古代讀書人的經(jīng)典形象,代表著一個通過不斷學(xué)習(xí)、不斷成長進(jìn)而擁有各方面才能的人格化角色:從基礎(chǔ)的知識技能學(xué)習(xí)開始,到對多種專業(yè)知識觸類旁通,進(jìn)而成長為擁有通用知識的通才。借此意象,“書生”(INTERN)系統(tǒng)可通過持續(xù)學(xué)習(xí),舉一反三,逐步實現(xiàn)通用視覺領(lǐng)域的融會貫通,最終實現(xiàn)靈活高效的模型部署。

    下面就來看看,這套系統(tǒng)是如何通過訓(xùn)練,一步步從生手變成專家再到多面手,最終在各種任務(wù)中大顯身手。

    第一階段,訓(xùn)練的是基礎(chǔ)能力,被稱為“基礎(chǔ)模型”(Amateur)。

    然而CLIP需要400M的圖像-文本對進(jìn)行前訓(xùn)練,囿于極大的數(shù)據(jù)量,CLIP很難進(jìn)一步發(fā)展。但“書生”提出了一種新的訓(xùn)練范式,DeCLIP(Data efficient CLIP ),能夠同時使用來自圖像-文本、圖像-圖像和文本-文本對的監(jiān)督信號進(jìn)行模型預(yù)訓(xùn)練,從而更有效地實現(xiàn)通用性。

    此外,為了充分利用大規(guī)模多模態(tài)數(shù)據(jù)獲取基礎(chǔ)模型的優(yōu)勢,這一階段提出了Upstream-Amateur (Up-A)視覺語言預(yù)訓(xùn)練框架,同時挖掘模態(tài)內(nèi)和跨模態(tài)知識。

    這一訓(xùn)練框架分為兩個預(yù)訓(xùn)練階段:Upstream-Amateur for Global Representation (Up-A-G)和Upstream-Amateur for Local Representation (Up-A-L)。

    其中,Up-A-G(左)使用群體監(jiān)督功能,從更豐富的監(jiān)督中學(xué)習(xí)。Up-A-L(右)采用局部自我監(jiān)督學(xué)習(xí)方法,對訓(xùn)練好的視覺-語言模型進(jìn)行調(diào)整,從而提高自身在密集預(yù)測CV任務(wù)中的表現(xiàn)。

    Upstream-Amateur的框架

    得益于這些內(nèi)在的監(jiān)督,DeCLIP-ResNet50可以在ImageNet上實現(xiàn)60.4%的zero-shot 精度第一。這比CLIP-ResNet50高出0.8%,數(shù)據(jù)使用量少了81%。當(dāng)遷移到下游任務(wù)時,DeCLIP-ResNet50在11個視覺數(shù)據(jù)集中有8個優(yōu)于CLIP。

    更關(guān)鍵的是,訓(xùn)練完成的Upstream-Amateur為后續(xù)的訓(xùn)練階段提供了一個很高的起點。

    第二階段,訓(xùn)練的是專業(yè)能力,被稱為“專家模型”(Expert)。

    Up-A階段得到的基礎(chǔ)模型,在一般的視覺識別問題上顯示出優(yōu)異的性能。但要完全掌握檢測、分割等更具體的任務(wù),還需要在每個任務(wù)中進(jìn)行更專業(yè)的預(yù)訓(xùn)練,這就促成了第二個階段的到來,專家模型。

    對于每個專家,“書生”采用了一種簡單的多頭設(shè)計,每個頭是一個特定數(shù)據(jù)集的子網(wǎng)絡(luò),從一個公共的、共享的“主干”分支出來。比如Up-E (C)、Up-E (D)和Up-E (S),分別用于圖像分類、對象檢測和語義分割。

    第三階段,訓(xùn)練的是組合能力,被稱為“通才模型”(Generalist)。

    上述的多任務(wù)是指不同數(shù)據(jù)集(如ImageNet和CIFAR)的一個視覺問題(如分類),或一個數(shù)據(jù)集的多個視覺問題(如分類和檢測)。但關(guān)鍵是,如何將專家整合到一個統(tǒng)一的模型中,獲得一個更加通用的視覺模型。因此,在預(yù)訓(xùn)練“專家”階段之后,又將“通才”作為第三個預(yù)訓(xùn)練階段,以進(jìn)一步統(tǒng)一特征表示。

    “書生”提出了一個新的范式,名為“混合參數(shù)共享”,從而開發(fā)一個名為“多面手”的通才模型。

    具體來說,由于專家捕獲的知識是相互關(guān)聯(lián)的,當(dāng)專家的特征融合為一個共享的表示形式時,再利用基于軟共享的跨任務(wù)知識轉(zhuǎn)移和基于硬共享的通用表示學(xué)習(xí)的方法,在不引入任務(wù)沖突的情況下在專家之間傳遞信息(特征轉(zhuǎn)移),從而進(jìn)一步提高了多任務(wù)訓(xùn)練的模型(專家)性能,即“通才”能力。

    在結(jié)構(gòu)上,通才模型是所有專家的一個相互關(guān)聯(lián)的版本,因此可以把每個“專家主干”稱為“通才分支”。此外,我們還可以根據(jù)訓(xùn)練相應(yīng)專家的任務(wù)將通才中的每個分支分為圖像、補丁和像素。但無論是軟共享還是硬共享,都意味著從專家模型到通才模型的一次躍升。

    在經(jīng)歷了前三個訓(xùn)練階段模塊后,終于來到最后的任務(wù)遷移階段 (Adaptation)。

    這個階段屬于技術(shù)鏈條的下游,用來解決各式各樣不同類型的任務(wù),而這也是最考驗“書生”舉一反三能力的時刻。它需要在這個階段把之前學(xué)到的通用知識,融會貫通地應(yīng)用到不同特定任務(wù)中。

    在此之前,很多遷移學(xué)習(xí)方法確實取得了很多進(jìn)步,但問題是,這些方法既沒有利用上游預(yù)訓(xùn)練中的隱含信息,也沒有考慮到下游數(shù)據(jù)在少鏡頭場景中的不足。

    因此,“書生”提出了一種Multi-stage Fine-tuning (MF)方法,緩解在數(shù)據(jù)較少的情況下傳輸?shù)睦щy,再通過將上游數(shù)據(jù)編碼成生成模型,即VQ-GAN,可以將預(yù)訓(xùn)練的模型轉(zhuǎn)移到多個任務(wù)和領(lǐng)域,而無需每次都使用上游數(shù)據(jù),而這也使得“書生”更具通用性和可擴展性。

    多級微調(diào)(MF)概述:VQ-GAN模型首先在第一階段使用上游數(shù)據(jù)進(jìn)行訓(xùn)練,然后在第二階段由它重構(gòu)下游數(shù)據(jù)。在此之后,第三階段只對新增任務(wù)的特定參數(shù)進(jìn)行重新表示的圖像訓(xùn)練,第四階段則通過下游數(shù)據(jù)對整個模型進(jìn)行微調(diào)。

    至此,一個具有持續(xù)學(xué)習(xí)能力的通用視覺模型終于出世。

    而具體有哪些提升,不如看一下更直觀的實驗數(shù)據(jù)對比!

    3 一網(wǎng)打盡視覺領(lǐng)域四大任務(wù)

    視覺領(lǐng)域,任務(wù)繁多,主流任務(wù)包含分類、目標(biāo)檢測、語義分割、深度估計四大類型。

    在這四大任務(wù)中,最強大的視覺模型還是去年OpenAI發(fā)布的CLIP模型。但相比較而言,“書生”則在準(zhǔn)確率和數(shù)據(jù)使用效率上都有所提升。

    1、精度表現(xiàn)

    通過對“書生”訓(xùn)練出的模型在GV-B上的評測對比,發(fā)現(xiàn)經(jīng)過多階段預(yù)訓(xùn)練的MetaNet精度表現(xiàn)優(yōu)異。

    在ImageNet等26個最具代表性的下游場景中, “書生”在分類、目標(biāo)檢測、語義分割及深度估計等四大任務(wù)上,平均錯誤率分別降低了40.2%、47.3%、34.8%和9.4%。

    書生(INTERN)與CLIP-R50x16在不同樣本量上的性能對比,正確率展示

    2、數(shù)據(jù)使用效率

    “書生”在數(shù)據(jù)效率方面的提升尤為矚目:只需要1/10的下游數(shù)據(jù),就能超過CLIP基于完整下游數(shù)據(jù)訓(xùn)練的準(zhǔn)確度。

    以CLIP-R50x16和Up-G MN-B15在GV-B的評測對比為例,分別在分類、目標(biāo)檢測、語義分割、深度估計四大類型的26個下游任務(wù)數(shù)據(jù)集上進(jìn)行了評測,僅使用了10%數(shù)據(jù)進(jìn)行訓(xùn)練的Up-G MN-B15模型,在絕大部分?jǐn)?shù)據(jù)集上都能比使用了全部訓(xùn)練數(shù)據(jù)的CLIP-R50有更好的精度表現(xiàn)。這表明,經(jīng)過多階段預(yù)訓(xùn)練的MetaNet具有極強的泛化能力,能夠在僅有少量的訓(xùn)練樣本情況下,達(dá)到SOTA的精度表現(xiàn)。

    在下游視覺場景中,小樣本訓(xùn)練帶來的是極高的訓(xùn)練速度,以及極低的訓(xùn)練成本。

    例如在花卉種類識別任務(wù)上,“書生“只需要每一類型的花卉提供兩個訓(xùn)練樣本,就能實現(xiàn)99.7%的準(zhǔn)確率。

    這個花卉數(shù)據(jù)集由102種英國常見的花組成,每個類別有40至258張圖片。其中包含有很大的比例、姿勢和光線變化。

    102個類別的花卉數(shù)據(jù)集:

    https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html

    4 通用視覺平臺,已正式開源

    如此強大的通用視覺訓(xùn)練模型已經(jīng)正式開源!

    更關(guān)鍵的是,連同上述講到的標(biāo)簽數(shù)據(jù)集、網(wǎng)絡(luò)結(jié)構(gòu)以及評測基準(zhǔn),均在OpenGVLab被統(tǒng)一打包開源。

    其中的網(wǎng)絡(luò)結(jié)構(gòu)除了MetaNet,還包含大家普遍使用的ResNet, MobileNet, ViT, EfficientNet等,以滿足不同場景的應(yīng)用,賦能計算機視覺。

    然而,「書生」的布局不止于此。

    OpenGVLab將與上海人工智能實驗室此前發(fā)布的OpenMMLab、OpenDILab一道,共同構(gòu)筑開源體系OpenXLab,持續(xù)推進(jìn)通用人工智能的技術(shù)突破和生態(tài)構(gòu)建。

    一位已經(jīng)使用過此次開源平臺的自動駕駛算法研究員表示:“書生系列模型充分覆蓋了從移動可部署的小模型,到超大規(guī)模自研結(jié)構(gòu),為行業(yè)帶來了希望,尤其是它的收斂速度,大幅節(jié)省了訓(xùn)練開銷,是技術(shù)落地的一大助推器。“

    不僅是自動駕駛領(lǐng)域,智慧城市、智慧醫(yī)療、智慧交通,以及千千萬萬其他的智能化領(lǐng)域,都將獲得通用視覺模型帶來的技術(shù)紅利。

    一位騰訊研究員大贊OpenGVLab:“能把這么大的工作開源出來真的是業(yè)界良心。簡單用了一下,確實比CLIP要更fine-grained(細(xì)粒度更高)。”

    而來自學(xué)界的師生也對此感慨有加:“OpenGVLab集成了大量各種量級的state-of-the-art(先進(jìn))模型,使用起來更得心應(yīng)手,省去了對不同codebase、不同模型繁瑣調(diào)研的煩惱?!?

    換句話說,當(dāng)那些代碼和公式脫去了枯燥乏味的外衣,人們才發(fā)現(xiàn)了真正的創(chuàng)造力。而這,也是技術(shù)創(chuàng)新與平臺開源的魅力所在。

    往近了說,用這款通用視覺模型打比賽,怕不是獎金多到飛起!在技術(shù)生產(chǎn)力的道路上,又誕生了一個致富小妙招!

    目前,“書生”技術(shù)報告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平臺發(fā)布。

    論文地址:arxiv.org/abs/2111.08687

    以上就是關(guān)于模型評測相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服QQ: 1454722008(同微信)進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    玩具車模型哪個品牌好(玩具車模型哪個品牌好一點)

    鷹翔模型新品

    屬于概念模型的是(屬于概念模型的是)

    商標(biāo)注冊了別人還能用嗎(商標(biāo)注冊了別人還能用嗎知乎)

    餐飲品牌策劃(餐飲品牌策劃公司)