HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    gpt模型參數(shù)量

    發(fā)布時(shí)間:2023-03-12 19:22:17     稿源: 創(chuàng)意嶺    閱讀: 131        問大家

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于gpt模型參數(shù)量的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    ChatGPT國內(nèi)免費(fèi)在線使用,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com

    本文目錄:

    gpt模型參數(shù)量

    一、1億的數(shù)據(jù)大概需要多少硬件資源

    1億的數(shù)據(jù)大概需要11.9mb硬件資源

    1000000000÷8÷1024÷1024≈119.21MB

    也就是存儲(chǔ)10億的數(shù)據(jù)只需要119MB左右的內(nèi)存空間,這對于現(xiàn)在動(dòng)輒16G、32G集群版的redis,完全沒有問題。

    需要注意的是,如果你的數(shù)據(jù)量不大,那就不要把起始偏移量搞的很大,這樣也是占空間的,比如我們只需要存儲(chǔ)幾百條數(shù)據(jù),但是其中的偏移量卻很大,這就會(huì)造成了很大的內(nèi)存空間浪費(fèi)。

    二、05-ELMo/BERT/GPT-NLP預(yù)訓(xùn)練模型

    這里可以參考CSDN上的文章-BERT原理和實(shí)踐: https://blog.csdn.net/jiaowoshouzi/article/category/9060488

    在解釋BERT,ELMO這些預(yù)訓(xùn)練模型之前,我們先看一下很久之前的計(jì)算機(jī)是如何讀懂文字的?

    每個(gè)字都有自己的獨(dú)特的編碼。但是這樣是有弊端的,字和字之間的關(guān)聯(lián)關(guān)系是無法得知的,比如計(jì)算機(jī)無法知道dog和cat都是動(dòng)物,它反而會(huì)覺得bag和dog是比較相近的。

    所以后來就有了Word Class,將一系列的詞進(jìn)行分類然后讓一類詞語和一類詞語之間更有關(guān)聯(lián),但是這樣的方法太過于粗糙,比如dog,cat,bird是一類,看不出哺乳動(dòng)物鳥類的區(qū)別。

    在這個(gè)基礎(chǔ)之上,我們有了Word Embedding,Word Embedding我們可以想象成是一種soft的word class,每個(gè)詞都用向量來表示,它的向量維度可能表示這個(gè)詞匯的某種意思,如圖中dog,cat,rabbit的距離相比其他更近。那么word embendding是如何訓(xùn)練出來的,是根據(jù)每個(gè)詞匯的上下文所訓(xùn)練的。

    每個(gè)句子都有bank的詞匯,四個(gè)bank是不同的token,但是同樣的type。(注:token-詞例, type-詞型, class-詞類 or token是出現(xiàn)的總次數(shù)(還有種理解是token是具有一定的句法語義且獨(dú)立的最小文本成分。 ),type是出現(xiàn)的不同事物的個(gè)數(shù)。)

    對于典型的Word Embedding認(rèn)為,每個(gè)詞type有一個(gè)embedding,所以就算是不同的token只要是一樣的type那么word embedding就是一樣的,語義也就是一樣的。

    而事實(shí)上并非如此,1,2句bank指的是銀行,3,4為水庫。所以我們希望讓機(jī)器給不同意思的token而且type還一致,給予不同的embedding。在這個(gè)問題上,之前的做法是從字典中去查找這個(gè)詞包含幾種意思,但是這樣的做法顯然跟不上現(xiàn)實(shí)中詞語的一些隱含的含義。比如bank有銀行的意思,與money一起是銀行的意思,而與blood一起卻是血庫的意思。

    所以我們想讓機(jī)器今天進(jìn)一步做到每一個(gè)word token都可以有自己的embedding(之前是每個(gè)type有一個(gè)embedding或者有固定的一個(gè)或多個(gè)embedding),那么怎么知道一個(gè)word應(yīng)該有怎樣的embedding呢?我們可以取決于該詞的上下文,上下文越相近的token它們就會(huì)越相近的embedding。比如之前提到的bank,下面兩個(gè)句子它們的word token的embedding可能是相近的,而和上面的word token的embedding是相遠(yuǎn)的。

    所以我們想使用一種能夠基于上下文的Contextual word Embedding來解決一詞多義的問題。

    這里使用ELMO可以做到這件事情,即每個(gè)word token擁有不同的word embedding。(右上角動(dòng)物是芝麻街(美國公共廣播協(xié)會(huì)(PBS)制作播出的兒童教育電視節(jié)目)里的角色)。

    它是基于RNN的預(yù)訓(xùn)練模型,它只需要搜集大量語料(句子)且不需要做任何標(biāo)注,就可以訓(xùn)練這個(gè)基于RNN的語言模型,預(yù)測下一個(gè)token是什么,學(xué)習(xí)完了之后就得到了上下文的embedding。因?yàn)槲覀兛梢詫NN的隱藏層中的某一節(jié)點(diǎn)拿出來(圖中橙藍(lán)色節(jié)點(diǎn)),它就是輸入當(dāng)前結(jié)點(diǎn)的詞匯的word embedding。

    從當(dāng)計(jì)算識別到<BOS>,模型訓(xùn)練開始。首先輸入"潮水",然后當(dāng)作輸入輸出"退了",退了當(dāng)做輸入輸出"就"。

    假設(shè)當(dāng)前要得到”退了”這個(gè)詞的上下文embedding,首先,因?yàn)榍斑叺腞NN只考慮到了前文而沒有考慮到后文,所以這里就使用了同前文一樣的反向的RNN。然后,它從句尾開始進(jìn)行,比如給它喂”知道”,它就要預(yù)測”就”,給它喂”就”,它就要預(yù)測”退了”。這時(shí)候就不僅考慮每個(gè)詞匯的前文,還會(huì)考慮每個(gè)詞的后文。最后將正向和逆向得到的兩個(gè)不同的上下文embedding(因?yàn)榉较虿煌?xùn)練結(jié)果也不一樣)拼接起來。

    現(xiàn)在我們訓(xùn)練的程度都會(huì)越來越深度,當(dāng)層數(shù)增加,這樣就會(huì)產(chǎn)生Deep的RNN,因?yàn)楹芏鄬?,而且每一層都?huì)產(chǎn)生上下文Embedding,那么我們到底應(yīng)該使用哪一層?每一層這種深度LSTM中的每個(gè)層都可以生成潛在表示(方框處)。同一個(gè)詞在不同的層上會(huì)產(chǎn)生不同的Embedding,那么我們應(yīng)該使用哪一層呢?ELMo的策略是每一層得到的上下文embedding都要。

    在上下文embedding的訓(xùn)練模型中,每個(gè)詞輸入進(jìn)去都會(huì)有一個(gè)embedding輸出來。但是在ELMo中,每個(gè)詞匯輸入進(jìn)去,都會(huì)得到不止一個(gè)embedding,因?yàn)槊繉拥腞NN都會(huì)給到一個(gè)embedding,ELMo將它們統(tǒng)統(tǒng)加起來一起使用。

    以圖中為例,這里假設(shè)ELMo有兩層RNN,這里是將α1(黃色,第一層得到的embedding)和α2(綠色,第二層得到embedding)加起來得到藍(lán)色的embedding,并做為接下來要進(jìn)行不同任務(wù)的輸入。

    但是這里存在一些問題,α1和α2是學(xué)習(xí)得到的,而且它是根據(jù)當(dāng)前要進(jìn)行的任務(wù)(如QA,POS of tagging ),然后根據(jù)接下來要進(jìn)行的這些任務(wù)一起被學(xué)習(xí)出來。所以就導(dǎo)致不同任務(wù)導(dǎo)向下的α1和α2也不一樣。

    ELMo的論文中提到,在不同任務(wù)下(SRL,Coref,SNLI,SQuAD,SST-5)。藍(lán)色的上下文embedding在經(jīng)過token(這里為沒有經(jīng)過上下文的embedding),LSTM1,LSTM2后,它在不同階段需要的weight也不一樣。

    BERT相當(dāng)于是Transformer的Encoder部分,它只需要搜集大量的語料去從中學(xué)習(xí)而不經(jīng)過標(biāo)注(不需要label),就可以將Encoder訓(xùn)練完成。如果之前要訓(xùn)練Encoder,我們需要通過一些任務(wù)來驅(qū)動(dòng)學(xué)習(xí)(如機(jī)器翻譯)。

    BERT就是句子給進(jìn)去,每個(gè)句子給一個(gè)embedding。

    這里可以回憶下,Transformer的Enoder中有self-attention layer,就是給進(jìn)去一個(gè)sequence,輸出也得到一個(gè)sequence。

    雖然圖中使用是用詞作為單元進(jìn)行輸入,但是在使用BERT進(jìn)行中文的訓(xùn)練時(shí),字會(huì)是一個(gè)更好的選擇。比如,我們在給BERT進(jìn)行輸入時(shí),用one-hot給詞進(jìn)行編碼,但是詞在中文中數(shù)量龐大,會(huì)導(dǎo)致維度過高。但是,字的話相對會(huì)少很多,特別是中文(大約幾千個(gè),可以窮舉)。這樣以字為單位進(jìn)行輸入會(huì)占很大優(yōu)勢。

    共有兩種方法,一種是Mask LM遮蓋語言模型,另一種是Next Sentence Prediction下一句預(yù)測。

    下面用上圖的例子來理解BERT是怎么樣來進(jìn)行填空的:

    1)這里假設(shè)在所有句子中的詞匯的第2個(gè)位置上設(shè)置一個(gè)<MASK>;

    2)接下來把所有的詞匯輸入BERT,然后每個(gè)輸入的token都會(huì)得到一個(gè)embedding;

    3)接下來將設(shè)置為<MASK>的embedding輸入到Linear Multi-class Classifier中中,要求它預(yù)測被<MASK>的詞匯是哪個(gè)詞匯?

    但是這個(gè)Linear Multi-class Classifier它僅僅是一個(gè)線性分類器,所以它的能力十分弱,這也就需要在之前的BERT模型中需要將它的層數(shù)等參數(shù)設(shè)計(jì)的相當(dāng)好,然后得到非常出色的representation,便于線性分類器去訓(xùn)練。

    那么我們怎么知道最后得到的embedding是什么樣的呢?如果兩個(gè)<MASK>下的詞匯(輸入時(shí)設(shè)置的<MASK>和最后預(yù)測的<MASK>)都放回原來的位置而且沒有違和感(就是語句還算通順),那它們就有類似的embedding(比如退下和落下)。

    如圖中,給定兩個(gè)句子1)醒醒吧 和 2)你沒有妹妹。其中特殊符號[SEP]是告訴BERT兩個(gè)句子的分隔點(diǎn)在哪里。

    特殊符號[CLS]一般放在句子的開頭,它用來告訴BERT從這開始分類任務(wù),[CLS]輸入BERT后得到embedding然后通過Linear Binary Classifier得出結(jié)果說明:經(jīng)過BERT預(yù)測后現(xiàn)在我們要預(yù)測的兩個(gè)句子是接在一起 or 不應(yīng)該被接在一起。

    這里可能會(huì)有疑問,為什么不將[CLS]放在句尾,等BERT訓(xùn)練完兩個(gè)句子再輸出結(jié)果?

    對于上圖中的任務(wù),BERT現(xiàn)在要做的事情就是給定兩個(gè)句子,讓BERT輸出結(jié)果這兩個(gè)句子是不是應(yīng)該接在一起?

    所以在語料庫的大量句子中,我們是知道哪些句子是可以接在一起的,所以也需要我們告訴BERT哪些句子是接在一起的。

    Linear Binary Classifier和BERT是一起被訓(xùn)練的,通過預(yù)測下一句這個(gè)任務(wù),我們就可以把將BERT部分的最優(yōu)參數(shù)訓(xùn)練出來。

    現(xiàn)在我們知道了任務(wù)一和任務(wù)二,在原論文中兩種任務(wù)是要同時(shí)進(jìn)行的,這樣才能將BERT的性能發(fā)揮到最佳。

    現(xiàn)在我們知道了BERT要做什么事情,那么我們要如何去使用它?共有四種方法。論文中是將【BERT模型和接下來你要進(jìn)行的任務(wù)】結(jié)合在一起做訓(xùn)練。

    第一種,假設(shè)當(dāng)前任務(wù)是Input一個(gè)sentence,out一個(gè)class,舉例來說輸入一句話來判斷分類。

    訓(xùn)練流程:1)將做要分類的句子丟給BERT;

    2)需要在句子開始加上分類的特殊符號,這個(gè)特殊符號經(jīng)過BERT輸出的embedding經(jīng)過線性分類器,輸出結(jié)果為當(dāng)前的句子屬于的類別是真還是假。BERT和Linear Classifier的參數(shù)一起進(jìn)行學(xué)習(xí);

    3)這里的Linear Classifier是Trained from Scratch是白手起家從頭開始,即它的參數(shù)隨機(jī)初始化設(shè)置,然后開始訓(xùn)練;

    4)而BERT則是加上Fine-tune微調(diào)策略(一種遷移學(xué)習(xí)方式*),例如Generative Pre-trained Transformer(OpenAI GPT生成型預(yù)訓(xùn)練變換器)(Radford等,2018),引入了最小的任務(wù)特定參數(shù),并通過簡單地微調(diào)預(yù)訓(xùn)練參數(shù)在下游任務(wù)中進(jìn)行訓(xùn)練。

    *這里不得不提一下遷移學(xué)習(xí)中的Fine-tune,這里可以參考csdn的一篇文章: https://blog.csdn.net/u013841196/article/details/80919857

    ( https://arxiv.org/abs/1805.12471 )

    第二種,假設(shè)當(dāng)前任務(wù)是input一個(gè)sentence,輸出這個(gè)句子中的每個(gè)詞匯屬于正例還是負(fù)例。舉例現(xiàn)在的任務(wù)是slot filling填槽任務(wù)(填槽指的是為了讓用戶意圖轉(zhuǎn)化為用戶明確的指令而補(bǔ)全信息的過程)(另一種解釋是從大規(guī)模的語料庫中抽取給定實(shí)體(query)的被明確定義的屬性(slot types)的值(slot fillers))(槽可以理解為實(shí)體已明確定義的屬性),輸入的句子是 arrive Taipei on November 2nd輸出的槽是other dest on time time

    訓(xùn)練流程:

    1)將句子輸入BERT,句子中的每個(gè)詞匯都會(huì)映射出一個(gè)embedding;

    2)每個(gè)詞匯的embedding輸入Linear Classifier,輸出結(jié)果;

    3)Linear Classifier 白手起家和Bert微調(diào)的方式一起去做學(xué)習(xí)。

    第三種,假設(shè)當(dāng)前任務(wù)是input輸入兩個(gè)句子,輸出class。舉例現(xiàn)在要進(jìn)行自然語言預(yù)測,讓機(jī)器根據(jù)premise前提,預(yù)測這個(gè)hypothesis假設(shè)是True還是False還是unknown不知道。實(shí)際上,我們可以把這個(gè)任務(wù)當(dāng)成三分類問題。

    訓(xùn)練過程:

    1)在一個(gè)sentence前設(shè)置特殊符號[CLS],然后在要輸入的兩個(gè)sentence中間設(shè)置[SEP]分隔符號;

    2)將兩個(gè)sentence連同特殊符號一起輸入到BERT中;

    3)將[CLS]輸入BERT后得到的embedding,再把它輸入linear Classifier中,得到class。

    如圖所示,假設(shè)gravity的token序號是17,即 ,我們現(xiàn)在有一個(gè)問題通過QA Model后得到的s=17,e=17,那么答案就是 為gravity;

    同理,假設(shè)within a cloud的序號順序是77到79,即 到 ,我們現(xiàn)在有一個(gè)問題通過QA Model后得到的s=77,e=79,那么答案就是 為within a cloud。

    https://arxiv.org/abs/1905.05950

    https://openreview.net/pdf?id=SJzSgnRcKX

    這張圖顯示了BERT從0-24層的層數(shù)在針對不同的NLP任務(wù)上的表現(xiàn)。

    https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

    而所謂的GPT,它其實(shí)就是Transformer的Decoder。

    我們簡單的描述下GPT的訓(xùn)練過程:這里我們input<BOS>這個(gè)token和潮水,想要GPT預(yù)測輸出“退了”這個(gè)詞匯。

    1)首先輸入[BOS](begin of sentence)和潮水,通過Word Embedding再乘上matrix W變成a 1到a 4,然后把它們丟進(jìn)self-attention 層中,這時(shí)候每一個(gè)input都分別乘上3個(gè)不同的matrix產(chǎn)生3個(gè)不同的vector,分別把它們命名為q,k,v。

    q代表的是query (to match others用來去匹配其它的向量)

    k代表的是key (to be matched用來去被query匹配的向量)

    v代表的是value(information to be extracted用來被抽取的信息的向量)

    2)現(xiàn)在要做的工作就是用每個(gè)query q 去對每個(gè) key k做attention(吃2個(gè)向量,輸出就是告訴你這2個(gè)向量有多么匹配或者可以說輸入兩個(gè)向量輸出一個(gè)分?jǐn)?shù)alpha(而怎么去吃2個(gè)向量output一個(gè)分?jǐn)?shù),有很多不同的做法))。這里要預(yù)測潮水的下一個(gè)詞,所以乘 , 乘上 , 乘上 再經(jīng)過soft-max分別得到 到 。

    3)我們用 和每一個(gè)v相乘, 和 相乘加上 和 相乘。以此類推并相加,最終得到 。

    4)然后經(jīng)過很多層的self-attention,預(yù)測得到”退了”這個(gè)詞匯。

    同理,現(xiàn)在要預(yù)測”退了”的下一個(gè)詞匯,按照前面的流程可以得到 ,然后經(jīng)過很多層的self-attention層,得到”就”這個(gè)詞匯。

    GPT的神奇之處在于它可以在完全沒有訓(xùn)練數(shù)據(jù)的情況下,就可以做到閱讀理解,摘要,翻譯。折線圖中顯示了它在參數(shù)量上升的情況下,F(xiàn)1的值的效果。

    1.Transformer的問題:

    word Embedding 無上下文

    監(jiān)督數(shù)據(jù)太少

    解決方法:

    Contextual Word Embedding

    2.ELMo( E mbeddings from L anguages Mo del)

    - 多層雙向的LSTM的NNLM

    - RNN-based language models(trained from lots of sentences)

    ELMo的問題:

    Contextual Word Embedding作為特征

    不適合特定任務(wù)

    3.OpenAI GPT的改進(jìn)

    根據(jù)任務(wù)Fine-Tuning

    使用Transformer替代RNN/LSTM

    OpenAI GPT的問題:

    單向信息流的問題

    Pretraining(1)和Fine-Tuning(2)不匹配

    解決辦法:

    Masked LM

    NSP Multi-task Learning

    Encoder again

    Tips:

    - 使用中文模型

    - max_seq_length可以小一點(diǎn),提高效率

    - 內(nèi)存不夠,需要調(diào)整train_batch_size

    - 有足夠多的領(lǐng)域數(shù)據(jù),可以嘗試Pretraining

    三、全球十大數(shù)字創(chuàng)新技術(shù)出爐

    點(diǎn)擊藍(lán)字

    科技 創(chuàng)新世界潮。

    全文共計(jì)2520字,預(yù)計(jì)閱讀時(shí)間7分鐘

    來源 | 數(shù)據(jù)觀綜合(轉(zhuǎn)載請注明來源)

    編輯 | 蒲蒲

    日前,聯(lián)合國教科文組織2021年 Netexplo 創(chuàng)新論壇在網(wǎng)上舉行。由技術(shù)領(lǐng)域全球知名大學(xué)組成的 Netexplo 大學(xué)網(wǎng)絡(luò)歷時(shí)一年,在全球范圍內(nèi)遴選出了10項(xiàng)極具突破性的數(shù)字創(chuàng)新技術(shù),這些創(chuàng)新對 社會(huì) 具有深遠(yuǎn)而持久的影響。

    阿根廷交易平臺(tái)Abakus

    受疫情影響,阿根廷經(jīng)濟(jì)遭受重創(chuàng),也使該國農(nóng)業(yè)部門的動(dòng)蕩加劇。鑒于此,阿根廷初創(chuàng)企業(yè)Abakus與瑞士區(qū)塊鏈基礎(chǔ)設(shè)施提供商CoreLedger推出了一個(gè)數(shù)字易貨平臺(tái),旨在幫助農(nóng)民克服金融波動(dòng)帶來的影響,打造數(shù)字易貨經(jīng)濟(jì)。

    Abakus系統(tǒng)基于一種以實(shí)物資產(chǎn)(例如大豆)為索引的加密貨幣,這種貨幣可能比本國不斷波動(dòng)的貨幣更穩(wěn)定,而代幣可以兌換成貨物或比索。這兩家公司表示,代幣化農(nóng)業(yè)資產(chǎn)將有助于農(nóng)民對沖通貨膨脹,并在國內(nèi)和國際上獲得流動(dòng)性。

    CoreLedger首席執(zhí)行官Johannes Schweifer表示:“ 在一個(gè)飽受通貨膨脹困擾的國家,獲得有形資產(chǎn)的能力可能是這些農(nóng)民生存與發(fā)展之間的區(qū)別。

    Abakus首席執(zhí)行官M(fèi)artin Furst表示:“ 由于國有公司的壟斷地位,阿根廷的農(nóng)民們難以生存,這些壟斷者決定了農(nóng)產(chǎn)品貿(mào)易的條件并大幅度削減了農(nóng)產(chǎn)品。農(nóng)業(yè)支持的代幣解決了現(xiàn)金和股票儲(chǔ)蓄計(jì)劃固有的波動(dòng)性和流動(dòng)性問題。

    英國人工智能AlphaFold 2

    在國際象棋和圍棋領(lǐng)域取得巨大成功后,去年年底,人工智能再次大出風(fēng)頭。在國際蛋白質(zhì)結(jié)構(gòu)預(yù)測賽中,AlphaFold 2摘得桂冠,并破解了一個(gè)困擾人類50年的難題:預(yù)測蛋白質(zhì)如何折疊。

    據(jù)DeepMind官方宣布,該算法能夠精確地基于氨基酸序列,預(yù)測蛋白質(zhì)的3D結(jié)構(gòu),其準(zhǔn)確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或X射線晶體學(xué)等實(shí)驗(yàn)技術(shù)解析的3D結(jié)構(gòu)相媲美。

    在過去50年中,“蛋白質(zhì)折疊問題”一直是生物學(xué)界的重大挑戰(zhàn)。此前,生物學(xué)家主要利用X射線晶體學(xué)或冷凍電鏡等實(shí)驗(yàn)技術(shù)來破譯蛋白質(zhì)的三維結(jié)構(gòu),但這類方法耗時(shí)長、成本高。而AlphaFold 2不僅預(yù)測準(zhǔn)確且效率高,有望促進(jìn)醫(yī)學(xué)領(lǐng)域不斷取得進(jìn)步。

    美國圖像生成系統(tǒng)Dall-E

    美國人工智能非營利組織Open AI于今年1月份推出Dall—E,這是一個(gè)可以根據(jù)書面文字生成圖像的人工智能系統(tǒng)。取名DALL-E,是為了向藝術(shù)家薩爾瓦多-達(dá)利(Salvador Dali )和皮克斯的機(jī)器人WALL-E致敬。

    DALL-E是OpenAI基于GPT-3開發(fā)的一種新型神經(jīng)網(wǎng)絡(luò)。它是GPT-3的一個(gè)小版本,使用了120億個(gè)參數(shù),而不是1750億個(gè)參數(shù)。但它已經(jīng)經(jīng)過專門訓(xùn)練,可以從文本描述生成圖像,使用的是文本-圖像對的數(shù)據(jù)集,而不是像GPT-3這樣非常廣泛的數(shù)據(jù)集。它可以使用自然語言從文字說明中創(chuàng)建圖像,就像GPT-3創(chuàng)建網(wǎng)站和故事一樣。

    德國文本AI模型GPT-Neo

    OpenAI的GPT—3被認(rèn)為是目前最好的人工智能文本生成器,其擁有1750億個(gè)參數(shù),現(xiàn)已被數(shù)萬開發(fā)者用于300多個(gè)不同的應(yīng)用程序,每天輸出45億詞之多。

    但它是收費(fèi)的,這阻礙了更多開發(fā)人員的采用,也不利于文本AI的快速發(fā)展。有鑒于此,德國Eleuther人工智能公司于今年3月下旬推出開源的文本AI模型GPT—Neo,以彌補(bǔ)這方面的缺憾。研究人員稱,GPT—Neo的推出將會(huì)催生出一大批嶄新應(yīng)用,也會(huì)以更為低廉的成本釋放人們對人工智能未來的想象力。

    本質(zhì)上,GPT-Neo有點(diǎn)像是GPT系列的“高仿”項(xiàng)目:GPT-Neo中的各種模型,設(shè)計(jì)原理接近GPT系列,但代碼并不一樣。作者們打算嘗試各種結(jié)構(gòu)和注意力類型,最終擴(kuò)展出GPT-3大小的大語言模型。為了實(shí)現(xiàn)這一目標(biāo),他們從復(fù)現(xiàn)GPT系列的模型開始,不斷嘗試各種模型架構(gòu)、和各種注意力機(jī)制的實(shí)現(xiàn)方式。

    中國量子計(jì)算機(jī)“九章”

    “九章”是由中國科學(xué)技術(shù)大學(xué)潘建偉、陸朝陽等學(xué)者研制的76個(gè)光子的量子計(jì)算原型機(jī)。

    實(shí)驗(yàn)顯示,當(dāng)求解5000萬個(gè)樣本的高斯玻色取樣時(shí),“九章”需200秒,而目前世界最快的超級計(jì)算機(jī)“富岳”需6億年。等效來看,“九章”的計(jì)算速度比“懸鈴木”快100億倍,并彌補(bǔ)了“懸鈴木”依賴樣本數(shù)量的技術(shù)漏洞。

    這一成果使得我國成功達(dá)到了量子計(jì)算研究的第一個(gè)里程碑:量子計(jì)算優(yōu)越性(國外也稱之為“量子霸權(quán)”),并牢固確立了我國在國際量子計(jì)算研究中的第一方陣地位,為未來實(shí)現(xiàn)可解決具有重大實(shí)用價(jià)值問題的規(guī)?;孔幽M機(jī)奠定了技術(shù)基礎(chǔ)。

    對于“九章”的突破,《科學(xué)》雜志審稿人評價(jià)該工作是“一個(gè)最先進(jìn)的實(shí)驗(yàn)”(astate-of-the-artexperiment),“一個(gè)重大成就”(a major achievement)。

    美國人工智能“神經(jīng)破譯”

    “神經(jīng)破譯”是由MIT CSAIL和谷歌大腦的研究者攜手開發(fā)的一款人工智能軟件,基于語言進(jìn)化原理,可以在不知道語言來源的情況下破譯古代語言,并揭示某種語言和其他語言之間的關(guān)聯(lián)。

    研究者們利用同一語族內(nèi)不同語言之間的聯(lián)系,用該人工智能破譯了兩種失傳的語言:烏加里特文和線性文字B,堪稱現(xiàn)代版的“羅塞塔石碑”?。≒S:羅塞塔石碑是一塊用3種語言寫了同一個(gè)內(nèi)容的石碑,幫助語言學(xué)家們讀懂古文字。)

    烏加里特文(Ugaritic),是一種楔形文字,屬于閃米特語族。從字面上來看,就知道它是一個(gè)叫做烏加里特(Ugarit)的文明使用的語言,這個(gè)文明位于當(dāng)今地中海沿岸的敘利亞,在公元前6000年前后就初現(xiàn)蹤跡,在公元前1190年前后滅亡。

    線性文字B(Linear B),由一種人類還沒有破譯出來的線性文字A演化而來,主要存活于公元前1500年到公元前1200年的克里特島和希臘南部,是希臘語的一種古代書寫形式。

    未來,在這項(xiàng)研究起作用的情況下,或許可以像借助羅曼語族三種語言的數(shù)據(jù)庫一樣,直接用機(jī)器借助其他已知的人類語言,實(shí)現(xiàn)暴力破解。

    印度區(qū)塊鏈應(yīng)用程序Smashboard

    Smashboard網(wǎng)站稱自己是一個(gè)“另類的社交媒體網(wǎng)絡(luò),為性侵受害者提供獨(dú)特的功能,目的是通過減少報(bào)案帶來的心理創(chuàng)傷,讓他們的生活更輕松”。

    借助區(qū)塊鏈技術(shù),Smashboard允許用戶創(chuàng)建他們所遭受犯罪的私人和加密賬本,并將其安全地存儲(chǔ)在網(wǎng)上。例如,Smashboard為用戶提供了收集材料的選項(xiàng),“這些材料可作為日記,也可作為加密個(gè)人空間中的時(shí)間戳證據(jù)”。更重要的是,該應(yīng)用程序允許性虐待受害者找到法律顧問或律師,并與他們私下互動(dòng)。受害者還可以與女權(quán)主義新聞工作者建立聯(lián)系,甚至可以給他們匿名舉報(bào)。

    目前,Smashboard的另一個(gè)障礙是應(yīng)用的覆蓋范圍。該應(yīng)用程序目前只能使用三種語言-英語,法語和西班牙語。這意味著該應(yīng)用無法覆蓋使用印度當(dāng)?shù)卣Z言的性虐待受害者。

    澳大利亞人工智能“蠕蟲大腦驅(qū)動(dòng)器”

    研究人員從蠕蟲微小的大腦中獲得靈感,開發(fā)出一種能夠控制自動(dòng)駕駛 汽車 的人工智能系統(tǒng)“蠕蟲大腦驅(qū)動(dòng)器”。與大多數(shù)網(wǎng)絡(luò)中使用數(shù)百萬個(gè)神經(jīng)元相比,該系統(tǒng)只需要幾個(gè)神經(jīng)元。

    該系統(tǒng)只用了控制電路中的19個(gè)神經(jīng)元和7.5萬個(gè)參數(shù),就成功控制了一輛 汽車 。研究小組相信他們的新方法可減少訓(xùn)練時(shí)間,并使人工智能在相對簡單的系統(tǒng)中實(shí)現(xiàn)成為可能。

    四、只需要十分之一數(shù)據(jù),就能通關(guān)四大視覺任務(wù),居然還開源了

    Github鏈接:https://github.com/opengvlab

    家人們,你們有沒有這種苦惱?

    搬一次家就換一次家具,那些又貴又重的家具既不好搬運(yùn),又不好全部帶走。

    下一次又重新購置一遍家具,浪費(fèi)錢不說,關(guān)鍵是來來回回都做一樣的事情!家具還沒用過幾次,利用率不高呀!

    這種搬家的苦惱,就好比AI領(lǐng)域,做幾個(gè)任務(wù)就需要開發(fā)幾個(gè)高度定制的模型,不僅所需的數(shù)據(jù)采集量非常大,每次還都得從頭標(biāo)注。既提不起數(shù)據(jù)的學(xué)習(xí)效率,又耗費(fèi)巨大的數(shù)據(jù)獲取成本。

    光是AI前端研究就耗費(fèi)如此巨大的精力,更別提應(yīng)用場景中數(shù)以萬計(jì)的長尾任務(wù)。

    那怎么辦?

    做一款通用的深度學(xué)習(xí)模型,才是關(guān)鍵。

    1 通用,才是技術(shù)根本

    目前,通用語言模型(GLM)已經(jīng)取得了令人矚目的進(jìn)展,比如BERT、T5和GPT-3,它們在應(yīng)對廣泛的語言下游任務(wù)時(shí)已經(jīng)游刃有余。

    相形之下,通用視覺模型(GVM)的研究遲遲未交出一份令人滿意的答卷。

    以往的大多數(shù) GVM 研究主要利用一種監(jiān)督信號來源,如 ViT-G/14 采用有標(biāo)簽監(jiān)督,SEER 采用樣本的不同增強(qiáng)之間的對比學(xué)習(xí),CLIP采用圖片文本對進(jìn)行監(jiān)督。如果是在單個(gè)監(jiān)督信號下進(jìn)行的預(yù)訓(xùn)練,這幾種范式確實(shí)能夠生成在固定場景下表現(xiàn)良好的模型。但如果用在場景多元、任務(wù)多樣的下游場景,這些模型就難以勝任了。

    比如現(xiàn)在最火的自動(dòng)駕駛, 汽車 處于移動(dòng)狀態(tài),既要看到路況,又要看到紅綠燈,還要注意行人,甚至在智能座艙興起后,還要和語言技術(shù)、LBS場景服務(wù)協(xié)同,這么多的感知數(shù)據(jù)與協(xié)同任務(wù),這么多隨機(jī)的新任務(wù),無論在體量還是維度方面,都對視覺模型的要求極大提高。

    這時(shí),打造一款通用視覺模型,降低研發(fā)門檻,尤其是學(xué)術(shù)界的時(shí)間成本、資金成本,才能暢享下游的極致場景體驗(yàn)。

    去年11月,上海人工智能實(shí)驗(yàn)室聯(lián)合商湯 科技 、香港中文大學(xué)、上海交通大學(xué)發(fā)布通用視覺技術(shù)體系“書生”(INTERN),一套持續(xù)學(xué)習(xí)框架,用于系統(tǒng)化解決當(dāng)下人工智能視覺領(lǐng)域中存在的任務(wù)通用、場景泛化和數(shù)據(jù)效率等一系列瓶頸問題。

    前不久,上海人工智能實(shí)驗(yàn)室聯(lián)合商湯 科技 發(fā)布通用視覺開源平臺(tái)OpenGVLab,面向?qū)W術(shù)界和產(chǎn)業(yè)界開放其超高效預(yù)訓(xùn)練模型、超大規(guī)模公開數(shù)據(jù)集,以及業(yè)內(nèi)首個(gè)針對通用視覺模型的評測基準(zhǔn)。

    這些開源技術(shù),究竟有何魔力?

    2 大力出奇跡,打造通用視覺模型

    “書生” (INTERN),就是練就通用視覺能力的底層技術(shù)。

    從技術(shù)實(shí)現(xiàn)上講,“書生”技術(shù)體系由由七大模塊組成,包括三個(gè)基礎(chǔ)設(shè)施模塊和四個(gè)訓(xùn)練階段構(gòu)成。

    書生(INTERN)結(jié)構(gòu)圖

    首先,通用視覺數(shù)據(jù)系統(tǒng)。

    這是一個(gè)超大規(guī)模的精標(biāo)數(shù)據(jù)集,擁有100億個(gè)樣本和各種監(jiān)督信號,并依照四大視覺任務(wù)分別設(shè)置了四個(gè)數(shù)據(jù)子集:多模態(tài)數(shù)據(jù)GV-D- 10B分類標(biāo)注的GV-Dc-36M、檢測標(biāo)注的GV-Dd-3M、分割標(biāo)注的GV-Ds-143K。

    另外,這一數(shù)據(jù)集還包含11.9萬的標(biāo)簽系統(tǒng),不僅涵蓋了自然界的眾多領(lǐng)域和目前計(jì)算機(jī)視覺研究中的幾乎所有標(biāo)簽,還擴(kuò)充了大量細(xì)粒度標(biāo)簽,涵蓋各類圖像中的屬性、狀態(tài)等。

    而這,就是書生“大力出奇跡”的一大注腳。

    其次,通用視覺模型結(jié)構(gòu)。

    它是由一個(gè)具有CNN和Transformer的統(tǒng)一搜索空間構(gòu)建而成。

    為何要建立這樣的混合結(jié)構(gòu)?要知道,多年來,卷積神經(jīng)網(wǎng)絡(luò)(CNN)一直主導(dǎo)著視覺表征學(xué)習(xí),并在圖像分類、目標(biāo)檢測和語義分割等下游任務(wù)中表現(xiàn)出穩(wěn)定的可遷移性。但最近幾年,Vision Transformer (ViT)僅使用普通的Transformer結(jié)構(gòu)就能作為圖像編碼模型在ImageNet-1k上取得媲美 CNN 的性能,在大規(guī)模數(shù)據(jù)集上 ViT 更是展示出比 CNN 更大的潛力。

    盡管ViT在性能上有優(yōu)點(diǎn),但純Transformer網(wǎng)絡(luò)相比卷積神經(jīng)網(wǎng)絡(luò)缺乏某些歸納偏置(inductive biases),因此需要更多的數(shù)據(jù)和計(jì)算資源。此外,自注意的計(jì)算成本相對于輸入的數(shù)量是平方的,限制了對高輸入分辨率的應(yīng)用。因此,將CNN和Transformer和MLP結(jié)合起來,平衡效率和有效性兩個(gè)方面,才是模型通用的關(guān)鍵。

    這種兼具更好的泛化能力和更高的模型容量的模型結(jié)構(gòu)名為MetaNet。在MetaNet網(wǎng)絡(luò)結(jié)構(gòu)族里面進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)搜索,從而得到最優(yōu)的一個(gè)模型訓(xùn)練結(jié)構(gòu)。

    統(tǒng)一搜索的MetaNet架構(gòu):Conv和Trans分別表示卷積和Transformer。C和S為每一階輸出通道數(shù)和步幅。

    具體來看,MetaNet不僅基于強(qiáng)化學(xué)習(xí) 的PPO算法提出了統(tǒng)一搜索架構(gòu),并且,為了避免傳統(tǒng)的下采樣模塊會(huì)成為模型性能的瓶頸,“書生“結(jié)合了包含 local-global-DSM (LG_DSM) 和 global-DSM (G-DSM)的context-aware down-sampling modules (DSM),用來代替原本的下采樣模塊。

    因此,在淺層,模型依然使用卷積來提取特征,但在深層,模型卻能將Transformer模塊和LG-DSM結(jié)合使用,以便于更好地提取全局信息。

    同時(shí),書生還基于最大的MetaNet-B15蒸餾出了多達(dá)13種不同的模型結(jié)構(gòu),共24種不同的模型權(quán)重,現(xiàn)已全部開源。

    這些模型結(jié)構(gòu)基本涵蓋了現(xiàn)有市面上大部分的主流backbone,不僅能夠很輕易地遷移到所需要的算法框架作為新網(wǎng)絡(luò)預(yù)訓(xùn)練的初始化,而且只需要更短的訓(xùn)練時(shí)間就可以達(dá)到比原來更好的訓(xùn)練效果。

    MetaNet 模型與其他模型結(jié)構(gòu)比較,結(jié)果如下:

    基于卷積、Transformer和兩者混合的結(jié)構(gòu),分別用C,T和H表示,可以看出,在圖像分類性能上,MetaNet系列的MN-B1,MN-B4和MN-B7,和其他的SOTA模型相比,不僅有更高的精度,還有更低的FLOPS和參數(shù)量。

    除了分類任務(wù),把MetaNet做為檢測和分割的backbone,在COCO數(shù)據(jù)集上使用Mask R-CNN結(jié)構(gòu)訓(xùn)練,結(jié)果發(fā)現(xiàn):在模型參數(shù)量更小的前提下,MN-B4比Swin-T精度高出2到4個(gè)點(diǎn)。另外還在ADE20K數(shù)據(jù)集上進(jìn)行了語義分割任務(wù),MN-B4的mIoU指標(biāo)比Swin-T高出5個(gè)點(diǎn)之多。

    上述兩個(gè)實(shí)驗(yàn)結(jié)果表明,MetaNet系列模型結(jié)構(gòu),在模型精度與計(jì)算量之間,都達(dá)到了新的SOTA!

    最后,通用視覺評測基準(zhǔn)。

    視覺評測基準(zhǔn)GV-B ,就像是一個(gè)「擂臺(tái)」。

    如下表所示,測評基準(zhǔn)收集了 26 個(gè)下游任務(wù)數(shù)據(jù)集,囊括了 4 種視覺任務(wù)類型:分類,檢測,分割和深度估計(jì)。

    在設(shè)置上,該基準(zhǔn)引入了百分比樣本(percentage-shot),只需要選取整個(gè)數(shù)據(jù)集的一部分,例如 10%、20% ,對比縮小下游任務(wù)的訓(xùn)練數(shù)據(jù)量后的模型性能。

    與傳統(tǒng)的少樣本設(shè)置相比,這種百分比樣本設(shè)置可以很好地保留原始數(shù)據(jù)集的長尾分布等屬性,并減輕對樣本選擇的敏感性。因?yàn)橛幸恍?shù)據(jù)集樣本類別分布不平衡,比如下表中的VOC07+12,百分比數(shù)據(jù)的劃分方式卻會(huì)繼承這種分布情況。

    右側(cè)三列avg,min和max,分別表示在10%的數(shù)據(jù)中,不同類別樣本數(shù)量的平均值,最小值和最大值。

    結(jié)合上述數(shù)據(jù)集和任務(wù)類型,論文選取了一些具有代表性的模型來做評測對比。為了比較公平性,該對比使用了這些模型的官方預(yù)訓(xùn)練權(quán)重。這些模型包括:

    有了超大精標(biāo)數(shù)據(jù)集、模型結(jié)構(gòu),以及評測基準(zhǔn)后,已經(jīng)是萬事俱備,只欠訓(xùn)練。

    書生作為中國古代讀書人的經(jīng)典形象,代表著一個(gè)通過不斷學(xué)習(xí)、不斷成長進(jìn)而擁有各方面才能的人格化角色:從基礎(chǔ)的知識技能學(xué)習(xí)開始,到對多種專業(yè)知識觸類旁通,進(jìn)而成長為擁有通用知識的通才。借此意象,“書生”(INTERN)系統(tǒng)可通過持續(xù)學(xué)習(xí),舉一反三,逐步實(shí)現(xiàn)通用視覺領(lǐng)域的融會(huì)貫通,最終實(shí)現(xiàn)靈活高效的模型部署。

    下面就來看看,這套系統(tǒng)是如何通過訓(xùn)練,一步步從生手變成專家再到多面手,最終在各種任務(wù)中大顯身手。

    第一階段,訓(xùn)練的是基礎(chǔ)能力,被稱為“基礎(chǔ)模型”(Amateur)。

    然而CLIP需要400M的圖像-文本對進(jìn)行前訓(xùn)練,囿于極大的數(shù)據(jù)量,CLIP很難進(jìn)一步發(fā)展。但“書生”提出了一種新的訓(xùn)練范式,DeCLIP(Data efficient CLIP ),能夠同時(shí)使用來自圖像-文本、圖像-圖像和文本-文本對的監(jiān)督信號進(jìn)行模型預(yù)訓(xùn)練,從而更有效地實(shí)現(xiàn)通用性。

    此外,為了充分利用大規(guī)模多模態(tài)數(shù)據(jù)獲取基礎(chǔ)模型的優(yōu)勢,這一階段提出了Upstream-Amateur (Up-A)視覺語言預(yù)訓(xùn)練框架,同時(shí)挖掘模態(tài)內(nèi)和跨模態(tài)知識。

    這一訓(xùn)練框架分為兩個(gè)預(yù)訓(xùn)練階段:Upstream-Amateur for Global Representation (Up-A-G)和Upstream-Amateur for Local Representation (Up-A-L)。

    其中,Up-A-G(左)使用群體監(jiān)督功能,從更豐富的監(jiān)督中學(xué)習(xí)。Up-A-L(右)采用局部自我監(jiān)督學(xué)習(xí)方法,對訓(xùn)練好的視覺-語言模型進(jìn)行調(diào)整,從而提高自身在密集預(yù)測CV任務(wù)中的表現(xiàn)。

    Upstream-Amateur的框架

    得益于這些內(nèi)在的監(jiān)督,DeCLIP-ResNet50可以在ImageNet上實(shí)現(xiàn)60.4%的zero-shot 精度第一。這比CLIP-ResNet50高出0.8%,數(shù)據(jù)使用量少了81%。當(dāng)遷移到下游任務(wù)時(shí),DeCLIP-ResNet50在11個(gè)視覺數(shù)據(jù)集中有8個(gè)優(yōu)于CLIP。

    更關(guān)鍵的是,訓(xùn)練完成的Upstream-Amateur為后續(xù)的訓(xùn)練階段提供了一個(gè)很高的起點(diǎn)。

    第二階段,訓(xùn)練的是專業(yè)能力,被稱為“專家模型”(Expert)。

    Up-A階段得到的基礎(chǔ)模型,在一般的視覺識別問題上顯示出優(yōu)異的性能。但要完全掌握檢測、分割等更具體的任務(wù),還需要在每個(gè)任務(wù)中進(jìn)行更專業(yè)的預(yù)訓(xùn)練,這就促成了第二個(gè)階段的到來,專家模型。

    對于每個(gè)專家,“書生”采用了一種簡單的多頭設(shè)計(jì),每個(gè)頭是一個(gè)特定數(shù)據(jù)集的子網(wǎng)絡(luò),從一個(gè)公共的、共享的“主干”分支出來。比如Up-E (C)、Up-E (D)和Up-E (S),分別用于圖像分類、對象檢測和語義分割。

    第三階段,訓(xùn)練的是組合能力,被稱為“通才模型”(Generalist)。

    上述的多任務(wù)是指不同數(shù)據(jù)集(如ImageNet和CIFAR)的一個(gè)視覺問題(如分類),或一個(gè)數(shù)據(jù)集的多個(gè)視覺問題(如分類和檢測)。但關(guān)鍵是,如何將專家整合到一個(gè)統(tǒng)一的模型中,獲得一個(gè)更加通用的視覺模型。因此,在預(yù)訓(xùn)練“專家”階段之后,又將“通才”作為第三個(gè)預(yù)訓(xùn)練階段,以進(jìn)一步統(tǒng)一特征表示。

    “書生”提出了一個(gè)新的范式,名為“混合參數(shù)共享”,從而開發(fā)一個(gè)名為“多面手”的通才模型。

    具體來說,由于專家捕獲的知識是相互關(guān)聯(lián)的,當(dāng)專家的特征融合為一個(gè)共享的表示形式時(shí),再利用基于軟共享的跨任務(wù)知識轉(zhuǎn)移和基于硬共享的通用表示學(xué)習(xí)的方法,在不引入任務(wù)沖突的情況下在專家之間傳遞信息(特征轉(zhuǎn)移),從而進(jìn)一步提高了多任務(wù)訓(xùn)練的模型(專家)性能,即“通才”能力。

    在結(jié)構(gòu)上,通才模型是所有專家的一個(gè)相互關(guān)聯(lián)的版本,因此可以把每個(gè)“專家主干”稱為“通才分支”。此外,我們還可以根據(jù)訓(xùn)練相應(yīng)專家的任務(wù)將通才中的每個(gè)分支分為圖像、補(bǔ)丁和像素。但無論是軟共享還是硬共享,都意味著從專家模型到通才模型的一次躍升。

    在經(jīng)歷了前三個(gè)訓(xùn)練階段模塊后,終于來到最后的任務(wù)遷移階段 (Adaptation)。

    這個(gè)階段屬于技術(shù)鏈條的下游,用來解決各式各樣不同類型的任務(wù),而這也是最考驗(yàn)“書生”舉一反三能力的時(shí)刻。它需要在這個(gè)階段把之前學(xué)到的通用知識,融會(huì)貫通地應(yīng)用到不同特定任務(wù)中。

    在此之前,很多遷移學(xué)習(xí)方法確實(shí)取得了很多進(jìn)步,但問題是,這些方法既沒有利用上游預(yù)訓(xùn)練中的隱含信息,也沒有考慮到下游數(shù)據(jù)在少鏡頭場景中的不足。

    因此,“書生”提出了一種Multi-stage Fine-tuning (MF)方法,緩解在數(shù)據(jù)較少的情況下傳輸?shù)睦щy,再通過將上游數(shù)據(jù)編碼成生成模型,即VQ-GAN,可以將預(yù)訓(xùn)練的模型轉(zhuǎn)移到多個(gè)任務(wù)和領(lǐng)域,而無需每次都使用上游數(shù)據(jù),而這也使得“書生”更具通用性和可擴(kuò)展性。

    多級微調(diào)(MF)概述:VQ-GAN模型首先在第一階段使用上游數(shù)據(jù)進(jìn)行訓(xùn)練,然后在第二階段由它重構(gòu)下游數(shù)據(jù)。在此之后,第三階段只對新增任務(wù)的特定參數(shù)進(jìn)行重新表示的圖像訓(xùn)練,第四階段則通過下游數(shù)據(jù)對整個(gè)模型進(jìn)行微調(diào)。

    至此,一個(gè)具有持續(xù)學(xué)習(xí)能力的通用視覺模型終于出世。

    而具體有哪些提升,不如看一下更直觀的實(shí)驗(yàn)數(shù)據(jù)對比!

    3 一網(wǎng)打盡視覺領(lǐng)域四大任務(wù)

    視覺領(lǐng)域,任務(wù)繁多,主流任務(wù)包含分類、目標(biāo)檢測、語義分割、深度估計(jì)四大類型。

    在這四大任務(wù)中,最強(qiáng)大的視覺模型還是去年OpenAI發(fā)布的CLIP模型。但相比較而言,“書生”則在準(zhǔn)確率和數(shù)據(jù)使用效率上都有所提升。

    1、精度表現(xiàn)

    通過對“書生”訓(xùn)練出的模型在GV-B上的評測對比,發(fā)現(xiàn)經(jīng)過多階段預(yù)訓(xùn)練的MetaNet精度表現(xiàn)優(yōu)異。

    在ImageNet等26個(gè)最具代表性的下游場景中, “書生”在分類、目標(biāo)檢測、語義分割及深度估計(jì)等四大任務(wù)上,平均錯(cuò)誤率分別降低了40.2%、47.3%、34.8%和9.4%。

    書生(INTERN)與CLIP-R50x16在不同樣本量上的性能對比,正確率展示

    2、數(shù)據(jù)使用效率

    “書生”在數(shù)據(jù)效率方面的提升尤為矚目:只需要1/10的下游數(shù)據(jù),就能超過CLIP基于完整下游數(shù)據(jù)訓(xùn)練的準(zhǔn)確度。

    以CLIP-R50x16和Up-G MN-B15在GV-B的評測對比為例,分別在分類、目標(biāo)檢測、語義分割、深度估計(jì)四大類型的26個(gè)下游任務(wù)數(shù)據(jù)集上進(jìn)行了評測,僅使用了10%數(shù)據(jù)進(jìn)行訓(xùn)練的Up-G MN-B15模型,在絕大部分?jǐn)?shù)據(jù)集上都能比使用了全部訓(xùn)練數(shù)據(jù)的CLIP-R50有更好的精度表現(xiàn)。這表明,經(jīng)過多階段預(yù)訓(xùn)練的MetaNet具有極強(qiáng)的泛化能力,能夠在僅有少量的訓(xùn)練樣本情況下,達(dá)到SOTA的精度表現(xiàn)。

    在下游視覺場景中,小樣本訓(xùn)練帶來的是極高的訓(xùn)練速度,以及極低的訓(xùn)練成本。

    例如在花卉種類識別任務(wù)上,“書生“只需要每一類型的花卉提供兩個(gè)訓(xùn)練樣本,就能實(shí)現(xiàn)99.7%的準(zhǔn)確率。

    這個(gè)花卉數(shù)據(jù)集由102種英國常見的花組成,每個(gè)類別有40至258張圖片。其中包含有很大的比例、姿勢和光線變化。

    102個(gè)類別的花卉數(shù)據(jù)集:

    https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html

    4 通用視覺平臺(tái),已正式開源

    如此強(qiáng)大的通用視覺訓(xùn)練模型已經(jīng)正式開源!

    更關(guān)鍵的是,連同上述講到的標(biāo)簽數(shù)據(jù)集、網(wǎng)絡(luò)結(jié)構(gòu)以及評測基準(zhǔn),均在OpenGVLab被統(tǒng)一打包開源。

    其中的網(wǎng)絡(luò)結(jié)構(gòu)除了MetaNet,還包含大家普遍使用的ResNet, MobileNet, ViT, EfficientNet等,以滿足不同場景的應(yīng)用,賦能計(jì)算機(jī)視覺。

    然而,「書生」的布局不止于此。

    OpenGVLab將與上海人工智能實(shí)驗(yàn)室此前發(fā)布的OpenMMLab、OpenDILab一道,共同構(gòu)筑開源體系OpenXLab,持續(xù)推進(jìn)通用人工智能的技術(shù)突破和生態(tài)構(gòu)建。

    一位已經(jīng)使用過此次開源平臺(tái)的自動(dòng)駕駛算法研究員表示:“書生系列模型充分覆蓋了從移動(dòng)可部署的小模型,到超大規(guī)模自研結(jié)構(gòu),為行業(yè)帶來了希望,尤其是它的收斂速度,大幅節(jié)省了訓(xùn)練開銷,是技術(shù)落地的一大助推器?!?

    不僅是自動(dòng)駕駛領(lǐng)域,智慧城市、智慧醫(yī)療、智慧交通,以及千千萬萬其他的智能化領(lǐng)域,都將獲得通用視覺模型帶來的技術(shù)紅利。

    一位騰訊研究員大贊OpenGVLab:“能把這么大的工作開源出來真的是業(yè)界良心。簡單用了一下,確實(shí)比CLIP要更fine-grained(細(xì)粒度更高)?!?

    而來自學(xué)界的師生也對此感慨有加:“OpenGVLab集成了大量各種量級的state-of-the-art(先進(jìn))模型,使用起來更得心應(yīng)手,省去了對不同codebase、不同模型繁瑣調(diào)研的煩惱?!?

    換句話說,當(dāng)那些代碼和公式脫去了枯燥乏味的外衣,人們才發(fā)現(xiàn)了真正的創(chuàng)造力。而這,也是技術(shù)創(chuàng)新與平臺(tái)開源的魅力所在。

    往近了說,用這款通用視覺模型打比賽,怕不是獎(jiǎng)金多到飛起!在技術(shù)生產(chǎn)力的道路上,又誕生了一個(gè)致富小妙招!

    目前,“書生”技術(shù)報(bào)告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平臺(tái)發(fā)布。

    論文地址:arxiv.org/abs/2111.08687

    以上就是關(guān)于gpt模型參數(shù)量相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    ChatGPT怎么在手機(jī)里安裝(安裝chattr)

    chatGPT用什么郵箱注冊(chesscom注冊要用什么郵箱)

    微信怎么用ChatGPT

    鄭州景觀設(shè)計(jì)軟件班

    中國航天徽章(中國航天徽章設(shè)計(jì)內(nèi)涵)