-
當前位置:首頁 > 創(chuàng)意學院 > 技術(shù) > 專題列表 > 正文
預訓練模型還要訓練嗎(預訓練模型還要訓練嗎)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于預訓練模型還要訓練嗎的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com
本文目錄:
一、如何構(gòu)建深度學習預訓練模型?
可以直接先找到自己需要的訓練模型,一般來說都可以找到的
二、遷移 學習方法
如何使用遷移學習
你可以在自己的預測模型問題上使用遷移學習
以下是兩個常用的方法
1. 開發(fā)模型的方法
2. 預訓練模型的方法
開發(fā)模型的方法
1. 選擇源任務。你必須選擇一個具有豐富數(shù)據(jù)的預測建模問題,它的輸入數(shù)據(jù)、輸出數(shù)據(jù)以及從輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的映射中學到的概念之間有某種關(guān)系,
2. 開發(fā)源模型。然后,你必須為第一個任務開發(fā)一個精巧的模型。這個模型一定要比普通的模型更好,以保證一些特征學習可以被執(zhí)行。
3. 重用模型。然后,適用于源任務的模型可以被作為目標任務的學習起點。這可能將會涉及到全部或者部分使用第一個模型,這依賴于所用的建模技術(shù)。
4. 調(diào)節(jié)模型。模型可以在目標數(shù)據(jù)集中的輸入輸出對上可選擇地進行微調(diào),以讓它適應目標任務。
預訓練模型方法
1. 選擇源模型。一個預訓練的源模型是從可用模型中挑選出來的。很多研究機構(gòu)都發(fā)布了基于超大數(shù)據(jù)集的模型,這些都可以作為源模型的備選者。
2. 重用模型。選擇的預訓練模型可以作為用于第二個任務的模型的學習起點。這可能涉及到全部或者部分使用與訓練模型,取決于所用的模型訓練技術(shù)。
3. 微調(diào)模型。模型可以在目標數(shù)據(jù)集中的輸入輸出對上可選擇地進行微調(diào),以讓它適應目標任務。
第二種類型的遷移學習在深度學習領域比較常用。
深度學習中使用遷移學習的例子
下面用兩個常見的例子來具體寫一下深度學習模型中的遷移學習
使用圖像數(shù)據(jù)進行遷移學習
在使用圖像作為輸入的預測建模問題中應用遷移學習是很常見的??梢允且粋€使用圖像或視頻作為輸入的預測問題。
對于這種類型的問題而言,使用為大規(guī)模的挑戰(zhàn)性圖像數(shù)據(jù)集上的預訓練的模型是很常見的做法,例如 ImageNet(1000 類圖像分類挑戰(zhàn)賽的數(shù)據(jù)集)。
為這個競賽開發(fā)模型的研究組織通常會將最終模型發(fā)布出來,并且具備重新使用的許可。這些模型的訓練一般會耗費幾天到幾星期不等的時間,這取決于所用的硬件環(huán)境。
這些模型可以直接下載到,它們將圖像作為輸入
三、load模型繼續(xù)訓練但是參數(shù)不變化
在機器學習中,我們通常會使用一種稱為“遷移學習”的技術(shù),該技術(shù)涉及加載一個預先訓練好的模型,并對其進行微調(diào)以適應新的任務。當我們使用這種方法時,有時我們需要繼續(xù)訓練已經(jīng)預先訓練好的模型。但是,如果訓練數(shù)據(jù)與預先訓練的模型非常相似,比如相同的數(shù)據(jù)集或者提取自相同領域的數(shù)據(jù)集,那么在后續(xù)訓練時,我們可能會發(fā)現(xiàn)參數(shù)幾乎沒有變化,這是因為初始權(quán)重幾乎與訓練中的真實權(quán)重相等,即預先訓練的模型已經(jīng)收斂到局部極限。此時,我們應該考慮使用更小的學習率,或通過數(shù)據(jù)增強、調(diào)整網(wǎng)絡結(jié)構(gòu)等方法來改進性能。
四、不需要大規(guī)模預訓練的NLP模型
NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework
原文:https://arxiv.org/abs/2111.04130
發(fā)表于2021.11.7
https://github.com/yaoxingcheng/TLM
Pretrained language models have become the standard approach for many NLP tasks due to strong performance, but they are very expensive to train. We propose a simple and efficient learning framework, TLM, that does not rely on large-scale pretraining. Given some labeled task data and a large general corpus, TLM uses task data as queries to retrieve a tiny subset of the general corpus and jointly optimizes the task objective and the language modeling objective from scratch. On eight classification datasets in four domains, TLM achieves results better than or similar to pretrained language models (e.g., RoBERTa-Large) while reducing the training FLOPs by two orders of magnitude. With high accuracy and efficiency, we hope TLM will contribute to democratizing NLP and expediting its development.
預訓練語言模型由于其強大的性能,已成為許多NLP任務的標準方法,但訓練成本非常高。我們提出了一個簡單有效的學習框架TLM,它不依賴于大規(guī)模的預訓練。給定一些帶標簽的任務數(shù)據(jù)和一個大型通用語料庫,TLM使用任務數(shù)據(jù)作為查詢來檢索通用語料庫的一小部分,并從頭開始聯(lián)合優(yōu)化任務目標和語言建模目標。在四個領域的八個分類數(shù)據(jù)集上,TLM取得了優(yōu)于或類似于預訓練語言模型(如RoBERTa Large)的結(jié)果,同時將訓練失敗次數(shù)減少了兩個數(shù)量級。我們希望TLM能夠以高精度和高效率為NLP的民主化和加速其發(fā)展做出貢獻。
以上就是關(guān)于預訓練模型還要訓練嗎相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
預訓練模型和自己訓練的模型區(qū)別(預訓練模型還要訓練嗎)
景觀設計意向?qū)儆谑裁矗ň坝^設計意向?qū)儆谑裁葱袠I(yè))