正文

gpt3參數(shù)量（gpt3參數(shù)量怎么算的）

發(fā)布時間：2023-03-12 23:20:51 稿源：創(chuàng)意嶺閱讀： 129 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于gpt3參數(shù)量的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

ChatGPT國內(nèi)免費在線使用，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準，寫出的就越詳細，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、Prompt-NLP新范式
2、三星gpt3100平板參數(shù)
3、全球十大數(shù)字創(chuàng)新技術(shù)出爐
4、gpt3.5-turbo什么區(qū)別

gpt3參數(shù)量（gpt3參數(shù)量怎么算的）

一、Prompt-NLP新范式

NLP技術(shù)發(fā)展的四種范式：

Prompt的起源可以追溯到GPT-2，T5，GPT-3等的一些研究，發(fā)現(xiàn)在輸入樣本前加入一個和任務相關(guān)的前綴，就可以提示模型接下來要輸出的內(nèi)容。比如在GPT-3的預測階段，只需要在輸入樣本前加上Translate English to French: 就可以提示模型接下來要進行翻譯任務，即完全依靠模型在預訓練階段學到的知識來進行預測，不需要在下游任務上再依靠task-specific的 監(jiān)督數(shù)據(jù) 對模型進行fine-tune就可直接使用，一方面減少了fine-tune模型的計算和存儲代價，另一方面也給樣本量極度缺乏的 少樣本領(lǐng)域(zero/few-shot) 帶來了福音。

這種依靠 提示信息(Prompt) 來激發(fā)模型的內(nèi)在潛能，挖掘模型在大規(guī)模預訓練階段學到的知識的做法引領(lǐng)了NLP領(lǐng)域的第四范式。人們逐漸開始思考如何更加 高效地利用 預訓練語言模型的大量參數(shù)，如何將各種下游任務都統(tǒng)一到一個 通用框架 下，使得模型能夠根據(jù)不同的提示信息進行不同的任務，從而不需要再為每個下游任務訓練單獨的模型。

本文將對Prompt快速發(fā)展過程中一些重要論文的核心創(chuàng)新點進行簡要介紹，而不會詳細描述過多模型細節(jié)（欲知全貌建議直接讀原論文）。

論文：Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (2020)

該論文對Prompt模式的研究進行了規(guī)范，提出了 Pattern-Verbalizer 的概念：

比如對于5分類任務，給定輸入樣本 a ，對應的模板函數(shù) P 和標簽映射函數(shù) v 可為：

注意這里多種Prompt模板函數(shù)以及答案映射函數(shù)都是 人工手動設(shè)計 的。

然后利用新構(gòu)建出來的 P(x)，v(l) 對預訓練模型進行fine-tune，其他更多細節(jié)不再展開，實驗結(jié)果顯示該方法在少樣本任務上表現(xiàn)很好。

論文：It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners （ PET原班人馬 ）

GPT-3出來后顯示了其在少樣本學習上的驚人能力，但是其龐大的參數(shù)量也令人望而卻步。而本文作者提出 “小模型在少樣本學習上也可以有卓越表現(xiàn)” ，直接對標GPT-3這個龐然大物，從而奠定了 PET所提范式 在江湖的霸主地位，引起了各大武林人士的關(guān)注。

該文證明了PET所提范式的有效性，同時作者還分析發(fā)現(xiàn)設(shè)計不同的 Prompt 模板和標簽映射函數(shù) Verbalizer 對模型性能影響較大，從而引起后來人員涌入改進Prompt模板和標簽映射Verbalizer構(gòu)造的浪潮中。

論文：Making Pre-trained Language Models Better Few-shot Learners

取代PET中手動構(gòu)建Prompt模板和標簽映射函數(shù)的過程，自動化搜索模板和標簽映射，同時參考GPT-3中的in-context learning，在輸入樣本中加入示例(demonstrations)作為上下文，幫助模型更好地理解要做什么。

實驗表明，在少樣本上，這種基于prompt的fine-tune效果能夠明顯好于標準的fine-tune，并且在樣本中加入示例確實能夠帶來增益。

也許未必非要構(gòu)建人能理解的 離散tokens式 的Prompt，構(gòu)建模型能夠接受的 連續(xù)向量式 的Prompt也未嘗不可。

4.1 論文： Prefix-Tuning : Optimizing Continuous Prompts for Generation

該文針對 NLG(Natural Language Generation) 任務，提出了構(gòu)建連續(xù)的prompts。在預訓練模型的每一層加上一個Prefix前綴矩陣，固定預訓練模型的參數(shù)，僅訓練前綴矩陣的參數(shù)，在few-shot設(shè)定下，性能超過標準的fine-tune。

實驗結(jié)果表明，在全量數(shù)據(jù)下，prompt-based fine-tune的效果能夠相當 standard fine-tune；在 少樣本 下，能夠超過 standard fine-tune。

4.2 論文：GPT Understands, Too ( P-tuning )

該文針對 NLU(Natural Language Understanding) 任務，也提出了構(gòu)建連續(xù)的prompts。與 Prefix-tuning 不同的是，這里的prompts僅需要加在輸入層，而不用加在網(wǎng)絡的每一層，就可以work well。

利用 biLSTM 對prompts進行 Encode ，然后將編碼后的 prompts embedding 和樣本 x 輸入預訓練語言模型(PLM)，之后同時fine-tune prompt embeddings 和 pretrained model 。

考慮到優(yōu)化連續(xù)的prompt向量有兩個問題：

因此作者提出先采用 biLSTM 作為 Prompt Encoder 來編碼prompt向量。

具體Prompt模板設(shè)計為：

實驗結(jié)果表明，在全量數(shù)據(jù)下，prompt-based fine-tune的效果能夠相當或超過standard fine-tune。

論文：The Power of Scale for Parameter-Efficient Prompt Tuning

該文提出為每個下游任務設(shè)計自己的prompt，拼接到輸入樣本上，然后完全freeze預訓練模型的權(quán)重，僅訓練prompts對應的權(quán)重參數(shù)。發(fā)現(xiàn)隨著模型體積的增大， Prompt-tuning 的效果逐漸追上標準 fine-tune 的效果。

這里 Model Tuning 就是指標準的 fine-tune ，即在下游任務上對預訓練模型的參數(shù)進行更新。

最后對各論文實驗結(jié)果的普遍規(guī)律進行一個總結(jié)。各論文采用的fine-tune策略主要有以下三種：

二、三星gpt3100平板參數(shù)

若您想要了解三星P3100平板電腦的配置參數(shù)，請參考以下介紹：

1.CPU(處理器):1GHz 雙核。

2.內(nèi)存：總RAM約1G；外置存儲卡：最大支持32GB micro SD卡。

3.攝像頭：采用300萬像素的后置攝像頭，30萬像素前置攝像頭；支持4倍變焦。

4.軟件格式：APK。

5.藍牙版本：藍牙3.0。

三、全球十大數(shù)字創(chuàng)新技術(shù)出爐

點擊藍字

科技創(chuàng)新世界潮。

全文共計2520字，預計閱讀時間7分鐘

來源 | 數(shù)據(jù)觀綜合（轉(zhuǎn)載請注明來源）

編輯 | 蒲蒲

“

日前，聯(lián)合國教科文組織2021年 Netexplo 創(chuàng)新論壇在網(wǎng)上舉行。由技術(shù)領(lǐng)域全球知名大學組成的 Netexplo 大學網(wǎng)絡歷時一年，在全球范圍內(nèi)遴選出了10項極具突破性的數(shù)字創(chuàng)新技術(shù)，這些創(chuàng)新對社會具有深遠而持久的影響。

”

阿根廷交易平臺Abakus

受疫情影響，阿根廷經(jīng)濟遭受重創(chuàng)，也使該國農(nóng)業(yè)部門的動蕩加劇。鑒于此，阿根廷初創(chuàng)企業(yè)Abakus與瑞士區(qū)塊鏈基礎(chǔ)設(shè)施提供商CoreLedger推出了一個數(shù)字易貨平臺，旨在幫助農(nóng)民克服金融波動帶來的影響，打造數(shù)字易貨經(jīng)濟。

Abakus系統(tǒng)基于一種以實物資產(chǎn)（例如大豆）為索引的加密貨幣，這種貨幣可能比本國不斷波動的貨幣更穩(wěn)定，而代幣可以兌換成貨物或比索。這兩家公司表示，代幣化農(nóng)業(yè)資產(chǎn)將有助于農(nóng)民對沖通貨膨脹，并在國內(nèi)和國際上獲得流動性。

CoreLedger首席執(zhí)行官Johannes Schweifer表示：“ 在一個飽受通貨膨脹困擾的國家，獲得有形資產(chǎn)的能力可能是這些農(nóng)民生存與發(fā)展之間的區(qū)別。 ”

Abakus首席執(zhí)行官Martin Furst表示：“ 由于國有公司的壟斷地位，阿根廷的農(nóng)民們難以生存，這些壟斷者決定了農(nóng)產(chǎn)品貿(mào)易的條件并大幅度削減了農(nóng)產(chǎn)品。農(nóng)業(yè)支持的代幣解決了現(xiàn)金和股票儲蓄計劃固有的波動性和流動性問題。 ”

英國人工智能AlphaFold 2

在國際象棋和圍棋領(lǐng)域取得巨大成功后，去年年底，人工智能再次大出風頭。在國際蛋白質(zhì)結(jié)構(gòu)預測賽中，AlphaFold 2摘得桂冠，并破解了一個困擾人類50年的難題：預測蛋白質(zhì)如何折疊。

據(jù)DeepMind官方宣布，該算法能夠精確地基于氨基酸序列，預測蛋白質(zhì)的3D結(jié)構(gòu)，其準確性可以與使用冷凍電子顯微鏡（CryoEM）、核磁共振或X射線晶體學等實驗技術(shù)解析的3D結(jié)構(gòu)相媲美。

在過去50年中，“蛋白質(zhì)折疊問題”一直是生物學界的重大挑戰(zhàn)。此前，生物學家主要利用X射線晶體學或冷凍電鏡等實驗技術(shù)來破譯蛋白質(zhì)的三維結(jié)構(gòu)，但這類方法耗時長、成本高。而AlphaFold 2不僅預測準確且效率高，有望促進醫(yī)學領(lǐng)域不斷取得進步。

美國圖像生成系統(tǒng)Dall-E

美國人工智能非營利組織Open AI于今年1月份推出Dall—E，這是一個可以根據(jù)書面文字生成圖像的人工智能系統(tǒng)。取名DALL-E，是為了向藝術(shù)家薩爾瓦多-達利（Salvador Dali ）和皮克斯的機器人WALL-E致敬。

DALL-E是OpenAI基于GPT-3開發(fā)的一種新型神經(jīng)網(wǎng)絡。它是GPT-3的一個小版本，使用了120億個參數(shù)，而不是1750億個參數(shù)。但它已經(jīng)經(jīng)過專門訓練，可以從文本描述生成圖像，使用的是文本-圖像對的數(shù)據(jù)集，而不是像GPT-3這樣非常廣泛的數(shù)據(jù)集。它可以使用自然語言從文字說明中創(chuàng)建圖像，就像GPT-3創(chuàng)建網(wǎng)站和故事一樣。

德國文本AI模型GPT-Neo

OpenAI的GPT—3被認為是目前最好的人工智能文本生成器，其擁有1750億個參數(shù)，現(xiàn)已被數(shù)萬開發(fā)者用于300多個不同的應用程序，每天輸出45億詞之多。

但它是收費的，這阻礙了更多開發(fā)人員的采用，也不利于文本AI的快速發(fā)展。有鑒于此，德國Eleuther人工智能公司于今年3月下旬推出開源的文本AI模型GPT—Neo，以彌補這方面的缺憾。研究人員稱，GPT—Neo的推出將會催生出一大批嶄新應用，也會以更為低廉的成本釋放人們對人工智能未來的想象力。

本質(zhì)上，GPT-Neo有點像是GPT系列的“高仿”項目：GPT-Neo中的各種模型，設(shè)計原理接近GPT系列，但代碼并不一樣。作者們打算嘗試各種結(jié)構(gòu)和注意力類型，最終擴展出GPT-3大小的大語言模型。為了實現(xiàn)這一目標，他們從復現(xiàn)GPT系列的模型開始，不斷嘗試各種模型架構(gòu)、和各種注意力機制的實現(xiàn)方式。

中國量子計算機“九章”

“九章”是由中國科學技術(shù)大學潘建偉、陸朝陽等學者研制的76個光子的量子計算原型機。

實驗顯示，當求解5000萬個樣本的高斯玻色取樣時，“九章”需200秒，而目前世界最快的超級計算機“富岳”需6億年。等效來看，“九章”的計算速度比“懸鈴木”快100億倍，并彌補了“懸鈴木”依賴樣本數(shù)量的技術(shù)漏洞。

這一成果使得我國成功達到了量子計算研究的第一個里程碑：量子計算優(yōu)越性（國外也稱之為“量子霸權(quán)”），并牢固確立了我國在國際量子計算研究中的第一方陣地位，為未來實現(xiàn)可解決具有重大實用價值問題的規(guī)?；孔幽M機奠定了技術(shù)基礎(chǔ)。

對于“九章”的突破，《科學》雜志審稿人評價該工作是“一個最先進的實驗”（astate-of-the-artexperiment），“一個重大成就”（a major achievement）。

美國人工智能“神經(jīng)破譯”

“神經(jīng)破譯”是由MIT CSAIL和谷歌大腦的研究者攜手開發(fā)的一款人工智能軟件，基于語言進化原理，可以在不知道語言來源的情況下破譯古代語言，并揭示某種語言和其他語言之間的關(guān)聯(lián)。

研究者們利用同一語族內(nèi)不同語言之間的聯(lián)系，用該人工智能破譯了兩種失傳的語言：烏加里特文和線性文字B，堪稱現(xiàn)代版的“羅塞塔石碑”！（PS：羅塞塔石碑是一塊用3種語言寫了同一個內(nèi)容的石碑，幫助語言學家們讀懂古文字。）

烏加里特文（Ugaritic），是一種楔形文字，屬于閃米特語族。從字面上來看，就知道它是一個叫做烏加里特（Ugarit）的文明使用的語言，這個文明位于當今地中海沿岸的敘利亞，在公元前6000年前后就初現(xiàn)蹤跡，在公元前1190年前后滅亡。

線性文字B（Linear B），由一種人類還沒有破譯出來的線性文字A演化而來，主要存活于公元前1500年到公元前1200年的克里特島和希臘南部，是希臘語的一種古代書寫形式。

未來，在這項研究起作用的情況下，或許可以像借助羅曼語族三種語言的數(shù)據(jù)庫一樣，直接用機器借助其他已知的人類語言，實現(xiàn)暴力破解。

印度區(qū)塊鏈應用程序Smashboard

Smashboard網(wǎng)站稱自己是一個“另類的社交媒體網(wǎng)絡，為性侵受害者提供獨特的功能，目的是通過減少報案帶來的心理創(chuàng)傷，讓他們的生活更輕松”。

借助區(qū)塊鏈技術(shù)，Smashboard允許用戶創(chuàng)建他們所遭受犯罪的私人和加密賬本，并將其安全地存儲在網(wǎng)上。例如，Smashboard為用戶提供了收集材料的選項，“這些材料可作為日記，也可作為加密個人空間中的時間戳證據(jù)”。更重要的是，該應用程序允許性虐待受害者找到法律顧問或律師，并與他們私下互動。受害者還可以與女權(quán)主義新聞工作者建立聯(lián)系，甚至可以給他們匿名舉報。

目前，Smashboard的另一個障礙是應用的覆蓋范圍。該應用程序目前只能使用三種語言-英語，法語和西班牙語。這意味著該應用無法覆蓋使用印度當?shù)卣Z言的性虐待受害者。

澳大利亞人工智能“蠕蟲大腦驅(qū)動器”

研究人員從蠕蟲微小的大腦中獲得靈感，開發(fā)出一種能夠控制自動駕駛汽車的人工智能系統(tǒng)“蠕蟲大腦驅(qū)動器”。與大多數(shù)網(wǎng)絡中使用數(shù)百萬個神經(jīng)元相比，該系統(tǒng)只需要幾個神經(jīng)元。

該系統(tǒng)只用了控制電路中的19個神經(jīng)元和7.5萬個參數(shù)，就成功控制了一輛汽車。研究小組相信他們的新方法可減少訓練時間，并使人工智能在相對簡單的系統(tǒng)中實現(xiàn)成為可能。

四、gpt3.5-turbo什么區(qū)別

GPT-3.5 Turbo是GPT-3的一個升級版本，也是一個自然語言處理模型。它引入了額外的超參數(shù)、更多的預訓練數(shù)據(jù)，以及更復雜的模型結(jié)構(gòu)，使得它可以在更多的任務上取得更好的表現(xiàn)。GPT-3.5 Turbo將原來的13.5B參數(shù)增加到了32B，這意味著它可以處理更多的上下文信息和更復雜的語言規(guī)則，同時還可以在更高層次上理解語義。與GPT-3相比，GPT-3.5 Turbo在語言生成、對話、翻譯和搜索等任務上表現(xiàn)更佳?？偟膩碚f，GPT-3.5 Turbo是一種更強大、更智能的AI對話系統(tǒng)。

以上就是關(guān)于gpt3參數(shù)量相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。