HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    gpt2訓(xùn)練寫(xiě)小說(shuō)

    發(fā)布時(shí)間:2023-03-19 02:55:20     稿源: 創(chuàng)意嶺    閱讀: 58        問(wèn)大家

    大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于gpt2訓(xùn)練寫(xiě)小說(shuō)的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。

    開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

    官網(wǎng):https://ai.de1919.com

    本文目錄:

    gpt2訓(xùn)練寫(xiě)小說(shuō)

    一、GPT 原理解析

    GPT(Generative Pre-Training)是一個(gè)典型的兩階段式模型:無(wú)監(jiān)督預(yù)訓(xùn)練+監(jiān)督下游任務(wù)微調(diào)。而在 NLP 任務(wù)中,上游的無(wú)監(jiān)督預(yù)訓(xùn)練任務(wù)多半采用語(yǔ)言模型來(lái)實(shí)現(xiàn),下游的監(jiān)督任務(wù)直接對(duì)上游的模型進(jìn)行簡(jiǎn)單改造即可使用。

    GPT 為了能夠有效的抓取文本中的語(yǔ)義信息,使用了單向的 Transformer Decoder 模塊構(gòu)建標(biāo)準(zhǔn)的語(yǔ)言模型,再使用預(yù)訓(xùn)練得到的網(wǎng)絡(luò)架構(gòu)與參數(shù)進(jìn)行下游監(jiān)督任務(wù)的微調(diào),取得了不錯(cuò)的效果。

    論文: Improving Language Understanding by Generative Pre-Training

    對(duì)于語(yǔ)料 ,GPT 構(gòu)建標(biāo)準(zhǔn)的語(yǔ)言模型:

    文章中使用 Transformer Decoder 模塊加上前饋神經(jīng)網(wǎng)絡(luò),最后使用 softmax 輸出目標(biāo)詞的分布:

    對(duì)于通過(guò)第一階段的預(yù)訓(xùn)練得到的語(yǔ)言模型,對(duì)于特定的任務(wù)進(jìn)行 fine-tuning。

    對(duì)于一個(gè)監(jiān)督數(shù)據(jù)集 ,其中的數(shù)據(jù)為一個(gè)序列 和一個(gè)標(biāo)簽 。將序列輸入預(yù)訓(xùn)練模型后得到輸出向量為 ,接著使用一個(gè)線性層來(lái)預(yù)測(cè)標(biāo)簽:

    需極大化的似然函數(shù)為:

    另外,作者發(fā)現(xiàn),使用語(yǔ)言模型來(lái)輔助監(jiān)督學(xué)習(xí)的任務(wù)進(jìn)行微調(diào),有兩個(gè)好處:

    所以,最終下游使用的監(jiān)督模型目標(biāo)函數(shù)為:

    GPT 使用兩階段式模型的另外一個(gè)好處是,作者期望通過(guò)第一階段的預(yù)訓(xùn)練語(yǔ)言模型,學(xué)習(xí)到盡可能多的自然語(yǔ)言信息,且對(duì)于大多數(shù)下游任務(wù),只需要簡(jiǎn)單的修改輸入而不需要修改模型架構(gòu)即可完成微調(diào)。對(duì)于 NLP 中的幾種主流任務(wù),GPT 分別做了如下的變換策略:

    模型還包括一些細(xì)節(jié):

    論文: Language Models are Unsupervised Multitask Learners

    GPT-2 是 GPT 的直接升級(jí)版,效果驚人。相比之下,GPT-2 有如下幾點(diǎn)改進(jìn):

    二、檢測(cè)中文是否由chatgpt生成

    從大學(xué)教授,到Stack Overflow,可謂是苦ChatGPT久矣?,F(xiàn)在,無(wú)論是老師看到學(xué)生提交的論文,還是碼農(nóng)看到網(wǎng)上的代碼,都不敢確定作者是人還是AI。

    OpenAI發(fā)布ChatGPT檢測(cè)器

    它是一個(gè)經(jīng)過(guò)微調(diào)的GPT模型,可以推斷一段文本由AI產(chǎn)生的可能性。

    有趣的是,ChatGPT也是基于GPT模型,用這個(gè)分類器檢測(cè)ChatGPT,堪稱左右互搏。

    在訓(xùn)練上,這個(gè)模型采用的是同一主題下的人類手寫(xiě)和AI生成的文本對(duì)。

    用到的素材來(lái)自于維基百科數(shù)據(jù)集、2019年收集的WebText數(shù)據(jù)集,以及在訓(xùn)練InstructGPT時(shí)收集的一組人類演示。

    體驗(yàn)地址:https://platform.openai.com/ai-text-classifier

    但是吧,這個(gè)正確率著實(shí)不高……

    在評(píng)估「挑戰(zhàn)集」中的英語(yǔ)文本時(shí),分類器只將26%的AI生成文本正確地歸類為「可能是AI寫(xiě)的」(真陽(yáng)性)。

    此外,它還通過(guò)了美國(guó)醫(yī)學(xué)執(zhí)照考試、沃頓商學(xué)院MBA考試和4門(mén)法學(xué)院的考試,能力簡(jiǎn)直要通天;美版「頭條」BuzzFeed宣布要用ChatGPT寫(xiě)文的消息后,股價(jià)瘋狂暴漲119%。

    而妙筆生花的文采,也讓ChatGPT被很多小哥奉為「撩妹神器」。

    雖然做數(shù)學(xué)題不太靈,但想要讓它寫(xiě)下一篇文采斐然、深情款款的情書(shū),那可真是so easy。

    雖然但是,可以看出,ChatGPT的文采相當(dāng)不錯(cuò)。論文、情書(shū)、小說(shuō),ChatGPT都不在話下。難怪大家都在瘋狂用ChatGPT「造文」。

    三、《預(yù)訓(xùn)練周刊》第33期:預(yù)訓(xùn)練語(yǔ)言模型的高效分層域適應(yīng)

    關(guān)于周刊

    本期周刊,我們選擇了9篇預(yù)訓(xùn)練相關(guān)的論文,涉及詞匯遷移、常識(shí)問(wèn)答、多模態(tài)訓(xùn)練、層次訓(xùn)練、對(duì)比學(xué)習(xí)、圖像分割、圖文模型、蛋白質(zhì)作用和免疫特征表示的 探索 。此外,在研究動(dòng)態(tài)方面,我們選擇了2篇預(yù)訓(xùn)練資訊,將介紹大模型競(jìng)爭(zhēng)和視覺(jué)算法年度回顧方面的一些最新內(nèi)容。最后,在資源推薦方面,我們選擇了1篇預(yù)訓(xùn)練資源,將介紹跨語(yǔ)言摘要方面的一些最新內(nèi)容。

    本期貢獻(xiàn)者:申德周 翟珂 吳新剛

    論文推薦

    標(biāo)題:俄羅斯Yandex、Facebook等 | Fine-Tuning Transformers: Vocabulary Transfer(微調(diào)Transformer:詞匯遷移)

    簡(jiǎn)介:本文討論了巨大型預(yù)訓(xùn)練模型為下游任務(wù)微調(diào)而引發(fā)遷移學(xué)習(xí)的 探索 之一:詞匯遷移。自然語(yǔ)言處理領(lǐng)域最新進(jìn)展中Transformer已成為絕對(duì)主流。這些模型的大多數(shù)實(shí)際自然語(yǔ)言處理應(yīng)用通常是通過(guò)遷移學(xué)習(xí)實(shí)現(xiàn)的。本文研究了用于微調(diào)的語(yǔ)料庫(kù)特定標(biāo)記化是否會(huì)提高模型的最終性能。作者通過(guò)一系列的詞匯表優(yōu)化和遷移實(shí)驗(yàn),證明了這種詞匯表優(yōu)化和遷移策略可以提高模型的性能。作者稱之為:在遷移學(xué)習(xí)領(lǐng)域開(kāi)創(chuàng)了詞匯遷移的這一方向。

    論文地址:「鏈接」

    標(biāo)題:加州大學(xué) | Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization(基于完形轉(zhuǎn)換和一致性優(yōu)化的小樣本常識(shí)問(wèn)答)

    簡(jiǎn)介:本文在常識(shí)問(wèn)答(CQA)方向研究預(yù)訓(xùn)練語(yǔ)言模型中的知識(shí)提取。作者將重點(diǎn)放在更好地利用預(yù)訓(xùn)練語(yǔ)言模型中存儲(chǔ)的知識(shí)。雖然研究人員發(fā)現(xiàn),通過(guò)讓預(yù)先訓(xùn)練的語(yǔ)言模型填充精心設(shè)計(jì)的關(guān)系提取和文本分類提示的空白,可以提取嵌入在預(yù)訓(xùn)練的語(yǔ)言模型中的知識(shí),但目前尚不清楚作者是否可以在CQA中采用這種范式,其中輸入和輸出的形式更加靈活。為此,作者研究了四種可以將自然問(wèn)題翻譯成完形填空式句子的翻譯方法,以更好地從語(yǔ)言模型中獲取常識(shí)性知識(shí),包括基于句法的模型、無(wú)監(jiān)督神經(jīng)模型和兩種監(jiān)督神經(jīng)模型。此外,為結(jié)合不同的翻譯方法,作者提議鼓勵(lì)使用未標(biāo)記數(shù)據(jù)對(duì)不同翻譯問(wèn)題進(jìn)行模型一致性的預(yù)測(cè)。實(shí)驗(yàn)證明了作者的方法在三個(gè)CQA數(shù)據(jù)集上的有效性。

    論文地址:「鏈接」

    標(biāo)題:威斯康星大學(xué)、微軟等 | RegionCLIP: Region-based Language-Image Pretraining(基于區(qū)域的語(yǔ)言圖像預(yù)訓(xùn)練)

    簡(jiǎn)介:本文研究了基于識(shí)別圖像區(qū)域的語(yǔ)言圖像預(yù)訓(xùn)練模型。業(yè)界使用“圖像-文本對(duì)”的對(duì)比語(yǔ)言圖像預(yù)訓(xùn)練 (CLIP)在零樣本和遷移學(xué)習(xí)中的圖像分類方面取得了令人印象深刻的結(jié)果。然而,作者表明直接應(yīng)用此類模型來(lái)識(shí)別圖像區(qū)域以進(jìn)行對(duì)象檢測(cè)會(huì)導(dǎo)致性能不佳,因?yàn)榇嬖谟蚱疲篊LIP 被訓(xùn)練以將圖像作為一個(gè)整體與文本描述進(jìn)行匹配,而沒(méi)有捕獲圖像之間的細(xì)粒度對(duì)齊區(qū)域和文本跨度。為了緩解這個(gè)問(wèn)題,作者提出了一種稱為 RegionCLIP 的新方法,該方法顯著擴(kuò)展了 CLIP 以學(xué)習(xí)區(qū)域級(jí)視覺(jué)表示,從而實(shí)現(xiàn)圖像區(qū)域和文本概念之間的細(xì)粒度對(duì)齊。作者的方法利用 CLIP 模型將圖像區(qū)域與模板標(biāo)題匹配,然后預(yù)訓(xùn)練作者的模型以在特征空間中對(duì)齊這些區(qū)域-文本對(duì)。當(dāng)將作者的預(yù)訓(xùn)練模型轉(zhuǎn)移到開(kāi)放詞匯對(duì)象檢測(cè)任務(wù)時(shí),作者的方法在 COCO 和 LVIS 數(shù)據(jù)集上的新類別分別顯著優(yōu)于現(xiàn)有技術(shù) 3.8 AP50 和 2.2 AP。

    論文地址:「鏈接」

    代碼地址:https://github.com/microsoft/RegionCLIP

    標(biāo)題:艾倫AI研究所、慕尼黑大學(xué) | Efficient Hierarchical Domain Adaptation for Pretrained Language Models(預(yù)訓(xùn)練語(yǔ)言模型的高效分層域適應(yīng))

    簡(jiǎn)介:本文研究了以分層樹(shù)結(jié)構(gòu)的域表示實(shí)現(xiàn)預(yù)訓(xùn)練語(yǔ)言模型的分層。生成式的語(yǔ)言模型,在不同的通用領(lǐng)域語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,然而這就限制了它們對(duì)更窄領(lǐng)域的適用性,之前的工作表明,持續(xù)的領(lǐng)域內(nèi)訓(xùn)練可以提供進(jìn)一步的收益。在本文中,作者介紹了一種使用計(jì)算效率高的適配器方法將域適應(yīng)擴(kuò)展到許多不同域的方法。作者的方法基于對(duì)文本域部分重疊的觀察,作者將域表示為分層樹(shù)結(jié)構(gòu),其中樹(shù)中的每個(gè)節(jié)點(diǎn)都與一組適配器權(quán)重相關(guān)聯(lián)。當(dāng)與凍結(jié)的預(yù)訓(xùn)練語(yǔ)言模型相結(jié)合時(shí),這種方法可以實(shí)現(xiàn)相關(guān)領(lǐng)域之間的參數(shù)共享,同時(shí)避免不相關(guān)領(lǐng)域之間的負(fù)面干擾。該方法很高效:對(duì)于 D 個(gè)域,計(jì)算成本為 O(log(D))。GPT-2 的實(shí)驗(yàn)結(jié)果和 C4 中 100 個(gè)最具代表性的網(wǎng)站中的大部分顯示了域內(nèi)的全面改進(jìn)。作者還為保留域提供了一種推理時(shí)間算法,并表明對(duì)通過(guò)樹(shù)的多條路徑進(jìn)行平均可以進(jìn)一步提高泛化效果,同時(shí)僅增加推理的邊際成本。

    論文地址:「鏈接」

    標(biāo)題:谷歌、亞馬遜等 | Supervised Graph Contrastive Pretraining for Text Classification(用于文本分類的有監(jiān)督圖對(duì)比預(yù)訓(xùn)練)

    簡(jiǎn)介:本文介紹了用于文本分類的對(duì)比預(yù)訓(xùn)練技術(shù)。但是,通??梢允褂脕?lái)自與當(dāng)前任務(wù)共享標(biāo)簽語(yǔ)義的相關(guān)任務(wù)的標(biāo)記數(shù)據(jù)。作者假設(shè)有效地使用這些標(biāo)記數(shù)據(jù)可以更好地概括當(dāng)前任務(wù)。在本文中,作者提出了一種通過(guò)基于圖的監(jiān)督對(duì)比學(xué)習(xí)方法有效利用來(lái)自相關(guān)任務(wù)的標(biāo)記數(shù)據(jù)的新方法。作者通過(guò)將監(jiān)督信息從示例外推到令牌來(lái)制定令牌圖。作者的公式產(chǎn)生了一個(gè)嵌入空間,其中屬于同一類的高/低概率標(biāo)記彼此靠近/遠(yuǎn)離。作者還提出了詳細(xì)的理論見(jiàn)解、以作為本研究方法的驅(qū)動(dòng)?;谧髡卟捎玫臄?shù)據(jù)集,實(shí)驗(yàn)表明:作者的方法優(yōu)于預(yù)訓(xùn)練方案 2.5 % 、并且基于示例級(jí)對(duì)比學(xué)習(xí)的公式提升約 1.8 %。此外,在零樣本場(chǎng)景中實(shí)驗(yàn)表明跨域有效性平均提升3.91%。最后,作者還證明了該方法可以用作知識(shí)蒸餾設(shè)置中的噪聲教師模型、約平均提升4.57% 。

    論文地址:「鏈接」

    標(biāo)題:百度 | ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation(ERNIE-ViLG:雙向視覺(jué)語(yǔ)言生成的統(tǒng)一生成式預(yù)訓(xùn)練)

    簡(jiǎn)介:視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型極大地提高了圖像-文本生成任務(wù)的性能,但用于文本-圖像生成任務(wù)的大規(guī)模預(yù)訓(xùn)練模型仍在研究中。本文提出了ERNIE-ViLG,一個(gè)統(tǒng)一的生成式預(yù)訓(xùn)練框架,基于Transformer模型并將圖像生成和文本生成都表述為以文本/圖像輸入為條件的自回歸生成任務(wù)。雙向的圖像-文本生成模型簡(jiǎn)化了跨視覺(jué)和語(yǔ)言的語(yǔ)義對(duì)接。對(duì)于文本到圖像的生成過(guò)程,作者進(jìn)一步提出了一種端到端的訓(xùn)練方法來(lái)共同學(xué)習(xí)視覺(jué)序列生成器和圖像重建器。為了 探索 雙向文本-圖像生成的大規(guī)模預(yù)訓(xùn)練的前景,本文在1.45億圖像-中文文本對(duì)的大規(guī)模數(shù)據(jù)集上訓(xùn)練了一個(gè)100億參數(shù)的模型,該模型在文本-圖像和圖像-文本任務(wù)上都取得了最先進(jìn)的性能。

    論文地址:「鏈接」

    標(biāo)題:華中科大、西安交大、微軟 | A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model(用預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型進(jìn)行零樣本語(yǔ)義分割的基線)

    簡(jiǎn)介:通過(guò)視覺(jué)語(yǔ)言預(yù)訓(xùn)練的零樣本圖像分類已經(jīng)漸趨成熟,然而在更廣泛的視覺(jué)問(wèn)題上如物體檢測(cè)和語(yǔ)義分割還需研究。本文在預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型CLIP上構(gòu)建零樣本語(yǔ)義分割基線。該問(wèn)題難點(diǎn)在于語(yǔ)義分割和CLIP模型在不同的視覺(jué)顆粒度上執(zhí)行,語(yǔ)義分割在像素上處理,而CLIP在圖像上執(zhí)行。為了彌補(bǔ)處理粒度上的差異,本文沒(méi)有使用普遍的基于FCN的單階段框架,而使用一個(gè)兩階段的語(yǔ)義分割框架,第一階段提取泛化掩碼,第二階段利用基于圖像的CLIP模型,對(duì)第一階段產(chǎn)生的掩碼圖像作物進(jìn)行零樣本分類。本文的實(shí)驗(yàn)結(jié)果表明,這個(gè)簡(jiǎn)單的框架在很大程度上超過(guò)了目前的先進(jìn)技術(shù)。憑借其簡(jiǎn)單性和強(qiáng)大的性能,本文希望這個(gè)框架能夠作為基線以助未來(lái)的研究。

    論文地址:「鏈接」

    標(biāo)題:中山大學(xué) | AlphaFold2-aware protein-DNA binding site prediction using graph transformer(使用圖Transformer進(jìn)行結(jié)合AlphaFold2的蛋白質(zhì)-DNA結(jié)合位點(diǎn)預(yù)測(cè))

    簡(jiǎn)介:蛋白質(zhì)與DNA的相互作用在生物系統(tǒng)中起著至關(guān)重要的作用,確定蛋白質(zhì)與DNA的結(jié)合位點(diǎn)是對(duì)各種生物活動(dòng),如轉(zhuǎn)錄和修復(fù),進(jìn)行機(jī)理理解和設(shè)計(jì)新型藥物的第一步?,F(xiàn)有的基于序列的方法只考慮了順序相鄰的上下文特征,這對(duì)捕捉空間信息是有限的。對(duì)此本文提出GraphSite,作者將結(jié)合位點(diǎn)預(yù)測(cè)問(wèn)題轉(zhuǎn)化為圖節(jié)點(diǎn)分類任務(wù),并采用基于Transformer的預(yù)訓(xùn)練模型,通過(guò)AlphaFold2預(yù)測(cè)結(jié)構(gòu),將蛋白質(zhì)結(jié)構(gòu)信息、AlphaFold2中Evoformer的表征和序列進(jìn)化信息考慮在內(nèi)實(shí)現(xiàn)DNA結(jié)合殘基的識(shí)別。GraphSite大大改善了基于序列和結(jié)構(gòu)的最新方法,并且在181種蛋白質(zhì)的獨(dú)立測(cè)試集上得到進(jìn)一步證實(shí),在AUPR和MCC上分別超過(guò)了最先進(jìn)的基于結(jié)構(gòu)的方法16.4%和11.2%。

    論文地址:「鏈接」

    標(biāo)題:耶魯 | Pipeline for retrieval of COVID-19 immune signatures(檢索COVID-19免疫特征的流程)

    簡(jiǎn)介:隨著生物醫(yī)學(xué)文獻(xiàn)出版速度的加快,檢索其中的特定的科學(xué)信息變得更有意義。在新冠流行的大背景下,有效地檢索病毒免疫特征,即生物標(biāo)志物,可以幫助了解不同的SARS-CoV-2感染的免疫反應(yīng)機(jī)制。對(duì)此,本文構(gòu)建了一個(gè)系統(tǒng)的流程來(lái)識(shí)別和提取結(jié)構(gòu)化的COVID-19免疫特征。具體而言,作者使用基于SPECTER預(yù)訓(xùn)練的生物文本嵌入,配合SVM分類器來(lái)自動(dòng)識(shí)別含有免疫特征的論文,并進(jìn)一步對(duì)這些論文進(jìn)行半自動(dòng)查詢流程構(gòu)建,檢索特征信息。此外,基于預(yù)訓(xùn)練嵌入的流程也可確定免疫特征的類型,比如基因表達(dá)與其他類型的分析。通過(guò)這種方法,部分自動(dòng)化的文獻(xiàn)挖掘可以幫助快速創(chuàng)建半結(jié)構(gòu)化的知識(shí)庫(kù),用于自動(dòng)分析新出現(xiàn)的 健康 威脅。

    論文地址:「鏈接」

    資源推薦

    標(biāo)題:孟加拉國(guó)工程技術(shù)大學(xué)、加州大學(xué)洛杉磯分校等 | CrossSum:超越 1500 多個(gè)語(yǔ)言對(duì)的以英語(yǔ)為中心的跨語(yǔ)言抽象文本摘要數(shù)據(jù)集

    簡(jiǎn)介:作者提供了 CrossSum:一個(gè)包含 165 萬(wàn)個(gè)跨語(yǔ)言文章摘要樣本、包含 45 種語(yǔ)言的 1500 多個(gè)語(yǔ)言對(duì)的大規(guī)模數(shù)據(jù)集?;诙嗾Z(yǔ)言 XL-Sum 數(shù)據(jù)集,并使用與語(yǔ)言無(wú)關(guān)的表示模型通過(guò)跨語(yǔ)言檢索來(lái)對(duì)齊以不同語(yǔ)言編寫(xiě)的相同文章,作者提出了一種多階段數(shù)據(jù)采樣算法并微調(diào)多語(yǔ)言預(yù)訓(xùn)練模型mT5。實(shí)驗(yàn)結(jié)果表明在 CrossSum 上微調(diào)的模型優(yōu)于摘要+翻譯基線。

    論文地址:「鏈接」

    資源下載:https://github.com/csebuetnlp/CrossSum

    【關(guān)于轉(zhuǎn)載】本文轉(zhuǎn)載于公眾號(hào)“智源社區(qū)”,僅用于學(xué)術(shù)分享,有任何問(wèn)題請(qǐng)與我們聯(lián)系:report@aminer.cn

    四、bigquant怎么調(diào)用gpt

    BigQuant 是一個(gè)基于 Python 的量化交易平臺(tái),可以通過(guò)編寫(xiě) Python 代碼來(lái)進(jìn)行量化交易策略的研究和實(shí)現(xiàn)。如果想在 BigQuant 中調(diào)用 GPT 模型,您可以按照以下步驟操作:

    1. 在 BigQuant 平臺(tái)上新建一個(gè)項(xiàng)目,并將 GPT 模型的代碼和訓(xùn)練好的模型文件上傳到項(xiàng)目的目錄中。

    2. 在代碼中導(dǎo)入 GPT 模型,并調(diào)用模型進(jìn)行預(yù)測(cè)。例如:

    ```python

    import torch

    from transformers import GPT2Tokenizer, GPT2LMHeadModel

    tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

    model = GPT2LMHeadModel.from_pretrained('./model/') # './model/' 是你上傳到 BigQuant 項(xiàng)目中的 GPT 模型文件所在的路徑

    # 要生成的文本前綴

    text = '今天天氣怎么樣'

    # 預(yù)測(cè)生成概率最高的詞,并將結(jié)果輸出到控制臺(tái)

    input_ids = torch.tensor(tokenizer.encode(text)).unsqueeze(0)

    with torch.no_grad():

    outputs = model(input_ids, labels=input_ids)

    loss, logits = outputs[:2]

    pred = tokenizer.decode(logits[0].argmax(dim=-1).numpy())

    print(pred)

    ```

    在代碼中,我們首先導(dǎo)入了 GPT 模型所需的庫(kù) torch 和 transformers(GPT2Tokenizer 和 GPT2LMHeadModel)。然后,我們使用 GPT2Tokenizer.from_pretrained 函數(shù)和 GPT2LMHeadModel.from_pretrained 函數(shù)分別加載了 GPT 模型的預(yù)訓(xùn)練權(quán)重和訓(xùn)練好的模型。接下來(lái),我們定義了要生成文本的前綴,并使用模型進(jìn)行預(yù)測(cè)。預(yù)測(cè)過(guò)程中,我們使用 torch.no_grad() 上下文管理器來(lái)避免計(jì)算梯度,以提高計(jì)算效率。最后,我們將預(yù)測(cè)的文本輸出到控制臺(tái)中。

    請(qǐng)注意,由于 GPT 模型的計(jì)算要求較高,可能需要在 BigQuant 平臺(tái)上分布式計(jì)算才能獲得更好的效果。

    以上就是關(guān)于gpt2訓(xùn)練寫(xiě)小說(shuō)相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    ChatGPT中文版收費(fèi)(chat官方下載)

    chatGPT對(duì)科研的影響

    怎么在手機(jī)上安裝chatGPT(怎么在手機(jī)上安裝steam)

    蘭州婦科醫(yī)院排行榜(蘭州婦科醫(yī)院排行榜西京醫(yī)院路線規(guī)劃)

    目前網(wǎng)絡(luò)營(yíng)銷的主要引流方式是