正文

gpt2訓(xùn)練寫小說

發(fā)布時間：2023-03-19 02:55:20 稿源：創(chuàng)意嶺閱讀： 58 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于gpt2訓(xùn)練寫小說的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準，寫出的就越詳細，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、GPT 原理解析
2、檢測中文是否由chatgpt生成
3、《預(yù)訓(xùn)練周刊》第33期：預(yù)訓(xùn)練語言模型的高效分層域適應(yīng)
4、bigquant怎么調(diào)用gpt

gpt2訓(xùn)練寫小說

一、GPT 原理解析

GPT（Generative Pre-Training）是一個典型的兩階段式模型：無監(jiān)督預(yù)訓(xùn)練+監(jiān)督下游任務(wù)微調(diào)。而在 NLP 任務(wù)中，上游的無監(jiān)督預(yù)訓(xùn)練任務(wù)多半采用語言模型來實現(xiàn)，下游的監(jiān)督任務(wù)直接對上游的模型進行簡單改造即可使用。

GPT 為了能夠有效的抓取文本中的語義信息，使用了單向的 Transformer Decoder 模塊構(gòu)建標準的語言模型，再使用預(yù)訓(xùn)練得到的網(wǎng)絡(luò)架構(gòu)與參數(shù)進行下游監(jiān)督任務(wù)的微調(diào)，取得了不錯的效果。

論文： Improving Language Understanding by Generative Pre-Training

對于語料，GPT 構(gòu)建標準的語言模型：

文章中使用 Transformer Decoder 模塊加上前饋神經(jīng)網(wǎng)絡(luò)，最后使用 softmax 輸出目標詞的分布：

對于通過第一階段的預(yù)訓(xùn)練得到的語言模型，對于特定的任務(wù)進行 fine-tuning。

對于一個監(jiān)督數(shù)據(jù)集，其中的數(shù)據(jù)為一個序列和一個標簽。將序列輸入預(yù)訓(xùn)練模型后得到輸出向量為，接著使用一個線性層來預(yù)測標簽：

需極大化的似然函數(shù)為：

另外，作者發(fā)現(xiàn)，使用語言模型來輔助監(jiān)督學(xué)習(xí)的任務(wù)進行微調(diào)，有兩個好處：

所以，最終下游使用的監(jiān)督模型目標函數(shù)為：

GPT 使用兩階段式模型的另外一個好處是，作者期望通過第一階段的預(yù)訓(xùn)練語言模型，學(xué)習(xí)到盡可能多的自然語言信息，且對于大多數(shù)下游任務(wù)，只需要簡單的修改輸入而不需要修改模型架構(gòu)即可完成微調(diào)。對于 NLP 中的幾種主流任務(wù)，GPT 分別做了如下的變換策略：

模型還包括一些細節(jié)：

論文： Language Models are Unsupervised Multitask Learners

GPT-2 是 GPT 的直接升級版，效果驚人。相比之下，GPT-2 有如下幾點改進：

二、檢測中文是否由chatgpt生成

從大學(xué)教授，到Stack Overflow，可謂是苦ChatGPT久矣?，F(xiàn)在，無論是老師看到學(xué)生提交的論文，還是碼農(nóng)看到網(wǎng)上的代碼，都不敢確定作者是人還是AI。

OpenAI發(fā)布ChatGPT檢測器

它是一個經(jīng)過微調(diào)的GPT模型，可以推斷一段文本由AI產(chǎn)生的可能性。

有趣的是，ChatGPT也是基于GPT模型，用這個分類器檢測ChatGPT，堪稱左右互搏。

在訓(xùn)練上，這個模型采用的是同一主題下的人類手寫和AI生成的文本對。

用到的素材來自于維基百科數(shù)據(jù)集、2019年收集的WebText數(shù)據(jù)集，以及在訓(xùn)練InstructGPT時收集的一組人類演示。

體驗地址：https://platform.openai.com/ai-text-classifier

但是吧，這個正確率著實不高……

在評估「挑戰(zhàn)集」中的英語文本時，分類器只將26%的AI生成文本正確地歸類為「可能是AI寫的」（真陽性）。

此外，它還通過了美國醫(yī)學(xué)執(zhí)照考試、沃頓商學(xué)院MBA考試和4門法學(xué)院的考試，能力簡直要通天；美版「頭條」BuzzFeed宣布要用ChatGPT寫文的消息后，股價瘋狂暴漲119%。

而妙筆生花的文采，也讓ChatGPT被很多小哥奉為「撩妹神器」。

雖然做數(shù)學(xué)題不太靈，但想要讓它寫下一篇文采斐然、深情款款的情書，那可真是so easy。

雖然但是，可以看出，ChatGPT的文采相當(dāng)不錯。論文、情書、小說，ChatGPT都不在話下。難怪大家都在瘋狂用ChatGPT「造文」。

三、《預(yù)訓(xùn)練周刊》第33期：預(yù)訓(xùn)練語言模型的高效分層域適應(yīng)

關(guān)于周刊

本期周刊，我們選擇了9篇預(yù)訓(xùn)練相關(guān)的論文，涉及詞匯遷移、常識問答、多模態(tài)訓(xùn)練、層次訓(xùn)練、對比學(xué)習(xí)、圖像分割、圖文模型、蛋白質(zhì)作用和免疫特征表示的探索。此外，在研究動態(tài)方面，我們選擇了2篇預(yù)訓(xùn)練資訊，將介紹大模型競爭和視覺算法年度回顧方面的一些最新內(nèi)容。最后，在資源推薦方面，我們選擇了1篇預(yù)訓(xùn)練資源，將介紹跨語言摘要方面的一些最新內(nèi)容。

本期貢獻者：申德周翟珂吳新剛

論文推薦

標題：俄羅斯Yandex、Facebook等 | Fine-Tuning Transformers: Vocabulary Transfer（微調(diào)Transformer：詞匯遷移）

簡介：本文討論了巨大型預(yù)訓(xùn)練模型為下游任務(wù)微調(diào)而引發(fā)遷移學(xué)習(xí)的探索之一：詞匯遷移。自然語言處理領(lǐng)域最新進展中Transformer已成為絕對主流。這些模型的大多數(shù)實際自然語言處理應(yīng)用通常是通過遷移學(xué)習(xí)實現(xiàn)的。本文研究了用于微調(diào)的語料庫特定標記化是否會提高模型的最終性能。作者通過一系列的詞匯表優(yōu)化和遷移實驗，證明了這種詞匯表優(yōu)化和遷移策略可以提高模型的性能。作者稱之為：在遷移學(xué)習(xí)領(lǐng)域開創(chuàng)了詞匯遷移的這一方向。

論文地址：「鏈接」

標題：加州大學(xué) | Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization（基于完形轉(zhuǎn)換和一致性優(yōu)化的小樣本常識問答）

簡介：本文在常識問答（CQA）方向研究預(yù)訓(xùn)練語言模型中的知識提取。作者將重點放在更好地利用預(yù)訓(xùn)練語言模型中存儲的知識。雖然研究人員發(fā)現(xiàn)，通過讓預(yù)先訓(xùn)練的語言模型填充精心設(shè)計的關(guān)系提取和文本分類提示的空白，可以提取嵌入在預(yù)訓(xùn)練的語言模型中的知識，但目前尚不清楚作者是否可以在CQA中采用這種范式，其中輸入和輸出的形式更加靈活。為此，作者研究了四種可以將自然問題翻譯成完形填空式句子的翻譯方法，以更好地從語言模型中獲取常識性知識，包括基于句法的模型、無監(jiān)督神經(jīng)模型和兩種監(jiān)督神經(jīng)模型。此外，為結(jié)合不同的翻譯方法，作者提議鼓勵使用未標記數(shù)據(jù)對不同翻譯問題進行模型一致性的預(yù)測。實驗證明了作者的方法在三個CQA數(shù)據(jù)集上的有效性。

論文地址：「鏈接」

標題：威斯康星大學(xué)、微軟等 | RegionCLIP: Region-based Language-Image Pretraining（基于區(qū)域的語言圖像預(yù)訓(xùn)練）

簡介：本文研究了基于識別圖像區(qū)域的語言圖像預(yù)訓(xùn)練模型。業(yè)界使用“圖像-文本對”的對比語言圖像預(yù)訓(xùn)練 (CLIP)在零樣本和遷移學(xué)習(xí)中的圖像分類方面取得了令人印象深刻的結(jié)果。然而，作者表明直接應(yīng)用此類模型來識別圖像區(qū)域以進行對象檢測會導(dǎo)致性能不佳，因為存在域偏移：CLIP 被訓(xùn)練以將圖像作為一個整體與文本描述進行匹配，而沒有捕獲圖像之間的細粒度對齊區(qū)域和文本跨度。為了緩解這個問題，作者提出了一種稱為 RegionCLIP 的新方法，該方法顯著擴展了 CLIP 以學(xué)習(xí)區(qū)域級視覺表示，從而實現(xiàn)圖像區(qū)域和文本概念之間的細粒度對齊。作者的方法利用 CLIP 模型將圖像區(qū)域與模板標題匹配，然后預(yù)訓(xùn)練作者的模型以在特征空間中對齊這些區(qū)域-文本對。當(dāng)將作者的預(yù)訓(xùn)練模型轉(zhuǎn)移到開放詞匯對象檢測任務(wù)時，作者的方法在 COCO 和 LVIS 數(shù)據(jù)集上的新類別分別顯著優(yōu)于現(xiàn)有技術(shù) 3.8 AP50 和 2.2 AP。

論文地址：「鏈接」

代碼地址：https://github.com/microsoft/RegionCLIP

標題：艾倫AI研究所、慕尼黑大學(xué) | Efficient Hierarchical Domain Adaptation for Pretrained Language Models（預(yù)訓(xùn)練語言模型的高效分層域適應(yīng)）

簡介：本文研究了以分層樹結(jié)構(gòu)的域表示實現(xiàn)預(yù)訓(xùn)練語言模型的分層。生成式的語言模型，在不同的通用領(lǐng)域語料庫上進行訓(xùn)練，然而這就限制了它們對更窄領(lǐng)域的適用性，之前的工作表明，持續(xù)的領(lǐng)域內(nèi)訓(xùn)練可以提供進一步的收益。在本文中，作者介紹了一種使用計算效率高的適配器方法將域適應(yīng)擴展到許多不同域的方法。作者的方法基于對文本域部分重疊的觀察，作者將域表示為分層樹結(jié)構(gòu)，其中樹中的每個節(jié)點都與一組適配器權(quán)重相關(guān)聯(lián)。當(dāng)與凍結(jié)的預(yù)訓(xùn)練語言模型相結(jié)合時，這種方法可以實現(xiàn)相關(guān)領(lǐng)域之間的參數(shù)共享，同時避免不相關(guān)領(lǐng)域之間的負面干擾。該方法很高效：對于 D 個域，計算成本為 O(log(D))。GPT-2 的實驗結(jié)果和 C4 中 100 個最具代表性的網(wǎng)站中的大部分顯示了域內(nèi)的全面改進。作者還為保留域提供了一種推理時間算法，并表明對通過樹的多條路徑進行平均可以進一步提高泛化效果，同時僅增加推理的邊際成本。

論文地址：「鏈接」

標題：谷歌、亞馬遜等 | Supervised Graph Contrastive Pretraining for Text Classification（用于文本分類的有監(jiān)督圖對比預(yù)訓(xùn)練）

簡介：本文介紹了用于文本分類的對比預(yù)訓(xùn)練技術(shù)。但是，通?？梢允褂脕碜耘c當(dāng)前任務(wù)共享標簽語義的相關(guān)任務(wù)的標記數(shù)據(jù)。作者假設(shè)有效地使用這些標記數(shù)據(jù)可以更好地概括當(dāng)前任務(wù)。在本文中，作者提出了一種通過基于圖的監(jiān)督對比學(xué)習(xí)方法有效利用來自相關(guān)任務(wù)的標記數(shù)據(jù)的新方法。作者通過將監(jiān)督信息從示例外推到令牌來制定令牌圖。作者的公式產(chǎn)生了一個嵌入空間，其中屬于同一類的高/低概率標記彼此靠近/遠離。作者還提出了詳細的理論見解、以作為本研究方法的驅(qū)動?；谧髡卟捎玫臄?shù)據(jù)集，實驗表明：作者的方法優(yōu)于預(yù)訓(xùn)練方案 2.5 % 、并且基于示例級對比學(xué)習(xí)的公式提升約 1.8 %。此外，在零樣本場景中實驗表明跨域有效性平均提升3.91%。最后，作者還證明了該方法可以用作知識蒸餾設(shè)置中的噪聲教師模型、約平均提升4.57% 。

論文地址：「鏈接」

標題：百度 | ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation（ERNIE-ViLG：雙向視覺語言生成的統(tǒng)一生成式預(yù)訓(xùn)練）

簡介：視覺語言預(yù)訓(xùn)練模型極大地提高了圖像-文本生成任務(wù)的性能，但用于文本-圖像生成任務(wù)的大規(guī)模預(yù)訓(xùn)練模型仍在研究中。本文提出了ERNIE-ViLG，一個統(tǒng)一的生成式預(yù)訓(xùn)練框架，基于Transformer模型并將圖像生成和文本生成都表述為以文本/圖像輸入為條件的自回歸生成任務(wù)。雙向的圖像-文本生成模型簡化了跨視覺和語言的語義對接。對于文本到圖像的生成過程，作者進一步提出了一種端到端的訓(xùn)練方法來共同學(xué)習(xí)視覺序列生成器和圖像重建器。為了探索雙向文本-圖像生成的大規(guī)模預(yù)訓(xùn)練的前景，本文在1.45億圖像-中文文本對的大規(guī)模數(shù)據(jù)集上訓(xùn)練了一個100億參數(shù)的模型，該模型在文本-圖像和圖像-文本任務(wù)上都取得了最先進的性能。

論文地址：「鏈接」

標題：華中科大、西安交大、微軟 | A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model（用預(yù)訓(xùn)練視覺語言模型進行零樣本語義分割的基線）

簡介：通過視覺語言預(yù)訓(xùn)練的零樣本圖像分類已經(jīng)漸趨成熟，然而在更廣泛的視覺問題上如物體檢測和語義分割還需研究。本文在預(yù)訓(xùn)練的視覺語言模型CLIP上構(gòu)建零樣本語義分割基線。該問題難點在于語義分割和CLIP模型在不同的視覺顆粒度上執(zhí)行，語義分割在像素上處理，而CLIP在圖像上執(zhí)行。為了彌補處理粒度上的差異，本文沒有使用普遍的基于FCN的單階段框架，而使用一個兩階段的語義分割框架，第一階段提取泛化掩碼，第二階段利用基于圖像的CLIP模型，對第一階段產(chǎn)生的掩碼圖像作物進行零樣本分類。本文的實驗結(jié)果表明，這個簡單的框架在很大程度上超過了目前的先進技術(shù)。憑借其簡單性和強大的性能，本文希望這個框架能夠作為基線以助未來的研究。

論文地址：「鏈接」

標題：中山大學(xué) | AlphaFold2-aware protein-DNA binding site prediction using graph transformer（使用圖Transformer進行結(jié)合AlphaFold2的蛋白質(zhì)-DNA結(jié)合位點預(yù)測）

簡介：蛋白質(zhì)與DNA的相互作用在生物系統(tǒng)中起著至關(guān)重要的作用，確定蛋白質(zhì)與DNA的結(jié)合位點是對各種生物活動，如轉(zhuǎn)錄和修復(fù)，進行機理理解和設(shè)計新型藥物的第一步?，F(xiàn)有的基于序列的方法只考慮了順序相鄰的上下文特征，這對捕捉空間信息是有限的。對此本文提出GraphSite，作者將結(jié)合位點預(yù)測問題轉(zhuǎn)化為圖節(jié)點分類任務(wù)，并采用基于Transformer的預(yù)訓(xùn)練模型，通過AlphaFold2預(yù)測結(jié)構(gòu)，將蛋白質(zhì)結(jié)構(gòu)信息、AlphaFold2中Evoformer的表征和序列進化信息考慮在內(nèi)實現(xiàn)DNA結(jié)合殘基的識別。GraphSite大大改善了基于序列和結(jié)構(gòu)的最新方法，并且在181種蛋白質(zhì)的獨立測試集上得到進一步證實，在AUPR和MCC上分別超過了最先進的基于結(jié)構(gòu)的方法16.4%和11.2%。

論文地址：「鏈接」

標題：耶魯 | Pipeline for retrieval of COVID-19 immune signatures（檢索COVID-19免疫特征的流程）

簡介：隨著生物醫(yī)學(xué)文獻出版速度的加快，檢索其中的特定的科學(xué)信息變得更有意義。在新冠流行的大背景下，有效地檢索病毒免疫特征，即生物標志物，可以幫助了解不同的SARS-CoV-2感染的免疫反應(yīng)機制。對此，本文構(gòu)建了一個系統(tǒng)的流程來識別和提取結(jié)構(gòu)化的COVID-19免疫特征。具體而言，作者使用基于SPECTER預(yù)訓(xùn)練的生物文本嵌入，配合SVM分類器來自動識別含有免疫特征的論文，并進一步對這些論文進行半自動查詢流程構(gòu)建，檢索特征信息。此外，基于預(yù)訓(xùn)練嵌入的流程也可確定免疫特征的類型，比如基因表達與其他類型的分析。通過這種方法，部分自動化的文獻挖掘可以幫助快速創(chuàng)建半結(jié)構(gòu)化的知識庫，用于自動分析新出現(xiàn)的健康威脅。

論文地址：「鏈接」

資源推薦

標題：孟加拉國工程技術(shù)大學(xué)、加州大學(xué)洛杉磯分校等 | CrossSum:超越 1500 多個語言對的以英語為中心的跨語言抽象文本摘要數(shù)據(jù)集

簡介：作者提供了 CrossSum：一個包含 165 萬個跨語言文章摘要樣本、包含 45 種語言的 1500 多個語言對的大規(guī)模數(shù)據(jù)集?；诙嗾Z言 XL-Sum 數(shù)據(jù)集，并使用與語言無關(guān)的表示模型通過跨語言檢索來對齊以不同語言編寫的相同文章，作者提出了一種多階段數(shù)據(jù)采樣算法并微調(diào)多語言預(yù)訓(xùn)練模型mT5。實驗結(jié)果表明在 CrossSum 上微調(diào)的模型優(yōu)于摘要+翻譯基線。

論文地址：「鏈接」

資源下載：https://github.com/csebuetnlp/CrossSum

【關(guān)于轉(zhuǎn)載】本文轉(zhuǎn)載于公眾號“智源社區(qū)”，僅用于學(xué)術(shù)分享，有任何問題請與我們聯(lián)系：report@aminer.cn

四、bigquant怎么調(diào)用gpt

BigQuant 是一個基于 Python 的量化交易平臺，可以通過編寫 Python 代碼來進行量化交易策略的研究和實現(xiàn)。如果想在 BigQuant 中調(diào)用 GPT 模型，您可以按照以下步驟操作：

1. 在 BigQuant 平臺上新建一個項目，并將 GPT 模型的代碼和訓(xùn)練好的模型文件上傳到項目的目錄中。

2. 在代碼中導(dǎo)入 GPT 模型，并調(diào)用模型進行預(yù)測。例如：

```python

import torch

from transformers import GPT2Tokenizer, GPT2LMHeadModel

tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

model = GPT2LMHeadModel.from_pretrained('./model/') # './model/' 是你上傳到 BigQuant 項目中的 GPT 模型文件所在的路徑

# 要生成的文本前綴

text = '今天天氣怎么樣'

# 預(yù)測生成概率最高的詞，并將結(jié)果輸出到控制臺

input_ids = torch.tensor(tokenizer.encode(text)).unsqueeze(0)

with torch.no_grad():

outputs = model(input_ids, labels=input_ids)

loss, logits = outputs[:2]

pred = tokenizer.decode(logits[0].argmax(dim=-1).numpy())

print(pred)

```

在代碼中，我們首先導(dǎo)入了 GPT 模型所需的庫 torch 和 transformers(GPT2Tokenizer 和 GPT2LMHeadModel)。然后，我們使用 GPT2Tokenizer.from_pretrained 函數(shù)和 GPT2LMHeadModel.from_pretrained 函數(shù)分別加載了 GPT 模型的預(yù)訓(xùn)練權(quán)重和訓(xùn)練好的模型。接下來，我們定義了要生成文本的前綴，并使用模型進行預(yù)測。預(yù)測過程中，我們使用 torch.no_grad() 上下文管理器來避免計算梯度，以提高計算效率。最后，我們將預(yù)測的文本輸出到控制臺中。

請注意，由于 GPT 模型的計算要求較高，可能需要在 BigQuant 平臺上分布式計算才能獲得更好的效果。

以上就是關(guān)于gpt2訓(xùn)練寫小說相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。