-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 營銷推廣 > 專題列表 > 正文
transformer模型和lstm
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于transformer模型和lstm的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,有小程序、在線網(wǎng)頁版、PC客戶端和批量生成器
問友Ai官網(wǎng):https://ai.de1919.com。
本文目錄:
最值得五個模型
以下是我認(rèn)為最值得的五個模型:1. GPT-3:這是目前最先進的自然語言處理模型之一,具備高度的自然語言理解和生成能力,能夠處理各種常見任務(wù),包括文本生成、翻譯、回答問題等。2. Transformer:這是一種用于機器翻譯和自然語言處理的模型,具有高效的并行訓(xùn)練和推理能力。3. ResNet:這是一種深度卷積神經(jīng)網(wǎng)絡(luò),適用于圖像分類,視頻分類和物體檢測等計算機視覺。4. LSTM:這是一種循環(huán)神經(jīng)網(wǎng)絡(luò),適用于處理時序數(shù)據(jù),例如語音識別、音頻合成和文本生成等任務(wù)。5. GAN:這是一種生成對抗網(wǎng)絡(luò),適用于生成各種類型的數(shù)據(jù),例如圖像、音頻和文本。GAN在圖像生成方面特別有用,在虛擬現(xiàn)實和計算機游戲等領(lǐng)域具有廣泛的應(yīng)用。lstm具有什么特點
LSTM(Long Short-Term Memory)是長短期記憶網(wǎng)絡(luò),是一種時間遞歸神經(jīng)網(wǎng)絡(luò)(RNN),主要是為了解決長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題。簡單來說,就是相比普通的RNN,LSTM能夠在更長的序列中有更好的表現(xiàn)。 LSTM 已經(jīng)在科技領(lǐng)域有了多種應(yīng)用?;?LSTM 的系統(tǒng)可以學(xué)習(xí)翻譯語言、控制機器人、圖像分析、文檔摘要、語音識別圖像識別、手寫識別、控制聊天機器人、預(yù)測疾病、點擊率和股票、合成音樂等等任務(wù)。工作原理
LSTM區(qū)別于RNN的地方,主要就在于它在算法中加入了一個判斷信息有用與否的“處理器”,這個處理器作用的結(jié)構(gòu)被稱為cell。
一個cell當(dāng)中被放置了三扇門,分別叫做輸入門、遺忘門和輸出門。一個信息進入LSTM的網(wǎng)絡(luò)當(dāng)中,可以根據(jù)規(guī)則來判斷是否有用。只有符合算法認(rèn)證的信息才會留下,不符的信息則通過遺忘門被遺忘。
說起來無非就是一進二出的工作原理,卻可以在反復(fù)運算下解決神經(jīng)網(wǎng)絡(luò)中長期存在的大問題。目前已經(jīng)證明,LSTM是解決長序依賴問題的有效技術(shù),并且這種技術(shù)的普適性非常高,導(dǎo)致帶來的可能性變化非常多。各研究者根據(jù)LSTM紛紛提出了自己的變量版本,這就讓LSTM可以處理千變?nèi)f化的垂直問題。
Transformer和LSTM的對比
現(xiàn)在的想法是transformer模型建立依賴關(guān)系的能力可能是依舊比較差。
Transformer 長程依賴的捕獲能力是比 RNN 類結(jié)構(gòu)差的。
這點在最近 Transformer-XL [1] 的文章中有體現(xiàn)。
可以看的到 Transformer 是比 RNN 有明顯差距的。雖然讀了這個 RECL 的定義感覺作者有強行定超參拉開兩者差距之嫌,但毫無疑問的是 Transformer 確實是最糟糕的,只是不一定有數(shù)字上好幾倍這么夸張。
但是,題目敘述中有一個誤解,我們可以說 Transformer 建立長程依賴的能力差,但這不是 Self-Attention 的鍋。
但summarization(摘要)任務(wù)上需要考慮的是成篇章級別,并且長距離依賴,這時單靠self-attention建模依賴關(guān)系可能仍顯不足,而這時候lstm的優(yōu)勢反而凸顯出來
Self-Attention 可以使任意兩個 token 間的依賴計算變?yōu)槌?shù),長距離依賴上 Self-Attention 是強于 RNN 結(jié)構(gòu)的。要說問題,出也是出在 positional embedding 上,很多最近的 paper 都在嘗試調(diào)整這一部分,也證明大家確實覺得現(xiàn)在這里是有問題的。
但另一方面, Self-Attention 其實并不是 Transformer 的全部。 個人來看, 從深度 CNN 網(wǎng)絡(luò)中借鑒而來的 FFN(全連接層) 可能更加重要。 事實上 18 年 ACL [2] 有人做過實驗,把 Transformer 里的 Self-Attention 換成 RNN 和 CNN,發(fā)現(xiàn)其實性能幾乎沒降多少。而帶來性能提高的,主要是 FFN with residual 和 multiple heads.
最后,不負(fù)責(zé)任的猜測,Transformer 在 Summarization 上不夠好,其實可能更多的是數(shù)據(jù)量的問題。 Transformer 這個結(jié)構(gòu)最牛逼的地方就在于它第一次做到了在 NLP 中把深度疊上去還能 work, 而 NMT 恰好也是一個目前數(shù)據(jù)量非常豐富且問題尺度本身不大的一個任務(wù)了,充分發(fā)揮了 Transformer 的優(yōu)勢。而 Summarization 任務(wù),相對于其 pairphrase 本身的長度,benchmark 的數(shù)據(jù)樣本總量可能就略顯不足了。
記得之前在哪看過一個圖來著,說是 RNN 在中等數(shù)據(jù)量(幾十萬級別以下)下效果是比較好的,忘記出處了,有同學(xué)記得的話求評論提醒哈~
Reference
[1] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
[2] How Much Attention Do You Need? A Granular Analysis of Neural Machine Translation Architectures
以上就是關(guān)于transformer模型和lstm相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
chatGPT在國內(nèi)用不了(chatroulette在中國能用嗎)
谷歌在線入口網(wǎng)頁版(谷歌在線入口網(wǎng)頁版登錄)