正文

transformer模型和lstm

發(fā)布時間：2023-05-23 00:58:19 稿源：創(chuàng)意嶺閱讀： 91

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于transformer模型和lstm的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，有小程序、在線網(wǎng)頁版、PC客戶端和批量生成器

問友Ai官網(wǎng)：https://ai.de1919.com。

本文目錄:

最值得五個模型
lstm具有什么特點
Transformer和LSTM的對比

transformer模型和lstm

最值得五個模型

以下是我認(rèn)為最值得的五個模型：1. GPT-3：這是目前最先進的自然語言處理模型之一，具備高度的自然語言理解和生成能力，能夠處理各種常見任務(wù)，包括文本生成、翻譯、回答問題等。2. Transformer：這是一種用于機器翻譯和自然語言處理的模型，具有高效的并行訓(xùn)練和推理能力。3. ResNet：這是一種深度卷積神經(jīng)網(wǎng)絡(luò)，適用于圖像分類，視頻分類和物體檢測等計算機視覺。4. LSTM：這是一種循環(huán)神經(jīng)網(wǎng)絡(luò)，適用于處理時序數(shù)據(jù)，例如語音識別、音頻合成和文本生成等任務(wù)。5. GAN：這是一種生成對抗網(wǎng)絡(luò)，適用于生成各種類型的數(shù)據(jù)，例如圖像、音頻和文本。GAN在圖像生成方面特別有用，在虛擬現(xiàn)實和計算機游戲等領(lǐng)域具有廣泛的應(yīng)用。

lstm具有什么特點

LSTM（Long Short-Term Memory）是長短期記憶網(wǎng)絡(luò)，是一種時間遞歸神經(jīng)網(wǎng)絡(luò)（RNN），主要是為了解決長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題。簡單來說，就是相比普通的RNN，LSTM能夠在更長的序列中有更好的表現(xiàn)。 LSTM 已經(jīng)在科技領(lǐng)域有了多種應(yīng)用?；?LSTM 的系統(tǒng)可以學(xué)習(xí)翻譯語言、控制機器人、圖像分析、文檔摘要、語音識別圖像識別、手寫識別、控制聊天機器人、預(yù)測疾病、點擊率和股票、合成音樂等等任務(wù)。
工作原理
LSTM區(qū)別于RNN的地方，主要就在于它在算法中加入了一個判斷信息有用與否的“處理器”，這個處理器作用的結(jié)構(gòu)被稱為cell。
一個cell當(dāng)中被放置了三扇門，分別叫做輸入門、遺忘門和輸出門。一個信息進入LSTM的網(wǎng)絡(luò)當(dāng)中，可以根據(jù)規(guī)則來判斷是否有用。只有符合算法認(rèn)證的信息才會留下，不符的信息則通過遺忘門被遺忘。
說起來無非就是一進二出的工作原理，卻可以在反復(fù)運算下解決神經(jīng)網(wǎng)絡(luò)中長期存在的大問題。目前已經(jīng)證明，LSTM是解決長序依賴問題的有效技術(shù)，并且這種技術(shù)的普適性非常高，導(dǎo)致帶來的可能性變化非常多。各研究者根據(jù)LSTM紛紛提出了自己的變量版本，這就讓LSTM可以處理千變?nèi)f化的垂直問題。

transformer模型和lstm

Transformer和LSTM的對比

現(xiàn)在的想法是transformer模型建立依賴關(guān)系的能力可能是依舊比較差。

Transformer 長程依賴的捕獲能力是比 RNN 類結(jié)構(gòu)差的。

這點在最近 Transformer-XL [1] 的文章中有體現(xiàn)。

可以看的到 Transformer 是比 RNN 有明顯差距的。雖然讀了這個 RECL 的定義感覺作者有強行定超參拉開兩者差距之嫌，但毫無疑問的是 Transformer 確實是最糟糕的，只是不一定有數(shù)字上好幾倍這么夸張。

但是，題目敘述中有一個誤解，我們可以說 Transformer 建立長程依賴的能力差，但這不是 Self-Attention 的鍋。

但summarization（摘要）任務(wù)上需要考慮的是成篇章級別，并且長距離依賴，這時單靠self-attention建模依賴關(guān)系可能仍顯不足，而這時候lstm的優(yōu)勢反而凸顯出來

Self-Attention 可以使任意兩個 token 間的依賴計算變?yōu)槌?shù)，長距離依賴上 Self-Attention 是強于 RNN 結(jié)構(gòu)的。要說問題，出也是出在 positional embedding 上，很多最近的 paper 都在嘗試調(diào)整這一部分，也證明大家確實覺得現(xiàn)在這里是有問題的。

但另一方面， Self-Attention 其實并不是 Transformer 的全部。 個人來看， 從深度 CNN 網(wǎng)絡(luò)中借鑒而來的 FFN（全連接層）可能更加重要。 事實上 18 年 ACL [2] 有人做過實驗，把 Transformer 里的 Self-Attention 換成 RNN 和 CNN，發(fā)現(xiàn)其實性能幾乎沒降多少。而帶來性能提高的，主要是 FFN with residual 和 multiple heads.

最后，不負(fù)責(zé)任的猜測，Transformer 在 Summarization 上不夠好，其實可能更多的是數(shù)據(jù)量的問題。 Transformer 這個結(jié)構(gòu)最牛逼的地方就在于它第一次做到了在 NLP 中把深度疊上去還能 work，而 NMT 恰好也是一個目前數(shù)據(jù)量非常豐富且問題尺度本身不大的一個任務(wù)了，充分發(fā)揮了 Transformer 的優(yōu)勢。而 Summarization 任務(wù)，相對于其 pairphrase 本身的長度，benchmark 的數(shù)據(jù)樣本總量可能就略顯不足了。

記得之前在哪看過一個圖來著，說是 RNN 在中等數(shù)據(jù)量（幾十萬級別以下）下效果是比較好的，忘記出處了，有同學(xué)記得的話求評論提醒哈~

Reference
[1] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
[2] How Much Attention Do You Need? A Granular Analysis of Neural Machine Translation Architectures

以上就是關(guān)于transformer模型和lstm相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。