-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 營(yíng)銷推廣 > 專題列表 > 正文
transformer和LSTM關(guān)系(transformer和LSTM關(guān)系)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于transformer和LSTM關(guān)系的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,有小程序、在線網(wǎng)頁(yè)版、PC客戶端和批量生成器
問友Ai官網(wǎng):https://ai.de1919.com。
本文目錄:
lstm具有什么特點(diǎn)
LSTM(Long Short-Term Memory)是長(zhǎng)短期記憶網(wǎng)絡(luò),是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(RNN),主要是為了解決長(zhǎng)序列訓(xùn)練過程中的梯度消失和梯度爆炸問題。簡(jiǎn)單來說,就是相比普通的RNN,LSTM能夠在更長(zhǎng)的序列中有更好的表現(xiàn)。 LSTM 已經(jīng)在科技領(lǐng)域有了多種應(yīng)用?;?LSTM 的系統(tǒng)可以學(xué)習(xí)翻譯語言、控制機(jī)器人、圖像分析、文檔摘要、語音識(shí)別圖像識(shí)別、手寫識(shí)別、控制聊天機(jī)器人、預(yù)測(cè)疾病、點(diǎn)擊率和股票、合成音樂等等任務(wù)。工作原理
LSTM區(qū)別于RNN的地方,主要就在于它在算法中加入了一個(gè)判斷信息有用與否的“處理器”,這個(gè)處理器作用的結(jié)構(gòu)被稱為cell。
一個(gè)cell當(dāng)中被放置了三扇門,分別叫做輸入門、遺忘門和輸出門。一個(gè)信息進(jìn)入LSTM的網(wǎng)絡(luò)當(dāng)中,可以根據(jù)規(guī)則來判斷是否有用。只有符合算法認(rèn)證的信息才會(huì)留下,不符的信息則通過遺忘門被遺忘。
說起來無非就是一進(jìn)二出的工作原理,卻可以在反復(fù)運(yùn)算下解決神經(jīng)網(wǎng)絡(luò)中長(zhǎng)期存在的大問題。目前已經(jīng)證明,LSTM是解決長(zhǎng)序依賴問題的有效技術(shù),并且這種技術(shù)的普適性非常高,導(dǎo)致帶來的可能性變化非常多。各研究者根據(jù)LSTM紛紛提出了自己的變量版本,這就讓LSTM可以處理千變?nèi)f化的垂直問題。
Transformer和LSTM的對(duì)比
現(xiàn)在的想法是transformer模型建立依賴關(guān)系的能力可能是依舊比較差。
Transformer 長(zhǎng)程依賴的捕獲能力是比 RNN 類結(jié)構(gòu)差的。
這點(diǎn)在最近 Transformer-XL [1] 的文章中有體現(xiàn)。
可以看的到 Transformer 是比 RNN 有明顯差距的。雖然讀了這個(gè) RECL 的定義感覺作者有強(qiáng)行定超參拉開兩者差距之嫌,但毫無疑問的是 Transformer 確實(shí)是最糟糕的,只是不一定有數(shù)字上好幾倍這么夸張。
但是,題目敘述中有一個(gè)誤解,我們可以說 Transformer 建立長(zhǎng)程依賴的能力差,但這不是 Self-Attention 的鍋。
但summarization(摘要)任務(wù)上需要考慮的是成篇章級(jí)別,并且長(zhǎng)距離依賴,這時(shí)單靠self-attention建模依賴關(guān)系可能仍顯不足,而這時(shí)候lstm的優(yōu)勢(shì)反而凸顯出來
Self-Attention 可以使任意兩個(gè) token 間的依賴計(jì)算變?yōu)槌?shù),長(zhǎng)距離依賴上 Self-Attention 是強(qiáng)于 RNN 結(jié)構(gòu)的。要說問題,出也是出在 positional embedding 上,很多最近的 paper 都在嘗試調(diào)整這一部分,也證明大家確實(shí)覺得現(xiàn)在這里是有問題的。
但另一方面, Self-Attention 其實(shí)并不是 Transformer 的全部。 個(gè)人來看, 從深度 CNN 網(wǎng)絡(luò)中借鑒而來的 FFN(全連接層) 可能更加重要。 事實(shí)上 18 年 ACL [2] 有人做過實(shí)驗(yàn),把 Transformer 里的 Self-Attention 換成 RNN 和 CNN,發(fā)現(xiàn)其實(shí)性能幾乎沒降多少。而帶來性能提高的,主要是 FFN with residual 和 multiple heads.
最后,不負(fù)責(zé)任的猜測(cè),Transformer 在 Summarization 上不夠好,其實(shí)可能更多的是數(shù)據(jù)量的問題。 Transformer 這個(gè)結(jié)構(gòu)最牛逼的地方就在于它第一次做到了在 NLP 中把深度疊上去還能 work, 而 NMT 恰好也是一個(gè)目前數(shù)據(jù)量非常豐富且問題尺度本身不大的一個(gè)任務(wù)了,充分發(fā)揮了 Transformer 的優(yōu)勢(shì)。而 Summarization 任務(wù),相對(duì)于其 pairphrase 本身的長(zhǎng)度,benchmark 的數(shù)據(jù)樣本總量可能就略顯不足了。
記得之前在哪看過一個(gè)圖來著,說是 RNN 在中等數(shù)據(jù)量(幾十萬級(jí)別以下)下效果是比較好的,忘記出處了,有同學(xué)記得的話求評(píng)論提醒哈~
Reference
[1] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
[2] How Much Attention Do You Need? A Granular Analysis of Neural Machine Translation Architectures
以上就是關(guān)于transformer和LSTM關(guān)系相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
深圳市 vi設(shè)計(jì)(深圳知名vi設(shè)計(jì)機(jī)構(gòu))
凌云餐飲vi設(shè)計(jì)公司哪家好(凌云logo設(shè)計(jì))