-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
transformer decoder的構(gòu)造
預(yù)訓(xùn)練的時(shí)候做語言模型的訓(xùn)練
GPT2用更多更深的block
BERT是做NLU,generation做不了
GPT天生就是語言模型,非常適合做generation的任務(wù),在bert里能做的在gpt里也可以做
gpt3什么語言
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于gpt3什么語言的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。
ChatGPT國內(nèi)免費(fèi)在線使用,能給你生成想要的原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
你只需要給出你的關(guān)鍵詞,它就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端,官網(wǎng):https://ai.de1919.com
本文目錄:
一、GPT的auto-regressive語言模型架構(gòu)在信息表示方面有什么架構(gòu)上的缺陷?具體如何改進(jìn)?
1) GPT
在Bert 之后,OpenAI 的 GPT-2 就是其中之一。它在文本生成上有著驚艷的表現(xiàn),其生成的文本在上下文連貫性和情感表達(dá)上都超過了人們對(duì)目前階段語言模型的預(yù)期。僅從模型架構(gòu)而言,GPT-2 并沒有特別新穎的架構(gòu),它和 transformer 的 Decoder 類似。相比較于GPT-1,GPT -2 使用了更大的預(yù)料,更大和更深的模型。
從transformer的decoder里移除了decoder對(duì)encoder的attention部分。也就是消除掉了seq2seq的過程。
GPT是一個(gè)語言模型,每一個(gè)時(shí)刻只能看見當(dāng)前時(shí)刻前面時(shí)刻的信息,是一個(gè)auto regressive的過程。
GPT2,hidden state的大小有變化,根據(jù)層數(shù)的多少有small,medum,large,extra large的劃分。
GPT的訓(xùn)練過程是交叉式的預(yù)測(cè)下一個(gè)單詞,測(cè)試的時(shí)候是輸入一個(gè)句子生成另外一個(gè)句子。
GPT的預(yù)訓(xùn)練就是訓(xùn)練一個(gè)語言模型。而bert的預(yù)訓(xùn)練是masked language model和nsp的任務(wù)。
GPT由多個(gè)decocer block組成,每一個(gè)decoder block由masked self-attention和feed forward neural network組成。
一個(gè)timestamp的hidden state經(jīng)過線性層轉(zhuǎn)換為vocab size大小的embedding, 然后經(jīng)過softmax,算出每個(gè)詞匯的概率,找出其中概率最大的詞作為預(yù)測(cè)輸出,然后下一個(gè)時(shí)刻的詞作為真實(shí)輸出,計(jì)算兩者的cross entropy來訓(xùn)練模型。
每一個(gè)timestamp后面的位置都mask掉,設(shè)置一個(gè)負(fù)無群大的值,做softmax的時(shí)候,該位置的值就為0。
2)總結(jié)
除了GPT-2 ,GPT-3依舊延續(xù)自己的單向語言模型訓(xùn)練方式,只不過把模型尺寸增大到了1750億,并且使用45TB數(shù)據(jù)進(jìn)行訓(xùn)練
二、chatpgt是什么
ChatGPT是OpenAI開發(fā)的大型預(yù)訓(xùn)練語言模型。這是GPT-3模型的一個(gè)變體,經(jīng)過訓(xùn)練可以在對(duì)話中生成類似人類的文本響應(yīng)。
ChatGPT背后的算法基于Transformer架構(gòu),這是一種使用自注意力機(jī)制處理輸入數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)。Transformer架構(gòu)廣泛應(yīng)用于語言翻譯、文本摘要、問答等自然語言處理任務(wù)。ChatGPT可用于創(chuàng)建能與用戶進(jìn)行對(duì)話的聊天機(jī)器人。這對(duì)客戶服務(wù)很有用,因?yàn)樗峁┝擞杏玫男畔⒒蛑皇菫榱撕猛妗?/p>
ChatGPT使用方法和注意事項(xiàng):
支持中文和英文,都可以問,它不是Siri這種機(jī)器人,他是一種生產(chǎn)力的工具,要把它當(dāng)作真實(shí)的人來對(duì)話,可以讓它改進(jìn),支持上下文多輪對(duì)話,放心大膽的問,每次回答的字?jǐn)?shù)有應(yīng)該有限制,可以使用“繼續(xù)問”等來追問,它會(huì)繼續(xù)寫。
AI屆已經(jīng)進(jìn)入新的范式,學(xué)會(huì)提問題會(huì)越來越重要
三、算力可貴,效率價(jià)高:智算中心憑啥是筑基新基建的最優(yōu)解?
在“新基建”浪潮下,人工智能正成為經(jīng)濟(jì)增長(zhǎng)的新引擎,各行各業(yè)開啟智能化升級(jí)轉(zhuǎn)型。算力在其中扮演了重要角色,是國家未來競(jìng)爭(zhēng)力的集中體現(xiàn)。但事實(shí)是,在發(fā)展的過程中,高速增長(zhǎng)的海量數(shù)據(jù)與更加復(fù)雜的模型,正在為算力帶來更大的挑戰(zhàn),主要體現(xiàn)為算力不足,效率不高。
算力誠可貴:數(shù)據(jù)、算法需要更多算力支撐
眾所周知,在人工智能發(fā)展的三要素中,無論是數(shù)據(jù)還是算法,都離不開算力的支撐,算力已成為人工智能發(fā)展的關(guān)鍵要素。
IDC發(fā)布的《數(shù)據(jù)時(shí)代2025》報(bào)告顯示,2018年全球產(chǎn)生的數(shù)據(jù)量為33ZB (1ZB=1萬億GB),到2025年將增長(zhǎng)到175ZB,其中,中國將在2025年以48.6ZB的數(shù)據(jù)量及27.8%的占比成為全球最大的數(shù)據(jù)匯集地。
另據(jù)賽迪顧問數(shù)據(jù)顯示,到2030年數(shù)據(jù)原生產(chǎn)業(yè)規(guī)模量占整體經(jīng)濟(jì)總量的15%,中國數(shù)據(jù)總量將超過4YB,占全球數(shù)據(jù)量30%。數(shù)據(jù)資源已成為關(guān)鍵生產(chǎn)要素,更多的產(chǎn)業(yè)通過利用物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、電商等結(jié)構(gòu)或非結(jié)構(gòu)化數(shù)據(jù)資源來提取有價(jià)值信息,而海量數(shù)據(jù)的處理與分析對(duì)于算力的需求將十分龐大。
算法上,先進(jìn)模型的參數(shù)量和復(fù)雜程度正呈現(xiàn)指數(shù)級(jí)的增長(zhǎng)趨勢(shì)。此前 Open AI 發(fā)表的一項(xiàng)研究就顯示,每三到四個(gè)月,訓(xùn)練這些大型模型所需的計(jì)算資源就會(huì)翻一番(相比之下,摩爾定律有 18 個(gè)月的倍增周期)。2012 至 2018 年間,深度學(xué)習(xí)前沿研究所需的計(jì)算資源更是增加了 30 萬倍。
到2020年,深度學(xué)習(xí)模型對(duì)算力的需求達(dá)到了每天百億億次的計(jì)算需求。2020年2月,微軟發(fā)布了最新的智能感知計(jì)算模型Turing-NLG,參數(shù)量高達(dá)到175億,使用125POPS AI計(jì)算力完成單次訓(xùn)練就需要一天以上。隨后,OpenAI又提出了GPT-3模型,參數(shù)量更達(dá)到1750億,對(duì)算力的消耗達(dá)到3640 PetaFLOPS/s-day。而距離GPT-3問世不到一年,更大更復(fù)雜的語言模型,即超過一萬億參數(shù)的語言模型SwitchTransformer即已問世。
由此可見,高速增長(zhǎng)的海量數(shù)據(jù)與更加復(fù)雜的模型,正在給算力帶來更大的挑戰(zhàn)。如果算力不能快速增長(zhǎng),我們將不得不面臨一個(gè)糟糕的局面:當(dāng)規(guī)模龐大的數(shù)據(jù)用于人工智能的訓(xùn)練學(xué)習(xí)時(shí),數(shù)據(jù)量將超出內(nèi)存和處理器的承載上限,整個(gè)深度學(xué)習(xí)訓(xùn)練過程將變得無比漫長(zhǎng),甚至完全無法實(shí)現(xiàn)最基本的人工智能。
效率價(jià)更高:環(huán)境與實(shí)際成本高企,提升效率迫在眉睫
在計(jì)算工業(yè)行業(yè),有個(gè)假設(shè)是“數(shù)字處理會(huì)變得越來越便宜”。但斯坦福人工智能研究所副所長(zhǎng)克里斯托弗•曼寧表示,對(duì)于現(xiàn)有的AI應(yīng)用來說卻不是這樣,特別是因?yàn)椴粩嘣黾拥难芯繌?fù)雜性和競(jìng)爭(zhēng)性,使得最前沿模型的訓(xùn)練成本還在不斷上升。
根據(jù)馬薩諸塞大學(xué)阿默斯特校區(qū)研究人員公布的研究論文顯示,以常見的幾種大型 AI 模型的訓(xùn)練周期為例,發(fā)現(xiàn)該過程可排放超過 626000 磅二氧化碳,幾乎是普通 汽車 壽命周期排放量的五倍(其中包括 汽車 本身的制造過程)。
例如自然語言處理中,研究人員研究了該領(lǐng)域中性能取得最大進(jìn)步的四種模型:Transformer、ELMo、BERT和 GPT-2。研究人員在單個(gè) GPU 上訓(xùn)練了至少一天,以測(cè)量其功耗。然后,使用模型原始論文中列出的幾項(xiàng)指標(biāo)來計(jì)算整個(gè)過程消耗的總能量。
結(jié)果顯示,訓(xùn)練的計(jì)算環(huán)境成本與模型大小成正比,然后在使用附加的調(diào)整步驟以提高模型的最終精度時(shí)呈爆炸式增長(zhǎng),尤其是調(diào)整神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)以盡可能完成詳盡的試驗(yàn),并優(yōu)化模型的過程,相關(guān)成本非常高,幾乎沒有性能收益。BERT 模型的碳足跡約為1400 磅二氧化碳,這與一個(gè)人來回坐飛機(jī)穿越美洲的排放量相當(dāng)。
此外,研究人員指出,這些數(shù)字僅僅是基礎(chǔ),因?yàn)榕嘤?xùn)單一模型所需要的工作還是比較少的,大部分研究人員實(shí)踐中會(huì)從頭開發(fā)新模型或者為現(xiàn)有模型更改數(shù)據(jù)集,這都需要更多時(shí)間培訓(xùn)和調(diào)整,換言之,這會(huì)產(chǎn)生更高的能耗。根據(jù)測(cè)算,構(gòu)建和測(cè)試最終具有價(jià)值的模型至少需要在六個(gè)月的時(shí)間內(nèi)訓(xùn)練 4789 個(gè)模型,換算成碳排放量,超過 78000 磅。而隨著 AI 算力的提升,這一問題會(huì)更加嚴(yán)重。
另據(jù) Synced 最近的一份報(bào)告,華盛頓大學(xué)的 Grover 專門用于生成和檢測(cè)虛假新聞,訓(xùn)練較大的Grover Mega模型的總費(fèi)用為2.5萬美元;OpenAI 花費(fèi)了1200萬美元來訓(xùn)練它的 GPT-3語言模型;谷歌花費(fèi)了大約6912美元來訓(xùn)練 BERT,而Facebook針對(duì)當(dāng)前最大的模型進(jìn)行一輪訓(xùn)練光是電費(fèi)可能就耗費(fèi)數(shù)百萬美元。
對(duì)此,F(xiàn)acebook人工智能副總裁杰羅姆•佩森蒂在接受《連線》雜志采訪時(shí)認(rèn)為,AI科研成本的持續(xù)上漲,或?qū)е挛覀冊(cè)谠擃I(lǐng)域的研究碰壁,現(xiàn)在已經(jīng)到了一個(gè)需要從成本效益等方面考慮的地步,我們需要清楚如何從現(xiàn)有的計(jì)算力中獲得最大的收益。
在我們看來,AI計(jì)算系統(tǒng)正在面臨計(jì)算平臺(tái)優(yōu)化設(shè)計(jì)、復(fù)雜異構(gòu)環(huán)境下計(jì)算效率、計(jì)算框架的高度并行與擴(kuò)展、AI應(yīng)用計(jì)算性能等挑戰(zhàn)。算力的發(fā)展對(duì)整個(gè)計(jì)算需求所造成的挑戰(zhàn)會(huì)變得更大,提高整個(gè)AI計(jì)算系統(tǒng)的效率迫在眉睫。
最優(yōu)解:智算中心大勢(shì)所趨,應(yīng)從國家公共設(shè)施屬性做起
正是基于上述算力需求不斷增加及所面臨的效率提升的需要,作為建設(shè)承載巨大AI計(jì)算需求的算力中心(數(shù)據(jù)中心)成為重中之重。
據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)Synergy Research Group的數(shù)據(jù)顯示,截至到2020年第二季度末,全球超大規(guī)模數(shù)據(jù)中心的數(shù)量增長(zhǎng)至541個(gè),相比2015年同期增長(zhǎng)一倍有余。另外,還有176個(gè)數(shù)據(jù)中心處于計(jì)劃或建設(shè)階段,但作為傳統(tǒng)的數(shù)據(jù)中心,隨之而來的就是能耗和成本的大幅增加。
這里我們僅以國內(nèi)的數(shù)據(jù)中心建設(shè)為例,現(xiàn)在的數(shù)據(jù)中心已經(jīng)有了驚人的耗電量。據(jù)《中國數(shù)據(jù)中心能耗現(xiàn)狀白皮書》顯示,在中國有 40 萬個(gè)數(shù)據(jù)中心,每個(gè)數(shù)據(jù)中心平均耗電 25 萬度,總體超過 1000 億度,這相當(dāng)于三峽和葛洲壩水電站 1 年發(fā)電量的總和。如果折算成碳排放則大概是 9600 萬噸,這個(gè)數(shù)字接近目前中國民航年碳排放量的 3 倍。
但根據(jù)國家的標(biāo)準(zhǔn),到2022年,數(shù)據(jù)中心平均能耗基本達(dá)到國際先進(jìn)水平,新建大型、超大型數(shù)據(jù)中心的 PUE(電能使用效率值,越低代表越節(jié)能)達(dá)到 1.4 以下。而且北上廣深等發(fā)達(dá)地區(qū)對(duì)于能耗指標(biāo)控制還非常嚴(yán)格,這與一二線城市集中的數(shù)據(jù)中心需求形成矛盾,除了降低 PUE,同等計(jì)算能力提升服務(wù)器,尤其是數(shù)據(jù)中心的的計(jì)算效率應(yīng)是正解。
但眾所周知的事實(shí)是,面對(duì)前述龐大的AI計(jì)算需求和提升效率的挑戰(zhàn),傳統(tǒng)數(shù)據(jù)中心已經(jīng)越來越難以承載這樣的需求,為此,AI服務(wù)器和智算中心應(yīng)運(yùn)而生。
與傳統(tǒng)的服務(wù)器采用單一的CPU不同,AI服務(wù)器通常搭載GPU、FPGA、ASIC等加速芯片,利用CPU與加速芯片的組合可以滿足高吞吐量互聯(lián)的需求,為自然語言處理、計(jì)算機(jī)視覺、語音交互等人工智能應(yīng)用場(chǎng)景提供強(qiáng)大的算力支持,已經(jīng)成為人工智能發(fā)展的重要支撐力量。
值得一提的是,目前在AI服務(wù)器領(lǐng)域,我們已經(jīng)處于領(lǐng)先的地位。
近日,IDC發(fā)布了2020HI《全球人工智能市場(chǎng)半年度追蹤報(bào)告》,對(duì)2020年上半年全球人工智能服務(wù)器市場(chǎng)進(jìn)行數(shù)據(jù)洞察顯示,目前全球半年度人工智能服務(wù)器市場(chǎng)規(guī)模達(dá)55.9億美元(約326.6億人民幣),其中浪潮以16.4%的市占率位居全球第一,成為全球AI服務(wù)器頭號(hào)玩家,華為、聯(lián)想也殺入前5(分別排在第四和第五)。
這里業(yè)內(nèi)也許會(huì)好奇,緣何中國會(huì)在AI服務(wù)器方面領(lǐng)跑全球?
以浪潮為例,自1993年,浪潮成功研制出中國首臺(tái)小型機(jī)服務(wù)器以來,經(jīng)過30年的積累,浪潮已經(jīng)攻克了高速互聯(lián)芯片,關(guān)鍵應(yīng)用主機(jī)、核心數(shù)據(jù)庫、云數(shù)據(jù)中心操作系統(tǒng)等一系列核心技術(shù),在全球服務(wù)器高端俱樂部里占有了重要一席。在AI服務(wù)器領(lǐng)域,從全球最高密度AGX-2到最高性能的AGX-5,浪潮不斷刷新業(yè)界最強(qiáng)的人工智能超級(jí)服務(wù)器的紀(jì)錄,這是為了滿足行業(yè)用戶對(duì)人工智能計(jì)算的高性能要求而創(chuàng)造的。浪潮一直認(rèn)為,行業(yè)客戶希望獲得人工智能的能力,但需要掌握了人工智能落地能力的和技術(shù)的公司進(jìn)行賦能,浪潮就可以很好地扮演這一角色。加快人工智能落地速度,幫助企業(yè)用戶打開了人工智能應(yīng)用的大門。
由此看,長(zhǎng)期的技術(shù)創(chuàng)新積淀、核心技術(shù)的掌握以及對(duì)于產(chǎn)業(yè)和技術(shù)的準(zhǔn)確判斷、研發(fā)是領(lǐng)跑的根本。
至于智算中心,去年發(fā)布的《智能計(jì)算中心規(guī)劃建設(shè)指南》公布了智能計(jì)算中心技術(shù)架構(gòu),基于最新人工智能理論,采用領(lǐng)先的人工智能計(jì)算架構(gòu),通過算力的生產(chǎn)、聚合、調(diào)度和釋放四大作業(yè)環(huán)節(jié),支撐和引領(lǐng)數(shù)字經(jīng)濟(jì)、智能產(chǎn)業(yè)、智慧城市和智慧 社會(huì) 應(yīng)用與生態(tài) 健康 發(fā)展。
通俗地講,智慧時(shí)代的智算中心就像工業(yè)時(shí)代的電廠一樣,電廠是對(duì)外生產(chǎn)電力、配置電力、輸送電力、使用電力;同理智算中心是在承載AI算力的生產(chǎn)、聚合、調(diào)度和釋放過程,讓數(shù)據(jù)進(jìn)去讓智慧出來,這就是智能計(jì)算中心的理想目標(biāo)。
需要說明的是,與傳統(tǒng)數(shù)據(jù)中心不同,“智算中心”不僅把算力高密度地集中在一起,而且要解決調(diào)度和有效利用計(jì)算資源、數(shù)據(jù)、算法等問題,更像是從計(jì)算器進(jìn)化到了大腦。此外,其所具有的開放標(biāo)準(zhǔn),集約高效、普適普惠的特征,不僅能夠涵蓋融合更多的軟硬件技術(shù)和產(chǎn)品,而且也極大降低了產(chǎn)業(yè)AI化的進(jìn)入和應(yīng)用門檻,直至普惠所有人。
其實(shí)我們只要仔細(xì)觀察就會(huì)發(fā)現(xiàn),智算中心包含的算力的生產(chǎn)、聚合、調(diào)度和釋放,可謂集AI能力之大成,具備全棧AI能力。
這里我們不妨再次以浪潮為例,看看何謂全棧AI能力?
比如在算力生產(chǎn)層面,浪潮打造了業(yè)內(nèi)最強(qiáng)最全的AI計(jì)算產(chǎn)品陣列。其中,浪潮自研的新一代人工智能服務(wù)器NF5488A5在2020年一舉打破MLPerf AI推理&訓(xùn)練基準(zhǔn)測(cè)試19項(xiàng)世界紀(jì)錄(保證充足的算力,解決了算力提升的需求);在算力調(diào)度層面,浪潮AIStation人工智能開發(fā)平臺(tái)能夠?yàn)锳I模型開發(fā)訓(xùn)練與推理部署提供從底層資源到上層業(yè)務(wù)的全平臺(tái)全流程管理支持,幫助企業(yè)提升資源使用率與開發(fā)效率90%以上,加快AI開發(fā)應(yīng)用創(chuàng)新(解決了算力的效率問題);在聚合算力方面,浪潮持續(xù)打造更高效率更低延遲硬件加速設(shè)備與優(yōu)化軟件棧;在算力釋放上,浪潮AutoML Suite為人工智能客戶與開發(fā)者提供快速高效開發(fā)AI模型的能力,開啟AI全自動(dòng)建模新方式,加速產(chǎn)業(yè)化應(yīng)用。
那么接下來的是,智算中心該遵循怎樣的發(fā)展路徑才能充分發(fā)揮它的作用,物盡其用?
IDC調(diào)研發(fā)現(xiàn),超過九成的企業(yè)正在使用或計(jì)劃在三年內(nèi)使用人工智能,其中74.5%的企業(yè)期望在未來可以采用具備公用設(shè)施意義的人工智能專用基礎(chǔ)設(shè)施平臺(tái),以降低創(chuàng)新成本,提升算力資源的可獲得性。
由此看,智能計(jì)算中心建設(shè)的公共屬性原則在當(dāng)下和未來就顯得尤為重要,即智能計(jì)算中心并非是盈利性的基礎(chǔ)設(shè)施,而是應(yīng)該是類似于水利系統(tǒng)、水務(wù)系統(tǒng)、電力系統(tǒng)的公共性、公益性的基礎(chǔ)設(shè)施,其將承載智能化的居民生活服務(wù)、政務(wù)服務(wù)智能化。因此,在智能計(jì)算中心規(guī)劃和建設(shè)過程中,要做好布局,它不應(yīng)該通過市場(chǎng)競(jìng)爭(zhēng)手段來實(shí)現(xiàn),而要體現(xiàn)政府在推進(jìn)整個(gè) 社會(huì) 智能化進(jìn)程的規(guī)劃、節(jié)奏、布局。
總結(jié): 當(dāng)下,算力成為推動(dòng)數(shù)字經(jīng)濟(jì)的根基和我國“新基建“的底座已經(jīng)成為共識(shí),而如何理性看待其發(fā)展中遇到的挑戰(zhàn),在不斷高升算力的前提下,提升效率,并采取最佳的發(fā)展策略和形式,找到最優(yōu)解,將成為政府相關(guān)部門以及相關(guān)企業(yè)的重中之重。
四、圖靈測(cè)試已經(jīng)過時(shí)?現(xiàn)在有更高級(jí)的算法嗎?
亞馬遜Alexa副總裁兼首席科學(xué)家Rohit Prasad認(rèn)為,舊的計(jì)算標(biāo)準(zhǔn)對(duì)當(dāng)今的人工智能時(shí)代已不再具有借鑒意義。
今年是艾倫·圖靈引入“圖靈測(cè)試”概念的論文發(fā)表70周年。在這篇論文里,他回答了這個(gè)問題——“機(jī)器會(huì)思考嗎?”。該測(cè)試的目標(biāo)是確定機(jī)器能否表現(xiàn)出與人類難以分辨的對(duì)話行為。
圖靈預(yù)測(cè),到2000年,普通人在模擬游戲中將人工智能與真人區(qū)分開的概率將不到70%,游戲中的回應(yīng)者可能是真人,也可能是人工智能,而評(píng)估者對(duì)此毫不知情。
阿蘭·圖靈
為什么20年過后,作為一個(gè)產(chǎn)業(yè),我們還無法實(shí)現(xiàn)這個(gè)目標(biāo)呢?我認(rèn)為圖靈提出的努力目標(biāo)對(duì)我這樣的人工智能科學(xué)家來說并不是一個(gè)實(shí)用目標(biāo)。
圖靈測(cè)試充滿了限制性因素,圖靈自己在這篇開創(chuàng)性論文中就討論過其中一些。隨著如今人工智能普遍集成到手機(jī)、汽車和家庭中,一個(gè)事實(shí)越來越明顯:人們更關(guān)心他們與機(jī)器的交互是實(shí)用、無縫和透明的,實(shí)現(xiàn)機(jī)器與人真假難分的理念已經(jīng)過時(shí)。
因此,是時(shí)候讓這個(gè)70年來一直作為靈感源泉的傳奇退役了,我們需要設(shè)立一個(gè)全新的挑戰(zhàn)來賦予研究者和從業(yè)者以同樣的靈感。
圖靈測(cè)試與公眾想象力
在概念引入后的短短幾年里,圖靈測(cè)試成為人工智能學(xué)術(shù)界的北極星。
六七十年代最早出現(xiàn)的聊天機(jī)器人“伊麗莎”(ELIZA)和“帕里”(PARRY)的目標(biāo)就是通過圖靈測(cè)試。2014年,聊天機(jī)器人“尤金·古斯特曼”(Eugene Goostman)宣布它通過了圖靈測(cè)試,騙過了33%的人類裁判,讓他們誤以為自己是真人。然而,正如其他人所指出的,騙過30%人類裁判的標(biāo)準(zhǔn)是武斷的,即使這樣,這場(chǎng)勝利還是讓一些人覺得過時(shí)了。
然而,圖靈測(cè)試?yán)^續(xù)激發(fā)著公眾想象力。OpenAI的“生成性預(yù)訓(xùn)練”Transformer 3(GPT-3)語言模型以其擊敗圖靈測(cè)試的潛力而成為頭條新聞。同樣地,記者、商界領(lǐng)袖和其他觀察家仍然會(huì)問我:“Alexa什么時(shí)候能通過圖靈測(cè)試?”
毫無疑問,圖靈測(cè)試是衡量Alexa智能的一種方法,但這樣衡量Alexa的智能真的重要嗎?有意義嗎?
要回答這個(gè)問題,讓我們回到圖靈第一次提出這篇論文的時(shí)候。
1950年,第一臺(tái)商用計(jì)算機(jī)尚未開售,光纖電纜的基礎(chǔ)性研究又過了四年才發(fā)表,人工智能領(lǐng)域也還沒有形成,要到1956年才正式確立。如今手機(jī)的計(jì)算能力是阿波羅11號(hào)的10萬倍,再加上云計(jì)算和高帶寬連接,人工智能可以在數(shù)秒內(nèi)根據(jù)海量數(shù)據(jù)做出決策。
雖然圖靈的最初設(shè)想仍能賦予我們靈感,但將圖靈測(cè)試?yán)斫鉃槿斯ぶ悄苓M(jìn)步的終極標(biāo)志,必然會(huì)受到它剛提出時(shí)所處時(shí)代的局限。
首先,圖靈測(cè)試幾乎沒有考慮人工智能的機(jī)器屬性,比如快速計(jì)算和信息查找等,這些才是現(xiàn)代人工智能最有效的特征。
刻意強(qiáng)調(diào)騙過人類,意味著人工智能要通過圖靈測(cè)試,就必須在回答諸如“你知道3434756的立方根是多少嗎?”或者“西雅圖離波士頓有多遠(yuǎn)?”這類問題的時(shí)候做出停頓。
事實(shí)上,人工智能立刻就知道這些答案,而做出停頓讓自己的回答聽起來更像真人,并不是利用其技能的最佳方式。
此外,圖靈測(cè)試沒有考慮到人工智能使用傳感器聽、看和感受外部世界的能力越來越強(qiáng)大。相反,圖靈測(cè)試僅限于文字溝通。
其次,要想讓人工智能在今天更實(shí)用,這些系統(tǒng)需要高效地完成我們的日常任務(wù)。當(dāng)你讓人工智能助手幫你關(guān)掉車庫的燈時(shí),你并不想發(fā)起一場(chǎng)對(duì)話。相反,你會(huì)希望它立刻滿足這個(gè)要求,并以一個(gè)簡(jiǎn)單確認(rèn)比如“ok”或“好的”來通知你。
即使你與人工智能助手就一個(gè)熱門話題進(jìn)行廣泛對(duì)話,或讓它為孩子朗讀故事,你還是想知道它是人工智能而非真人。事實(shí)上,通過假裝真人來“騙過”用戶會(huì)帶來真正的風(fēng)險(xiǎn)。想想反烏托邦的可能性,我們已開始看到散布假消息的機(jī)器人和深度虛假新聞的出現(xiàn)。
人工智能面臨全新的重大挑戰(zhàn)
與其說沉迷于讓人工智能與人類毫無差別,我們更應(yīng)該致力于構(gòu)建能增強(qiáng)人類智力、以公平和包容的方式改善我們?nèi)粘I畹娜斯ぶ悄堋?/p>
一個(gè)有價(jià)值的潛在目標(biāo)是,讓人工智能表現(xiàn)出類似人類的智能屬性——包括常識(shí)、自我監(jiān)督和語言能力,與快速搜索、記憶喚起和代表你完成任務(wù)等機(jī)器效率相結(jié)合。最終的結(jié)果是學(xué)習(xí)和完成各種任務(wù),適應(yīng)全新的情況,遠(yuǎn)超一個(gè)普通人所能做的。
這一焦點(diǎn)揭示了當(dāng)前人工智能領(lǐng)域真正重要的研究——感官理解,對(duì)話,淵博的知識(shí),高效學(xué)習(xí),決策推理,以及消除任何不恰當(dāng)偏見(即實(shí)現(xiàn)公平)。這些領(lǐng)域的進(jìn)展可以用多種方式來衡量。
一種方法是將挑戰(zhàn)分解為多個(gè)任務(wù)。例如,Kaggle的“抽象和推理挑戰(zhàn)”專注于解決人工智能從未見過的推理任務(wù)。
另一種方法是為人機(jī)交互設(shè)計(jì)一個(gè)大規(guī)模的現(xiàn)實(shí)世界挑戰(zhàn),比如“Alexa 社交機(jī)器人大獎(jiǎng)賽”——一個(gè)面向大學(xué)生的對(duì)話型人工智能大賽。
事實(shí)上,當(dāng)我們2016年推出Alexa大獎(jiǎng)賽時(shí),我們就應(yīng)該如何評(píng)價(jià)競(jìng)爭(zhēng)對(duì)手的“社交機(jī)器人”展開了激烈的辯論。我們是想讓人們相信社交機(jī)器人是真人,展開某種程度的圖靈測(cè)試嗎?或者,我們是想讓人工智能具備進(jìn)行自然對(duì)話的能力,從而促進(jìn)學(xué)習(xí)、提供娛樂,還是只是把它當(dāng)作一種令人愉悅的消遣?
首個(gè)獲得公民身份的機(jī)器人“索菲亞”
我們制定了一個(gè)規(guī)則,要求社交機(jī)器人在20分鐘內(nèi)與真人就包括娛樂、體育、政治和科技在內(nèi)的廣泛熱門話題進(jìn)行連貫有趣的對(duì)話。
在決賽前的開發(fā)階段,客戶會(huì)根據(jù)是否愿意與機(jī)器人再次交談來給它打分。在決賽中,獨(dú)立的人類裁判會(huì)根據(jù)連貫性和自然性以5分制為其打分。
如果任何一個(gè)社交機(jī)器人的平均對(duì)話時(shí)長(zhǎng)達(dá)到20分鐘,并獲得4.0以上的分?jǐn)?shù),那它就能通過這個(gè)重大挑戰(zhàn)。
雖然目前還沒有社交機(jī)器人通過這一重大挑戰(zhàn),但這種方法正引導(dǎo)人工智能研發(fā),使其在基于深度學(xué)習(xí)的神經(jīng)方法的幫助下,擁有類似于人的對(duì)話能力。它優(yōu)先考慮讓人工智能在適當(dāng)情況下展現(xiàn)出幽默和同理心,而無需假裝成真人。
以上就是關(guān)于gpt3什么語言相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
視覺傳達(dá)本科好找工作嗎(視覺傳達(dá)本科好找工作嗎知乎)
深圳北歐庭院景觀設(shè)計(jì)(深圳市北歐風(fēng)電子商務(wù)有限公司)