-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
分類算法(分類算法包括哪些算法)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于分類算法的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、12-分類算法-決策樹、隨機(jī)森林
決策樹
生活中的決策樹模型:
顯然:判斷依據(jù)的重要性從前往后越來越小
信息的度量和作用
在不知道任何信息的情況下猜測32支球隊中的冠軍:如果用二分法,需要猜5次,即需要的代價為5bit,這個5bit我們稱之為信息熵(H)
5 = -(1/32log(1/32) + 1/32log(1/32) + ... + 1/32log(1/32))
公式:概率log概率 之和
如果我們知道了一些球隊的信息,需要的代價會小于5bit
5 > -(1/4log(1/32) + 1/8log(1/32) + ... + 1/24log(1/32))
信息熵越大(比如,當(dāng)每個球隊的奪冠幾率相等),不確定性越大
結(jié)合決策數(shù),之所以我們先對某些條件進(jìn)行判斷,是因為能夠減少我們更多的不確定性
決策樹的劃分依據(jù)——信息增益
信息增益:當(dāng)?shù)弥粋€條件之后,減少的信息熵的大小
決策樹的api
在泰坦尼克號和titanic2數(shù)據(jù)幀描述泰坦尼克號上的個別乘客的生存狀態(tài)。在泰坦尼克號的數(shù)據(jù)幀不包含從劇組信息,但它確實包含了乘客的一半的實際年齡。關(guān)于泰坦尼克號旅客的數(shù)據(jù)的主要來源是百科全書Titanica。這里使用的數(shù)據(jù)集是由各種研究人員開始的。其中包括許多研究人員創(chuàng)建的旅客名單,由Michael A. Findlay編輯。
我們提取的數(shù)據(jù)集中的特征是票的類別,存活,乘坐班,年齡,登陸,home.dest,房間,票,船和性別。乘坐班是指乘客班(1,2,3),是社會經(jīng)濟(jì)階層的代表。
其中age數(shù)據(jù)存在缺失。
決策樹部分圖例:
決策樹的優(yōu)缺點以及改進(jìn)
優(yōu)點:
缺點:
改進(jìn):
集成學(xué)習(xí)方法
集成學(xué)習(xí)通過建立幾個模型組合的來解決單一預(yù)測問題。它的工作原理是 生成多個分類器/模型 ,各自獨立地學(xué)習(xí)和作出預(yù)測。這些預(yù)測最后結(jié)合成單預(yù)測,因此優(yōu)于任何一個單分類的做出預(yù)測。
隨機(jī)森林是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。
隨機(jī)森林建立多個決策樹的過程:
ps:為什么要隨機(jī)抽樣?避免每顆樹的訓(xùn)練集的一樣,那么最終訓(xùn)練出的上面的分類結(jié)果也是完全一樣的
隨機(jī)森林案例:
隨機(jī)森林的優(yōu)點:
隨機(jī)森林幾乎沒有缺點
二、算法有哪些分類
(一)基本算法 : 1.枚舉 2.搜索: 深度優(yōu)先搜索 廣度優(yōu)先搜索 啟發(fā)式搜索 遺傳算法 (二)數(shù)據(jù)結(jié)構(gòu)的算法 (三)數(shù)論與代數(shù)算法 (四)計算幾何的算法:求凸包 (五)圖論 算法: 1.哈夫曼編碼 2.樹的遍歷 3.最短路徑 算法 4.最小生成樹 算法 5.最小樹形圖 6.網(wǎng)絡(luò)流 算法 7.匹配算法 (六)動態(tài)規(guī)劃 (七)其他: 1.數(shù)值分析 2.加密算法 3.排序 算法 4.檢索算法 5.隨機(jī)化算法
三、常見的場景分類算法有哪些
【嵌牛導(dǎo)讀】:本文主要介紹一些常見的基于深度學(xué)習(xí)的場景分類
【嵌牛鼻子】:深度學(xué)習(xí),場景分類
【嵌牛提問】:基于深度學(xué)習(xí)的常見分類算法有哪些?
【嵌牛正文】:
目前出現(xiàn)的相對流行的場景分類方法主要有以下三類:
這種分類方法以對象為識別單位,根據(jù)場景中出現(xiàn)的特定對象來區(qū)分不同的場景;
基于視覺的場景分類方法大部分都是以對象為單位的,也就是說,通過識別一些有
代表性的對象來確定自然界的位置。典型的基于對象的場景分類方法有以下的中間步驟:
特征提取、重組和對象識別。
缺點:底層的錯誤會隨著處理的深入而被放大。例如,上位層中小對象的識別往往會受到下屬層
相機(jī)傳感器的原始噪聲或者光照變化條件的影響。尤其是在寬敞的環(huán)境下,目標(biāo)往往會非常分散,
這種方法的應(yīng)用也受到了限制。需要指出的是,該方法需要選擇特定環(huán)境中的一些固定對
象,一般使用深度網(wǎng)絡(luò)提取對象特征,并進(jìn)行分類。
除了傳統(tǒng)的卷積層、pooling層、全連接層。AlexNet加入了
(1)非線性激活函數(shù):ReLU;
(2)防止過擬合的方法:Dropout,Dataaugmentation。同時,使用多個GPU,LRN歸一化層。
不同于AlexNet的地方是:VGG-Net使用更多的層,通常有16-19層,而AlexNet只有8層。
同時,VGG-Net的所有 convolutional layer 使用同樣大小的 convolutional filter,大小為 3 x 3。
提出的Inception結(jié)構(gòu)是主要的創(chuàng)新點,這是(Network In Network)的結(jié)構(gòu),即原來的結(jié)點也是一個網(wǎng)絡(luò)。
在單層卷積層上使用不同尺度的卷積核就可以提取不同尺寸的特征,單層的特征提取能力增強(qiáng)了。其使用之后整個網(wǎng)絡(luò)結(jié)構(gòu)的寬度和深度都可擴(kuò)大,能夠帶來2-3倍的性能提升。
ResNet引入了殘差網(wǎng)絡(luò)結(jié)構(gòu)(residual network),通過在輸出與輸入之間引入一個shortcut connection,而不是簡單的堆疊網(wǎng)絡(luò),這樣可以解決網(wǎng)絡(luò)由于很深出現(xiàn)梯度消失的問題,從而可可以把網(wǎng)絡(luò)做的很深。這種方法目前也是業(yè)界最高水準(zhǔn)了。
首先通過目標(biāo)候選候選區(qū)域選擇算法,生成一系列候選目標(biāo)區(qū)域,
然后通過深度神經(jīng)網(wǎng)絡(luò)提取候選目標(biāo)區(qū)域特征,并用這些特征進(jìn)行分類。
技術(shù)路線:selective search + CNN + SVMs
算法:Fast-R-CNN
步驟:輸入一幅圖像和Selective Search方法生成的一系列Proposals,通過一系列卷積層
和Pooling層生成feature map,然后用RoI(region ofineterst)層處理最后一個卷積層
得到的feature map為每一個proposal生成一個定長的特征向量roi_pool5。
RoI層的輸出roi_pool5接著輸入到全連接層, 產(chǎn)生最終用于多任務(wù)學(xué)習(xí)的特征并用于
計算多任務(wù)Loss。
全連接輸出包括兩個分支:
1.SoftMax Loss:計算K+1類的分類Loss函數(shù),其中K表示K個目標(biāo)類別。
2.RegressionLoss:即K+1的分類結(jié)果相應(yīng)的Proposal的Bounding Box四個角點坐標(biāo)值。
最終將所有結(jié)果通過非極大抑制處理產(chǎn)生最終的目標(biāo)檢測和識別結(jié)果。
Faster-R-CNN算法由兩大模塊組成:1.PRN候選框提取模塊 2.Fast R-CNN檢測模塊。
其中,RPN是全卷積神經(jīng)網(wǎng)絡(luò),通過共享卷積層特征可以實現(xiàn)proposal的提取;
FastR-CNN基于RPN提取的proposal檢測并識別proposal中的目標(biāo)。
這類方法不同于前面兩種算法,而將場景圖像看作全局對象而非圖像中的某一對象或細(xì)節(jié),
這樣可以降低局部噪聲對場景分類的影響。
將輸入圖片作為一個特征,并提取可以概括圖像統(tǒng)計或語義的低維特征。該類方法的目的
即為提高場景分類的魯棒性。因為自然圖片中很容易摻雜一些隨機(jī)噪聲,這類噪聲會對
局部處理造成災(zāi)難性的影響,而對于全局圖像卻可以通過平均數(shù)來降低這種影響。
基于上下文的方法,通過識別全局對象,而非場景中的小對象集合或者準(zhǔn)確的區(qū)域邊界,
因此不需要處理小的孤立區(qū)域的噪聲和低級圖片的變化,其解決了分割和目標(biāo)識別分類方法遇到的問題。
步驟:通過 Gist 特征提取場景圖像的全局特征。Gist 特征是一種生物啟發(fā)式特征,
該特征模擬人的視覺,形成對外部世界的一種空間表
示,捕獲圖像中的上下文信息。Gist 特征通過多尺度
多方向 Gabor 濾波器組對場景圖像進(jìn)行濾波,將濾波后
的圖像劃分為 4 × 4 的網(wǎng)格,然后各個網(wǎng)格采用離散傅
里葉變換和窗口傅里葉變換提取圖像的全局特征信息。
四、時間序列分類算法
歐式距離不能很好地針對時間序列的波動模式進(jìn)行分類,研發(fā)更適合時間序列分類的距離度量就成為關(guān)鍵,這其中最經(jīng)典的時間序列距離度量就是Dynamic Time Warping (DTW)。 DTW的原理如下:
比如說,給定一個樣本序列X和比對序列Y,Z:
X:3,5,6,7,7,1
Y:3,6,6,7,8,1,1
Z:2,5,7,7,7,7,2
請問是X和Y更相似還是X和Z更相似?
DTW首先會根據(jù)序列點之間的距離(歐氏距離),獲得一個序列距離矩陣 MM,其中行對應(yīng)X序列,列對應(yīng)Y序列,矩陣元素為對應(yīng)行列中X序列和Y序列點到點的歐氏距離:
DTW通過對時間序列波動模式的分析可得到更好的時間序列分類結(jié)果。研究表明,在時間序列分類問題上,DTW距離度量配合簡單的最小距離分類法(nearest neighbor)就可以取得較傳統(tǒng)歐式距離算法(如SVM、經(jīng)典多層神經(jīng)網(wǎng)絡(luò)、決策樹、Adaboost)壓倒性的優(yōu)勢。
DTW更進(jìn)一步衍生出多種不同的變種,例如由Keogh和 Pazzani 提出的基于序列一階導(dǎo)數(shù)的改進(jìn)便取得了良好的效果;其中一種簡單的方法叫Complexity Invariant distance (CID),其利用一階導(dǎo)數(shù)信息對DTW距離做計算,在某些問題上具有突出效果。
除了DTW,還有其他考量時間序列的波動模式算法。例如Ye 和Keogh提出的Shapelet方法:考察序列中具有代表意義的子序列來作為Shapelet特征而進(jìn)行分類。Lin等人提出了基于字典的方法,將序列根據(jù)特定的字典轉(zhuǎn)化為詞序列,從而進(jìn)行分類。Deng提出了基于區(qū)間的方法,從區(qū)間中提取波動的特征。
除了上述方法外,聚合算法(將多種不同算法聚合在一起)的研究也有了長足的進(jìn)步。最近提出的COTE算法幾乎將上述所有不同分類算法聚合在一起,得到了優(yōu)異的分類效果。
這一類的方法都是一些通過某種度量關(guān)系來提取相關(guān)特征的方法,如詞袋法,通過找到該時間序列中是否有符合已有詞袋中的特征(序列的樣子),將一個序列用詞來表示,再對詞進(jìn)行分類。而其他的基于特征的方法都是利用了類似的方法,如提取統(tǒng)計量,基于規(guī)則等,再通過分類模型進(jìn)行分類。
1、MLP、FCN、ResNet
MLP的輸入是一個向量(數(shù)組),通過全連接的形式對整體數(shù)組的每一個元素逐層賦予權(quán)重,并求得最后的分類,這種方法是一種比較粗暴的學(xué)習(xí)方法,直接學(xué)習(xí)所有元素直接的線性或非線性相關(guān)關(guān)系,但是并沒有去深度挖掘數(shù)組中更好的表現(xiàn)特征,分類效果不佳。
FCN是將MLP中的全鏈接層用卷積層進(jìn)行替代,Resnet也是,但是其中的卷積層都用一維卷積核進(jìn)行了替代。
來自于Time Series Classifification from Scratch with Deep Neural Networks: A Strong Baseline.可以看到深度學(xué)習(xí)的方法效果基本上與傳統(tǒng)方法相接近,甚至有所超過,其中整體表現(xiàn)最好的是FCN。
LSTM_FCN的方法比較簡單,是將輸入分別輸入到兩個分支中,LSTM和FCN,并在最后將兩個輸出分支進(jìn)行concat進(jìn)行softmax獲得分類結(jié)果。在這篇論文中,作者說這種方法取得了比FCN更好的效果。
在其他的一些比賽方案中,也有resnet+LSTM+FC的組合形式,通過Resnet的一維卷積先提取相關(guān)特征,然后通過LSTM學(xué)習(xí)一維特征向量的相關(guān)關(guān)系,再進(jìn)行分類,可能針對于不同的問題還是要試試才知道哪個的效果更加好。
BiGRU-CNN與以上方法相比實際上并沒有做什么大的改進(jìn),就是將LSTM分支替換成雙向的GRU分支。
以上就是關(guān)于分類算法相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
工地安全帽顏色級別順口溜(工地安全帽顏色分類有規(guī)范規(guī)定么)
重慶園區(qū)景觀設(shè)計分類表(重慶園區(qū)景觀設(shè)計分類表圖片)
景觀設(shè)計崗位的分類(景觀設(shè)計崗位的分類有)
景觀設(shè)計專業(yè)是美術(shù)嗎(景觀設(shè)計專業(yè)是美術(shù)嗎還是畫畫)
林學(xué)景觀設(shè)計師(林學(xué)景觀設(shè)計師怎么樣)