正文

分類算法（分類算法包括哪些算法）

發(fā)布時間：2023-04-14 02:40:07 稿源：創(chuàng)意嶺閱讀： 142

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于分類算法的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、12-分類算法-決策樹、隨機(jī)森林
2、算法有哪些分類
3、常見的場景分類算法有哪些
4、時間序列分類算法

分類算法（分類算法包括哪些算法）

一、12-分類算法-決策樹、隨機(jī)森林

決策樹

生活中的決策樹模型：

顯然：判斷依據(jù)的重要性從前往后越來越小

信息的度量和作用

在不知道任何信息的情況下猜測32支球隊中的冠軍：如果用二分法，需要猜5次，即需要的代價為5bit，這個5bit我們稱之為信息熵（H）

5 = -(1/32log(1/32) + 1/32log(1/32) + ... + 1/32log(1/32))

公式：概率log概率之和

如果我們知道了一些球隊的信息，需要的代價會小于5bit

5 > -(1/4log(1/32) + 1/8log(1/32) + ... + 1/24log(1/32))

信息熵越大(比如，當(dāng)每個球隊的奪冠幾率相等)，不確定性越大

結(jié)合決策數(shù)，之所以我們先對某些條件進(jìn)行判斷，是因為能夠減少我們更多的不確定性

決策樹的劃分依據(jù)——信息增益

信息增益：當(dāng)?shù)弥粋€條件之后，減少的信息熵的大小

決策樹的api

在泰坦尼克號和titanic2數(shù)據(jù)幀描述泰坦尼克號上的個別乘客的生存狀態(tài)。在泰坦尼克號的數(shù)據(jù)幀不包含從劇組信息，但它確實包含了乘客的一半的實際年齡。關(guān)于泰坦尼克號旅客的數(shù)據(jù)的主要來源是百科全書Titanica。這里使用的數(shù)據(jù)集是由各種研究人員開始的。其中包括許多研究人員創(chuàng)建的旅客名單，由Michael A. Findlay編輯。

我們提取的數(shù)據(jù)集中的特征是票的類別，存活，乘坐班，年齡，登陸，home.dest，房間，票，船和性別。乘坐班是指乘客班（1，2，3），是社會經(jīng)濟(jì)階層的代表。

其中age數(shù)據(jù)存在缺失。

決策樹部分圖例：

決策樹的優(yōu)缺點以及改進(jìn)

優(yōu)點：

缺點：

改進(jìn)：

集成學(xué)習(xí)方法

集成學(xué)習(xí)通過建立幾個模型組合的來解決單一預(yù)測問題。它的工作原理是 生成多個分類器/模型 ，各自獨立地學(xué)習(xí)和作出預(yù)測。這些預(yù)測最后結(jié)合成單預(yù)測，因此優(yōu)于任何一個單分類的做出預(yù)測。

隨機(jī)森林是一個包含多個決策樹的分類器，并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。

隨機(jī)森林建立多個決策樹的過程：

ps：為什么要隨機(jī)抽樣？避免每顆樹的訓(xùn)練集的一樣，那么最終訓(xùn)練出的上面的分類結(jié)果也是完全一樣的

隨機(jī)森林案例：

隨機(jī)森林的優(yōu)點：

隨機(jī)森林幾乎沒有缺點

二、算法有哪些分類

（一）基本算法 : 1.枚舉 2.搜索: 深度優(yōu)先搜索廣度優(yōu)先搜索啟發(fā)式搜索遺傳算法（二）數(shù)據(jù)結(jié)構(gòu)的算法（三）數(shù)論與代數(shù)算法（四）計算幾何的算法：求凸包（五）圖論算法： 1.哈夫曼編碼 2.樹的遍歷 3.最短路徑算法 4.最小生成樹算法 5.最小樹形圖 6.網(wǎng)絡(luò)流算法 7.匹配算法（六）動態(tài)規(guī)劃（七）其他： 1.數(shù)值分析 2.加密算法 3.排序算法 4.檢索算法 5.隨機(jī)化算法

三、常見的場景分類算法有哪些

【嵌牛導(dǎo)讀】：本文主要介紹一些常見的基于深度學(xué)習(xí)的場景分類

【嵌牛鼻子】：深度學(xué)習(xí)，場景分類

【嵌牛提問】：基于深度學(xué)習(xí)的常見分類算法有哪些？

【嵌牛正文】：

目前出現(xiàn)的相對流行的場景分類方法主要有以下三類：

這種分類方法以對象為識別單位，根據(jù)場景中出現(xiàn)的特定對象來區(qū)分不同的場景；

基于視覺的場景分類方法大部分都是以對象為單位的，也就是說，通過識別一些有

代表性的對象來確定自然界的位置。典型的基于對象的場景分類方法有以下的中間步驟：

特征提取、重組和對象識別。

缺點：底層的錯誤會隨著處理的深入而被放大。例如，上位層中小對象的識別往往會受到下屬層

相機(jī)傳感器的原始噪聲或者光照變化條件的影響。尤其是在寬敞的環(huán)境下，目標(biāo)往往會非常分散，

這種方法的應(yīng)用也受到了限制。需要指出的是，該方法需要選擇特定環(huán)境中的一些固定對

象，一般使用深度網(wǎng)絡(luò)提取對象特征，并進(jìn)行分類。

除了傳統(tǒng)的卷積層、pooling層、全連接層。AlexNet加入了

（1）非線性激活函數(shù)：ReLU；

（2）防止過擬合的方法：Dropout，Dataaugmentation。同時，使用多個GPU，LRN歸一化層。

不同于AlexNet的地方是：VGG-Net使用更多的層，通常有16－19層，而AlexNet只有8層。

同時，VGG-Net的所有 convolutional layer 使用同樣大小的 convolutional filter，大小為 3 x 3。

提出的Inception結(jié)構(gòu)是主要的創(chuàng)新點，這是（Network In Network）的結(jié)構(gòu)，即原來的結(jié)點也是一個網(wǎng)絡(luò)。

在單層卷積層上使用不同尺度的卷積核就可以提取不同尺寸的特征，單層的特征提取能力增強(qiáng)了。其使用之后整個網(wǎng)絡(luò)結(jié)構(gòu)的寬度和深度都可擴(kuò)大，能夠帶來2-3倍的性能提升。

ResNet引入了殘差網(wǎng)絡(luò)結(jié)構(gòu)（residual network），通過在輸出與輸入之間引入一個shortcut connection,而不是簡單的堆疊網(wǎng)絡(luò)，這樣可以解決網(wǎng)絡(luò)由于很深出現(xiàn)梯度消失的問題，從而可可以把網(wǎng)絡(luò)做的很深。這種方法目前也是業(yè)界最高水準(zhǔn)了。

首先通過目標(biāo)候選候選區(qū)域選擇算法，生成一系列候選目標(biāo)區(qū)域，

然后通過深度神經(jīng)網(wǎng)絡(luò)提取候選目標(biāo)區(qū)域特征，并用這些特征進(jìn)行分類。

技術(shù)路線：selective search + CNN + SVMs

算法：Fast-R-CNN

步驟：輸入一幅圖像和Selective Search方法生成的一系列Proposals，通過一系列卷積層

和Pooling層生成feature map,然后用RoI（region ofineterst）層處理最后一個卷積層

得到的feature map為每一個proposal生成一個定長的特征向量roi_pool5。

RoI層的輸出roi_pool5接著輸入到全連接層, 產(chǎn)生最終用于多任務(wù)學(xué)習(xí)的特征并用于

計算多任務(wù)Loss。

全連接輸出包括兩個分支：

1.SoftMax Loss:計算K+1類的分類Loss函數(shù)，其中K表示K個目標(biāo)類別。

2.RegressionLoss:即K+1的分類結(jié)果相應(yīng)的Proposal的Bounding Box四個角點坐標(biāo)值。

最終將所有結(jié)果通過非極大抑制處理產(chǎn)生最終的目標(biāo)檢測和識別結(jié)果。

Faster-R-CNN算法由兩大模塊組成：1.PRN候選框提取模塊 2.Fast R-CNN檢測模塊。

其中，RPN是全卷積神經(jīng)網(wǎng)絡(luò)，通過共享卷積層特征可以實現(xiàn)proposal的提取；

FastR-CNN基于RPN提取的proposal檢測并識別proposal中的目標(biāo)。

這類方法不同于前面兩種算法，而將場景圖像看作全局對象而非圖像中的某一對象或細(xì)節(jié)，

這樣可以降低局部噪聲對場景分類的影響。

將輸入圖片作為一個特征，并提取可以概括圖像統(tǒng)計或語義的低維特征。該類方法的目的

即為提高場景分類的魯棒性。因為自然圖片中很容易摻雜一些隨機(jī)噪聲，這類噪聲會對

局部處理造成災(zāi)難性的影響，而對于全局圖像卻可以通過平均數(shù)來降低這種影響。

基于上下文的方法，通過識別全局對象，而非場景中的小對象集合或者準(zhǔn)確的區(qū)域邊界，

因此不需要處理小的孤立區(qū)域的噪聲和低級圖片的變化，其解決了分割和目標(biāo)識別分類方法遇到的問題。

步驟：通過 Gist 特征提取場景圖像的全局特征。Gist 特征是一種生物啟發(fā)式特征，

該特征模擬人的視覺，形成對外部世界的一種空間表

示，捕獲圖像中的上下文信息。Gist 特征通過多尺度

多方向 Gabor 濾波器組對場景圖像進(jìn)行濾波，將濾波后

的圖像劃分為 4 × 4 的網(wǎng)格，然后各個網(wǎng)格采用離散傅

里葉變換和窗口傅里葉變換提取圖像的全局特征信息。

四、時間序列分類算法

歐式距離不能很好地針對時間序列的波動模式進(jìn)行分類，研發(fā)更適合時間序列分類的距離度量就成為關(guān)鍵，這其中最經(jīng)典的時間序列距離度量就是Dynamic Time Warping （DTW）。 DTW的原理如下：

比如說，給定一個樣本序列X和比對序列Y,Z：

X：3，5，6，7，7，1

Y：3，6，6，7，8，1，1

Z：2，5，7，7，7，7，2

請問是X和Y更相似還是X和Z更相似？

DTW首先會根據(jù)序列點之間的距離(歐氏距離)，獲得一個序列距離矩陣 MM，其中行對應(yīng)X序列，列對應(yīng)Y序列，矩陣元素為對應(yīng)行列中X序列和Y序列點到點的歐氏距離：

DTW通過對時間序列波動模式的分析可得到更好的時間序列分類結(jié)果。研究表明，在時間序列分類問題上，DTW距離度量配合簡單的最小距離分類法（nearest neighbor）就可以取得較傳統(tǒng)歐式距離算法（如SVM、經(jīng)典多層神經(jīng)網(wǎng)絡(luò)、決策樹、Adaboost）壓倒性的優(yōu)勢。

DTW更進(jìn)一步衍生出多種不同的變種，例如由Keogh和 Pazzani 提出的基于序列一階導(dǎo)數(shù)的改進(jìn)便取得了良好的效果；其中一種簡單的方法叫Complexity Invariant distance (CID)，其利用一階導(dǎo)數(shù)信息對DTW距離做計算，在某些問題上具有突出效果。

除了DTW，還有其他考量時間序列的波動模式算法。例如Ye 和Keogh提出的Shapelet方法：考察序列中具有代表意義的子序列來作為Shapelet特征而進(jìn)行分類。Lin等人提出了基于字典的方法，將序列根據(jù)特定的字典轉(zhuǎn)化為詞序列，從而進(jìn)行分類。Deng提出了基于區(qū)間的方法，從區(qū)間中提取波動的特征。

除了上述方法外，聚合算法（將多種不同算法聚合在一起）的研究也有了長足的進(jìn)步。最近提出的COTE算法幾乎將上述所有不同分類算法聚合在一起，得到了優(yōu)異的分類效果。

這一類的方法都是一些通過某種度量關(guān)系來提取相關(guān)特征的方法，如詞袋法，通過找到該時間序列中是否有符合已有詞袋中的特征（序列的樣子），將一個序列用詞來表示，再對詞進(jìn)行分類。而其他的基于特征的方法都是利用了類似的方法，如提取統(tǒng)計量，基于規(guī)則等，再通過分類模型進(jìn)行分類。

1、MLP、FCN、ResNet

MLP的輸入是一個向量（數(shù)組），通過全連接的形式對整體數(shù)組的每一個元素逐層賦予權(quán)重，并求得最后的分類，這種方法是一種比較粗暴的學(xué)習(xí)方法，直接學(xué)習(xí)所有元素直接的線性或非線性相關(guān)關(guān)系，但是并沒有去深度挖掘數(shù)組中更好的表現(xiàn)特征，分類效果不佳。

FCN是將MLP中的全鏈接層用卷積層進(jìn)行替代，Resnet也是，但是其中的卷積層都用一維卷積核進(jìn)行了替代。

來自于Time Series Classifification from Scratch with Deep Neural Networks: A Strong Baseline.可以看到深度學(xué)習(xí)的方法效果基本上與傳統(tǒng)方法相接近，甚至有所超過，其中整體表現(xiàn)最好的是FCN。

LSTM_FCN的方法比較簡單，是將輸入分別輸入到兩個分支中，LSTM和FCN，并在最后將兩個輸出分支進(jìn)行concat進(jìn)行softmax獲得分類結(jié)果。在這篇論文中，作者說這種方法取得了比FCN更好的效果。

在其他的一些比賽方案中，也有resnet+LSTM+FC的組合形式，通過Resnet的一維卷積先提取相關(guān)特征，然后通過LSTM學(xué)習(xí)一維特征向量的相關(guān)關(guān)系，再進(jìn)行分類，可能針對于不同的問題還是要試試才知道哪個的效果更加好。

BiGRU-CNN與以上方法相比實際上并沒有做什么大的改進(jìn)，就是將LSTM分支替換成雙向的GRU分支。

以上就是關(guān)于分類算法相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。