HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    svm中常用的核函數(shù)包括哪些(svm的核函數(shù)作用是什么)

    發(fā)布時間:2023-04-14 03:27:16     稿源: 創(chuàng)意嶺    閱讀: 54        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于svm中常用的核函數(shù)包括哪些的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    svm中常用的核函數(shù)包括哪些(svm的核函數(shù)作用是什么)

    一、機(jī)器學(xué)習(xí)有很多關(guān)于核函數(shù)的說法,什么是核函數(shù)?核函數(shù)的作用是什么

    核函數(shù)一般是為了解決維度過高導(dǎo)致的計算能力不足的缺陷,實(shí)質(zhì)就是特征向量內(nèi)積的平方。

    為什么會提出核函數(shù):

    一般我們在解決一般的分類或者回歸問題的時候,給出的那個數(shù)據(jù)可能在低維空間并不線性可分,但是我們選用的模型卻是在特征空間中構(gòu)造超平面,從而進(jìn)行分類,如果在低維空間中直接使用模型,很明顯,效果必然會大打折扣。

    但是!如果我們能夠?qū)⒌途暱臻g的特征向量映射到高維空間,那么這些映射后的特征線性可分的可能性更大【記住這里只能說是可能性更大,并不能保證映射過去一定線性可分】,由此我們可以構(gòu)造映射函數(shù),但問題隨之而來了,維度擴(kuò)大,那么隨之而言的計算成本就增加了,模型效果好了,但是可用性降低,那也是不行的。

    于是有人提出了核函數(shù)的概念,可以在低維空間進(jìn)行高維度映射過后的計算,使得計算花銷大為降低,由此,使得映射函數(shù)成為了可能。舉個簡單的例子吧,假設(shè)我們的原始樣本特征維度為2,將其映射到三維空間,隨便假設(shè)我們的映射函數(shù)為f(x1,x2) = (x1^2, x2^2, 2*x1*x2),那么在三維空間中,樣本線性可分更大,但是向量內(nèi)積的計算開銷從4提高到9【如果從10維映射到1000維,那么計算花銷就提高了10000倍,而實(shí)際情況下,特征維度幾萬上百萬十分常見】,再看對于樣本n1=(a1,a2),n2=(b1,b2),映射到三維空間之后,兩者的內(nèi)積I1為:a1^2 * b1^2 + a2^2 * b2^2 + 4 * a1 * a2 * b1 * b2,此時,又有,n1,n2在二維空間中的內(nèi)積為:a1b1 + a2b2,平方之后為I2:a1^2 * b1^2 + a2^2 * b2^2 + 4 * a1 * a2 * b1 * b2,此時 I1 和 I2 是不是很相似,只要我們將f(x1,x2)調(diào)整為: (x1^2, x2^2, 根號(2*x1*x2) ) ,那么此時就有I1 = I2,也就是說,映射到三維空間里的內(nèi)積,可以通過二維空間的內(nèi)積的平方進(jìn)行計算! 個人博客:www.idiotaron.org 里有關(guān)于svm核函數(shù)的描述~

    實(shí)際上核函數(shù)還是挺難找的,目前常用的有多項(xiàng)式核,高斯核,還有線性核。

    希望能幫到你,也希望有更好的想法,在下面分享下哈。

    二、支持向量機(jī)(SVM)

            支持向量機(jī)(support vector machine),故一般簡稱SVM,通俗來講,它是一種二分類模型,其基本模型定義為特征空間上的間隔最大的線性分類器,這族分類器的特點(diǎn)是他們能夠同時最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū),因此支持向量機(jī)也被稱為最大邊緣區(qū)分類器。其學(xué)習(xí)策略便是間隔最大化,最終可轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解。SVM在很多諸如文本分類,圖像分類,生物序列分析和生物數(shù)據(jù)挖掘,手寫字符識別等領(lǐng)域有很多的應(yīng)用。

            支持向量機(jī)將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面,分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。

            假設(shè)給定一些分屬于兩類的2維點(diǎn),這些點(diǎn)可以通過直線分割, 我們要找到一條最優(yōu)的分割線,如何來界定一個超平面是不是最優(yōu)的呢?

            如圖:

            在上面的圖中,a和b都可以作為分類超平面,但最優(yōu)超平面只有一個,最優(yōu)分類平面使間隔最大化。 那是不是某條直線比其他的更加合適呢? 我們可以憑直覺來定義一條評價直線好壞的標(biāo)準(zhǔn):

            距離樣本太近的直線不是最優(yōu)的,因?yàn)檫@樣的直線對噪聲敏感度高,泛化性較差。 因此我們的目標(biāo)是找到一條直線(圖中的最優(yōu)超平面),離所有點(diǎn)的距離最遠(yuǎn)。 由此, SVM算法的實(shí)質(zhì)是找出一個能夠?qū)⒛硞€值最大化的超平面,這個值就是超平面離所有訓(xùn)練樣本的最小距離。這個最小距離用SVM術(shù)語來說叫做間隔(margin) 。

            描述:給定一些數(shù)據(jù)點(diǎn),它們分別屬于兩個不同的類,現(xiàn)在要找到一個線性分類器把這些數(shù)據(jù)分成兩類。如果用x表示數(shù)據(jù)點(diǎn),用y表示類別(y可以取1或者-1,分別代表兩個不同的類),一個線性分類器的學(xué)習(xí)目標(biāo)便是要在n維的數(shù)據(jù)空間中找到一個超平面(hyper plane),這個超平面的方程可以表示為( wT中的T代表轉(zhuǎn)置):

            例如:現(xiàn)在有一個二維平面,平面上有兩種不同的數(shù)據(jù),分別用圈和叉表示。由于這些數(shù)據(jù)是線性可分的,所以可以用一條直線將這兩類數(shù)據(jù)分開,這條直線就相當(dāng)于一個超平面,超平面一邊的數(shù)據(jù)點(diǎn)所對應(yīng)的y全是-1 ,另一邊所對應(yīng)的y全是1。

            我們令分類函數(shù)為:

            當(dāng)f(x) 等于0的時候,x便是位于超平面上的點(diǎn),而f(x)大于0的點(diǎn)對應(yīng) y=1 的數(shù)據(jù)點(diǎn),f(x)小于0的點(diǎn)對應(yīng)y=-1的點(diǎn),如下圖所示:

            一個點(diǎn)距離超平面的遠(yuǎn)近可以表示分類預(yù)測的確信或準(zhǔn)確程度,如何確定這個超平面呢?從直觀上而言,這個超平面應(yīng)該是最適合分開兩類數(shù)據(jù)的直線。而判定“最適合”的標(biāo)準(zhǔn)就是這條直線離直線兩邊的數(shù)據(jù)的間隔最大。所以,得尋找有著最大間隔的超平面。

    補(bǔ)充知識點(diǎn): 點(diǎn)到平面的距離

            支持向量機(jī)學(xué)習(xí)的基本想法是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面.。對線性可分的訓(xùn)練數(shù)據(jù)集而言,線性可分分離超平面有無窮多個(等價于感知機(jī)),但是幾何間隔最大的分離超平面是唯一的。這里的間隔最大化又稱為硬間隔最大化。

            間隔最大化的直觀解釋是:對訓(xùn)練數(shù)據(jù)集找到幾何間隔最大的超平面意味著以充分大的確信度對訓(xùn)練數(shù)據(jù)進(jìn)行分類。也就是說,不僅將正負(fù)實(shí)例點(diǎn)分開,而且對最難分的實(shí)例點(diǎn)(離超平面最近的點(diǎn))也有足夠大的確信度將它們分開。這樣的超平面應(yīng)該對未知的新實(shí)例有很好的分類預(yù)測能力。

          按照我們前面的分析,對一個數(shù)據(jù)點(diǎn)進(jìn)行分類, 當(dāng)它的margin越大的時候,分類的confidence越大。 對于一個包含n個點(diǎn)的數(shù)據(jù)集,我們可以很自然地定義它的margin為所有這n個點(diǎn)的margin值中最小的那個。于是,為了使得分類的confidence高,我們希望所選擇的超平面hyper plane能夠最大化這個margin值。讓所選擇的超平面能夠最大化這個“間隔”值,這個間隔就是下圖中的Gap的一半:

    為什么用幾何間隔求最大的分離超平面而不用函數(shù)間隔?

    例題:

    我們構(gòu)造了約束最優(yōu)化問題,就是下面這個:

            此外,由于這個問題的特殊結(jié)構(gòu),還可以通過拉格朗日對偶性(Lagrange Duality)變換到對偶變量 (dual variable) 的優(yōu)化問題,即通過求解與原問題等價的對偶問題(dual problem)得到原始問題的最優(yōu)解,這就是線性可分條件下支持向量機(jī)的對偶算法,這樣做的優(yōu)點(diǎn)在于:一者對偶問題往往更容易求解;二者可以自然的引入核函數(shù),進(jìn)而推廣到非線性分類問題。

    補(bǔ)充知識點(diǎn): 拉格朗日乘子法學(xué)習(xí)

                         拉格朗日KKT條件

                         KKT條件介紹

                         拉格朗日對偶

             通過給每一個約束條件加上一個拉格朗日乘子(Lagrange multiplier)α,定義拉格朗日函數(shù)(通過拉格朗日函數(shù)將約束條件融合到目標(biāo)函數(shù)里去,從而只用一個函數(shù)表達(dá)式便能清楚的表達(dá)出我們的問題):

     求解這個式子的過程需要拉格朗日對偶性的相關(guān)知識。

    例題:

             接下來談?wù)劸€性不可分的情況,因?yàn)?線性可分這種假設(shè)實(shí)在是太有局限性 了。下圖就是一個典型的線性不可分的分類圖,我們沒有辦法用一條直線去將其分成兩個區(qū)域,每個區(qū)域只包含一種顏色的點(diǎn)。

             要想在這種情況下的分類器,有兩種方式, 一種是用曲線 去將其完全分開,曲線就是一種 非線性 的情況,跟之后將談到的 核函數(shù) 有一定的關(guān)系:

             另外一種還是用直線,不過不用去保證可分性 ,就是包容那些分錯的情況,不過我們得加入懲罰函數(shù),使得點(diǎn)分錯的情況越合理越好。其實(shí)在很多時候,不是在訓(xùn)練的時候分類函數(shù)越完美越好,因?yàn)橛?xùn)練函數(shù)中有些數(shù)據(jù)本來就是噪聲,可能就是在人工加上分類標(biāo)簽的時候加錯了,如果我們在訓(xùn)練(學(xué)習(xí))的時候把這些錯誤的點(diǎn)學(xué)習(xí)到了,那么模型在下次碰到這些錯誤情況的時候就難免出錯了。這種學(xué)習(xí)的時候?qū)W到了“噪聲”的過程就是一個過擬合(over-fitting),這在機(jī)器學(xué)習(xí)中是一個大忌。

    我們可以為分錯的點(diǎn)加上一點(diǎn)懲罰,對一個分錯的點(diǎn)的 懲罰函數(shù) 就是 這個點(diǎn)到其正確位置的距離:

            對于線性不可分的情況,我們可以用核函數(shù)讓空間從原本的線性空間變成一個更高維的空間 , 在這個高維的線性空間下,再用一個超平面進(jìn)行劃分 。 這兒舉個例子,來理解一下如何利用空間的維度變得更高來幫助我們分類的:

            上圖是一個線性不可分的圖,當(dāng)我們把這兩個類似于橢圓形的點(diǎn)映射到一個高維空間后,映射函數(shù)為:

            用這個函數(shù)可以將上圖的平面中的點(diǎn)映射到一個三維空間(z1,z2,z3),并且對映射后的坐標(biāo)加以旋轉(zhuǎn)之后就可以得到一個線性可分的點(diǎn)集了。

            形象說明:例如世界上本來沒有兩個完全一樣的物體,對于所有的兩個物體,我們可以通過增加維度來讓他們最終有所區(qū)別,比如說兩本書,從(顏色,內(nèi)容)兩個維度來說,可能是一樣的,我們可以加上作者這個維度,是在不行我們還可以加入頁碼,可以加入擁有者,可以加入購買地點(diǎn),可以加入筆記內(nèi)容等等。當(dāng)維度增加到無限維的時候,一定可以讓任意的兩個物體可分了。

    核函數(shù)定義:

    核技巧在支持向量機(jī)中的應(yīng)用:

    常用核函數(shù):

    非線性支持向量機(jī)學(xué)習(xí)算法:

            支持向量機(jī)的學(xué)習(xí)問題可以形式化為求解凸二次規(guī)劃問題。這樣的凸二次規(guī)劃問題具有全局最優(yōu)解,并且有許多最優(yōu)化算法可以用于這一一問題的求解。但是當(dāng)訓(xùn)練樣本容量很大時,這些算法往往變得非常低效,以致無法使用。所以,如何高效地實(shí)現(xiàn)支持向量機(jī)學(xué)習(xí)就成為一一個重要的問題。目前人們已提出許多快速實(shí)現(xiàn)算法.本節(jié)講述其中的序列最小最優(yōu)化(sequential minimal optimization, SMO)算法。

            上述問題是要求解N個參數(shù)(α1,α2,α3,...,αN),其他參數(shù)均為已知,序列最小最優(yōu)化算法(SMO)可以高效的求解上述SVM問題,它把原始求解N個參數(shù)二次規(guī)劃問題分解成很多個子二次規(guī)劃問題分別求解,每個子問題只需要求解2個參數(shù),方法類似于坐標(biāo)上升,節(jié)省時間成本和降低了內(nèi)存需求。每次啟發(fā)式選擇兩個變量進(jìn)行優(yōu)化,不斷循環(huán),直到達(dá)到函數(shù)最優(yōu)值。

            整個SMO算法包括兩部分,求解兩個變量的 二次規(guī)劃 問題和選擇這兩個變量的 啟發(fā)式 方法。

     上面求得的(α1)new和(α2)new是在η>0的情況下求得的:

            當(dāng)時為了推導(dǎo)公式我們直接默認(rèn)它是大于0了,現(xiàn)在我們需要重新審視這一項(xiàng)(η)。這一項(xiàng)是原來關(guān)于的二次項(xiàng)的系數(shù)。我們可以分下面三種情況討論:

    (1)當(dāng)η>0時 :這個二次函數(shù)開口向上,所以要求這個二次函數(shù)的最小值,如果說極值點(diǎn)不在計算出的可行域的范圍內(nèi),就要根據(jù)這個極值點(diǎn)和可行域邊界值的關(guān)系來得到取最小值的地方:

    ①如果這個極值點(diǎn)在可行域左邊,那么我們可以得到這個可行域內(nèi)二次函數(shù)一定在單增,所以此時L應(yīng)該是那個取最小值的地方。就如大括號的第三種情況。

    ②如果這個極值點(diǎn)在可行域右邊,那么此時可行域內(nèi)一定單減,所以此時H就是那個取最小值的地方,就是大括號里的第一種情況。

    (2)當(dāng)η=0時: 這個二次函數(shù)就變成了一個一次函數(shù),那么不管這個一次函數(shù)的單調(diào)性怎樣,最小值一定是在邊界處取到。所以到時候計算可行域的兩個邊界的值,看哪個小就用哪個。

    (3)當(dāng)η<0時: 這個二次函數(shù)開口向下,那么此時怎么得到取最小值的點(diǎn)呢?很容易就能想到:最小值也是在可行域的邊界處取到。很容易理解,此時開口向下,當(dāng)極值點(diǎn)在區(qū)間內(nèi)時,最小值只能在端點(diǎn)處取,因?yàn)闃O值點(diǎn)處是最大的。而當(dāng)極值點(diǎn)在區(qū)間外時,區(qū)間內(nèi)一定是單調(diào)的,此時最小值也只能在端點(diǎn)處取。通過計算比較邊界處的目標(biāo)函數(shù)值,哪個小取哪個。

    通過以上判斷求出(α2)new以后,再根據(jù)公式求出(α1)new,然后帶入目標(biāo)函數(shù)(1)中。即如下過程:

            上述分析是在從N個變量中已經(jīng)選出兩個變量進(jìn)行優(yōu)化的方法,下面分析如何高效地選擇兩個變量進(jìn)行優(yōu)化,使得目標(biāo)函數(shù)下降的最快。

    三、SVM由淺入深的嘗試(五)核函數(shù)的理解

    對于線性分類問題,線性分類向量機(jī)是一種非常有效的方法。但是,當(dāng)分類變得不線性,線性分類向量機(jī)就會失效,我們就需要新的方法去解決,那就是非線性向量機(jī),而在非線性向量機(jī)中,一種非常重要的方法就必須要知道,那就是核函數(shù)。

    對于我本人來說,因?yàn)橹耙采娅C過核函數(shù),因此,在理解上可能相對快一點(diǎn)。

    網(wǎng)上有很多對核函數(shù)的介紹,知乎上的介紹我印象很深,有興趣的可以搜一下。

    核函數(shù)的入門理解還是要從,將二維非線性問題轉(zhuǎn)化為三維線性問題。

    原本線性不可分的問題瞬間變成了線性分割面可以分類的問題。很神奇!

    具體實(shí)現(xiàn)的手段就是增加維度。

    上圖中,我們發(fā)現(xiàn)x1,x2是非線性分類,于是我們通過變化,z=phi(x),我們發(fā)現(xiàn),z1,z2是線性分類問題。

    這里的phi(x)便是映射函數(shù)。

    其實(shí)白話理解就是,假設(shè)存在映射函數(shù)phi(x),對初始空間所有的x,z,存在

    那么,K(x,z)便是核函數(shù)。

    從上例可以看出,核函數(shù)一定,映射函數(shù)是不唯一的,而且當(dāng)維度是無線大的時候,我們幾乎無法求得映射函數(shù),那么核函數(shù)的作用就在于此,核函數(shù)避免了映射函數(shù)的求解,叫做核技巧。

    核函數(shù)是半正定矩陣。

    分類決策函數(shù)為

    分類決策函數(shù)為:

    ...太復(fù)雜,沒看懂,有時間再看。

    我們的線性問題也可以用線性核來解決。

    Linear kernel

    因此,我們得到的對偶問題就可以切換,

    切換為

    注:書中的SMO算法也是用線性核的凸二次規(guī)劃對偶方程求解。

    四、哲哲的ML筆記(二十六:SVM之核函數(shù))

    分類問題中,可以使用高級數(shù)的多項(xiàng)式模型來解決無法用直線進(jìn)行分隔的分類問題

    除了對原有的特征進(jìn)行組合以外,有沒有更好的方法來構(gòu)造?我們可以利用核函數(shù)來計算出新的特征

    可以用一系列的新的特征 來替換模型中的每一項(xiàng): , , ……

    給定一個訓(xùn)練樣本 ,我們利用的各個特征與我們預(yù)先選定的地標(biāo) (landmarks)的近似程度來選取新的特征

    如果一個訓(xùn)練樣本 與地標(biāo) 之間的距離近似于0,則新特征 近似于1,如果訓(xùn)練樣本與地標(biāo)之間距離較遠(yuǎn),則近似于0

    假設(shè)我們的訓(xùn)練樣本含有兩個特征 ,給定地標(biāo)與不同的 值,見下圖

    如下圖,假設(shè)了一組 值,假設(shè)一個樣本是圖中的粉色點(diǎn),距離 很近, 趨近于1, 和 趨近于0,那么假設(shè)函數(shù)的值為1,預(yù)測為1

    假設(shè)一個樣本數(shù)是圖中藍(lán)色的點(diǎn), 和 和 都趨近于0,假設(shè)函數(shù)為0,預(yù)測為0

    通常是根據(jù)訓(xùn)練集的數(shù)量選擇地標(biāo)的數(shù)量,即如果訓(xùn)練集中有 個樣本,則我們選取 個地標(biāo),并且令: 。這樣做的好處在于:現(xiàn)在我們得到的新特征是建立在原有特征與訓(xùn)練集中所有其他特征之間距離的基礎(chǔ)之上的,即

    對于一個樣本 ,根據(jù)核函數(shù)計算出 ,當(dāng) ,預(yù)測

    怎么得到 ?通過代價函數(shù),注意 是加到m,不是n

    下面是支持向量機(jī)的兩個參數(shù) 和 的影響:

    盡管你不去寫你自己的SVM的優(yōu)化軟件,但是你也需要做幾件事:

    1、參數(shù) 的選擇,上一部分討論過誤差/方差在這方面的性質(zhì)。

    2、你選擇不需要任何內(nèi)核參數(shù),沒有內(nèi)核參數(shù)的理念,也叫線性核函數(shù)。因此,如果有人說他使用了線性核的SVM(支持向量機(jī)),這就意味這他使用了不帶有核函數(shù)的SVM(支持向量機(jī))。

    下面是一些普遍使用的準(zhǔn)則: 為特征數(shù), 為訓(xùn)練樣本數(shù)。

    值得一提的是,神經(jīng)網(wǎng)絡(luò)在以上三種情況下都可能會有較好的表現(xiàn),但是訓(xùn)練神經(jīng)網(wǎng)絡(luò)可能非常慢,選擇支持向量機(jī)的原因主要在于它的代價函數(shù)是凸函數(shù),不存在局部最小值

    以上就是關(guān)于svm中常用的核函數(shù)包括哪些相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    boneworksvr游戲(boneworks 3dm)

    r語言讀不了csv文件(r語言讀取csv文件為什么報錯)

    百度網(wǎng)盤svip永久免費(fèi)(2022年百度網(wǎng)盤svip免費(fèi)領(lǐng)?。?/a>

    河南自然生態(tài)景觀設(shè)計公司(河南自然生態(tài)景觀設(shè)計公司排名)

    附近做廣告牌的店面(附近做廣告牌的店面地址)