-
當前位置:首頁 > 創(chuàng)意學院 > 技術 > 專題列表 > 正文
2、聚類算法有哪些
模型算法有哪些
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于模型算法有哪些的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
ChatGPT國內免費在線使用,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關鍵詞,就能返回你想要的內容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com
本文目錄:
一、常見的分類算法有哪些
常見的分類算法:
1、決策樹:決策樹是一種用于對實例進行分類的樹形結構。一種依托于策略抉擇而建立起來的樹。決策樹由節(jié)點(node)和有向邊(directed edge)組成。節(jié)點的類型有兩種:內部節(jié)點和葉子節(jié)點。其中,內部節(jié)點表示一個特征或屬性的測試條件(用于分開具有不同特性的記錄),葉子節(jié)點表示一個分類。
2、貝葉斯:貝葉斯(Bayes)分類算法是一類利用概率統(tǒng)計知識進行分類的算法,如樸素貝葉斯(Naive Bayes)算法。這些算法主要利用Bayes定理來預測一個未知類別的樣本屬于各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。由于貝葉斯定理的成立本身需要一個很強的條件獨立性假設前提,而此假設在實際情況中經(jīng)常是不成立的,因而其分類準確性就會下降。
3、人工神經(jīng)網(wǎng)絡:人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,ANN)是一種應用類似于大腦神經(jīng)突觸聯(lián)接的結構進行信息處理的數(shù)學模型。在這種模型中,大量的節(jié)點(或稱”神經(jīng)元”,或”單元”)之間相互聯(lián)接構成網(wǎng)絡,即”神經(jīng)網(wǎng)絡”,以達到處理信息的目的。神經(jīng)網(wǎng)絡通常需要進行訓練,訓練的過程就是網(wǎng)絡進行學習的過程。
二、聚類算法有哪些
基于網(wǎng)格的方法(grid-based methods),這種方法首先將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結構,所有的處理都是以單個的單元為對象的。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法。
6、模型算法
基于模型的方法(model-based methods),基于模型的方法給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。通常有兩種嘗試方向:統(tǒng)計的方案和神經(jīng)網(wǎng)絡的方案。
擴展資料:
聚類分析起源于分類學,在古老的分類學中,人們主要依靠經(jīng)驗和專業(yè)知識來實現(xiàn)分類,很少利用數(shù)學工具進行定量的分類。隨著人類科學技術的發(fā)展,對分類的要求越來越高,以致有時僅憑經(jīng)驗和專業(yè)知識難以確切地進行分類,于是人們逐漸地把數(shù)學工具引用到了分類學中,形成了數(shù)值分類學,之后又將多元分析的技術引入到數(shù)值分類學形成了聚類分析。聚類分析內容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預報法等。
在商業(yè)上,聚類可以幫助市場分析人員從消費者數(shù)據(jù)庫中區(qū)分出不同的消費群體來,并且概括出每一類消費者的消費模式或者說習慣。它作為數(shù)據(jù)挖掘中的一個模塊,可以作為一個單獨的工具以發(fā)現(xiàn)數(shù)據(jù)庫中分布的一些深層的信息,并且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進一步的分析;并且,聚類分析也可以作為數(shù)據(jù)挖掘算法中其他分析算法的一個預處理步驟。
參考資料:百度百科-聚類算法
三、聚類算法有哪些分類
聚類算法的分類有:
1、劃分法
劃分法(partitioning methods),給定一個有N個
5、網(wǎng)格算法
基于網(wǎng)格的方法(grid-based methods),這種方法首先將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結構,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優(yōu)點就是處理速度很快,通常這是與目標數(shù)據(jù)庫中記錄的個數(shù)無關的,它只與把數(shù)據(jù)空間分為多少個單元有關。
代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;
6、模型算法
基于模型的方法(model-based methods),基于模型的方法給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。它的一個潛在的假定就是:目標數(shù)據(jù)集是由一系列的概率分布所決定的。
通常有兩種嘗試方向:統(tǒng)計的方案和神經(jīng)網(wǎng)絡的方案。
擴展資料:
聚類算法的要求:
1、可伸縮性
許多聚類算法在小于 200 個數(shù)據(jù)對象的小數(shù)據(jù)集合上工作得很好;但是,一個大規(guī)模數(shù)據(jù)庫可能包含幾百萬個對象,在這樣的大數(shù)據(jù)集合樣本上進行聚類可能會導致有偏的結果。
我們需要具有高度可伸縮性的聚類算法。
2、不同屬性
許多算法被設計用來聚類數(shù)值類型的數(shù)據(jù)。但是,應用可能要求聚類其他類型的數(shù)據(jù),如二元類型(binary),分類/標稱類型(categorical/nominal),序數(shù)型(ordinal)數(shù)據(jù),或者這些數(shù)據(jù)類型的混合。
3、任意形狀
許多聚類算法基于歐幾里得或者曼哈頓距離度量來決定聚類?;谶@樣的距離度量的算法趨向于發(fā)現(xiàn)具有相近尺度和密度的球狀簇。但是,一個簇可能是任意形狀的。提出能發(fā)現(xiàn)任意形狀簇的算法是很重要的。
4、領域最小化
許多聚類算法在聚類分析中要求用戶輸入一定的參數(shù),例如希望產(chǎn)生的簇的數(shù)目。聚類結果對于輸入?yún)?shù)十分敏感。參數(shù)通常很難確定,特別是對于包含高維對象的數(shù)據(jù)集來說。這樣不僅加重了用戶的負擔,也使得聚類的質量難以控制。
5、處理“噪聲”
絕大多數(shù)現(xiàn)實中的數(shù)據(jù)庫都包含了孤立點,缺失,或者錯誤的數(shù)據(jù)。一些聚類算法對于這樣的數(shù)據(jù)敏感,可能導致低質量的聚類結果。
6、記錄順序
一些聚類算法對于輸入數(shù)據(jù)的順序是敏感的。例如,同一個數(shù)據(jù)集合,當以不同的順序交給同一個算法時,可能生成差別很大的聚類結果。開發(fā)對數(shù)據(jù)輸入順序不敏感的算法具有重要的意義。
參考資料:百度百科-聚類算法
四、金融風控AI—評分卡模型算法(1)
辦理過信用卡的朋友知道,開卡需要先申請(篩選好壞用戶),可能還會根據(jù)你的信用情況會有不同的額度。這就是銀行的信用風險計量體系。對于信用卡有4類評分卡:
1)申請評分卡(A卡)
2)行為評分卡(B卡)
3)催收評分卡(C卡)
4)欺詐評分卡(F卡)
這些評分卡算法一樣,只是訓練的數(shù)據(jù)不同,所用的參數(shù)也就不同。
螞蟻金服的芝麻信用也是這樣的。
模型的開發(fā)主要包含以下幾大部分工作:數(shù)據(jù)獲取、數(shù)據(jù)預處理、探索分析、特征選擇、模型訓練、模型評估、建立評分系統(tǒng)。
本項目數(shù)據(jù)來源于kaggle競賽 Give Me Some Credit 。有訓練數(shù)據(jù)共計15萬條。
打開數(shù)據(jù)文件大概這個樣子:
字段描述如下
這部分主要做2個事情:缺失值處理和異常值處理。
pd的describe()函數(shù),可以了解數(shù)據(jù)集的缺失值情況。
打開DataDescribe.csv
我們可以看大部分數(shù)據(jù)有15萬條,其中月收入只有12萬條,缺了近3萬條,家屬數(shù)量14.6萬條。
對于缺失值,根據(jù)不同的情況我們分類處理:
(1) 如果缺失的不多,比如家屬數(shù)量缺失不多,可以直接刪除含有缺失值的樣本。用dropna()
(2) 如果缺失較多,不宜直接全部刪除,根據(jù)樣本之間的相似性填補缺失值。比如用平均值
(3)如果缺失較多,不宜直接全部刪除, 根據(jù)變量之間的相關關系填補缺失值。比如用隨機森林法填補。
(4)如果缺失巨大,就失去分析意義,可以將整個字段刪除
平均值填補只要一句話:
隨機森林法填補:
調用隨機森林:
異常值是指明顯偏離大多數(shù)抽樣數(shù)據(jù)的數(shù)值,或者直接違背常識的數(shù)據(jù),比如年齡是負數(shù)。對于違背常識的記錄直接刪除,而對于其他異常數(shù)據(jù)需要具體分析:
具體采用哪種方式其實最好都試一下,看看最后得到的模型怎么樣。因為所有這些操作都是有假設條件的,而你的數(shù)據(jù)是否滿足這些條件,試過才知道。
從圖看有異常值不少,不過一般只把異常的0值去掉。
對于RevolvingUtilizationOfUnsecuredLines及DebtRatio都是百分數(shù)類型。其中第一項肯定不能大于100%而且統(tǒng)計一下這部分異常數(shù)據(jù)不多,果斷刪掉。第二項債務百分比不敢確定是否可債務大于100%,統(tǒng)計了一下有3w多條,而且取出來看了一下不是很特別,同樣可以試一下刪除或者放入不管或者填充看看最后不同的效果。
這3個逾期不還次數(shù)指標意義相似放一起看,發(fā)現(xiàn)有2個數(shù)據(jù)特別顯眼,是96,98。雖然按箱型圖的含義所有圓圈都是異常值,但仔細分析這三個指標發(fā)現(xiàn)正常值絕大部分是0,這就導致了箱型圖的1/4線和3/4線都是0,所以我們通常把頭頂2個值作為異常值。我把這部分異常值取出來發(fā)現(xiàn)數(shù)量不多,只有200多條,理論上可以直接刪除或者放在里面置之不理。但是我看了這部分數(shù)據(jù)發(fā)現(xiàn)非常異常。這208條數(shù)據(jù)有125條是違約用戶,違約占比62%,而全量數(shù)據(jù)里面違約占比7%不到,所以我覺得應該把這部分數(shù)據(jù)作為一條規(guī)則來處理,遇到這三個指標有超過90的數(shù)值,直接報告警。那么是否可以把這部分數(shù)據(jù)留著置之不理呢,后面我試了,發(fā)現(xiàn)會對變量之間的相關性有很大影響(后面會詳細講)。
同樣這個指標我們把50以上作為異常值。
這個指標pass
月收入可以去掉特別高的數(shù)據(jù)
家庭成員可以剔除特別高的
第一篇完
以上就是關于模型算法有哪些相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內容。
推薦閱讀: