正文

模型算法有哪些

發(fā)布時間：2023-03-13 03:17:00 稿源：創(chuàng)意嶺閱讀： 118 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關于模型算法有哪些的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

ChatGPT國內免費在線使用，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關鍵詞，就能返回你想要的內容，越精準，寫出的就越詳細，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、常見的分類算法有哪些
2、聚類算法有哪些
3、聚類算法有哪些分類
4、金融風控AI—評分卡模型算法(1)

模型算法有哪些

一、常見的分類算法有哪些

常見的分類算法：

1、決策樹：決策樹是一種用于對實例進行分類的樹形結構。一種依托于策略抉擇而建立起來的樹。決策樹由節(jié)點（node）和有向邊（directed edge）組成。節(jié)點的類型有兩種：內部節(jié)點和葉子節(jié)點。其中，內部節(jié)點表示一個特征或屬性的測試條件（用于分開具有不同特性的記錄），葉子節(jié)點表示一個分類。

2、貝葉斯：貝葉斯（Bayes）分類算法是一類利用概率統(tǒng)計知識進行分類的算法，如樸素貝葉斯（Naive Bayes）算法。這些算法主要利用Bayes定理來預測一個未知類別的樣本屬于各個類別的可能性，選擇其中可能性最大的一個類別作為該樣本的最終類別。由于貝葉斯定理的成立本身需要一個很強的條件獨立性假設前提，而此假設在實際情況中經(jīng)常是不成立的，因而其分類準確性就會下降。

3、人工神經(jīng)網(wǎng)絡：人工神經(jīng)網(wǎng)絡（Artificial Neural Networks，ANN）是一種應用類似于大腦神經(jīng)突觸聯(lián)接的結構進行信息處理的數(shù)學模型。在這種模型中，大量的節(jié)點（或稱”神經(jīng)元”，或”單元”）之間相互聯(lián)接構成網(wǎng)絡，即”神經(jīng)網(wǎng)絡”，以達到處理信息的目的。神經(jīng)網(wǎng)絡通常需要進行訓練，訓練的過程就是網(wǎng)絡進行學習的過程。

二、聚類算法有哪些

基于網(wǎng)格的方法(grid-based methods)，這種方法首先將數(shù)據(jù)空間劃分成為有限個單元（cell）的網(wǎng)格結構,所有的處理都是以單個的單元為對象的。代表算法有：STING算法、CLIQUE算法、WAVE-CLUSTER算法。

6、模型算法

基于模型的方法(model-based methods)，基于模型的方法給每一個聚類假定一個模型，然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。通常有兩種嘗試方向：統(tǒng)計的方案和神經(jīng)網(wǎng)絡的方案。

擴展資料：

聚類分析起源于分類學，在古老的分類學中，人們主要依靠經(jīng)驗和專業(yè)知識來實現(xiàn)分類，很少利用數(shù)學工具進行定量的分類。隨著人類科學技術的發(fā)展，對分類的要求越來越高，以致有時僅憑經(jīng)驗和專業(yè)知識難以確切地進行分類，于是人們逐漸地把數(shù)學工具引用到了分類學中，形成了數(shù)值分類學，之后又將多元分析的技術引入到數(shù)值分類學形成了聚類分析。聚類分析內容非常豐富，有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預報法等。

在商業(yè)上，聚類可以幫助市場分析人員從消費者數(shù)據(jù)庫中區(qū)分出不同的消費群體來，并且概括出每一類消費者的消費模式或者說習慣。它作為數(shù)據(jù)挖掘中的一個模塊，可以作為一個單獨的工具以發(fā)現(xiàn)數(shù)據(jù)庫中分布的一些深層的信息，并且概括出每一類的特點，或者把注意力放在某一個特定的類上以作進一步的分析；并且，聚類分析也可以作為數(shù)據(jù)挖掘算法中其他分析算法的一個預處理步驟。

參考資料：百度百科-聚類算法

三、聚類算法有哪些分類

聚類算法的分類有：

1、劃分法

劃分法(partitioning methods)，給定一個有N個

5、網(wǎng)格算法

基于網(wǎng)格的方法(grid-based methods)，這種方法首先將數(shù)據(jù)空間劃分成為有限個單元（cell）的網(wǎng)格結構,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優(yōu)點就是處理速度很快，通常這是與目標數(shù)據(jù)庫中記錄的個數(shù)無關的，它只與把數(shù)據(jù)空間分為多少個單元有關。

代表算法有：STING算法、CLIQUE算法、WAVE-CLUSTER算法；

6、模型算法

基于模型的方法(model-based methods)，基于模型的方法給每一個聚類假定一個模型，然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。它的一個潛在的假定就是：目標數(shù)據(jù)集是由一系列的概率分布所決定的。

通常有兩種嘗試方向：統(tǒng)計的方案和神經(jīng)網(wǎng)絡的方案。

擴展資料：

聚類算法的要求：

1、可伸縮性

許多聚類算法在小于 200 個數(shù)據(jù)對象的小數(shù)據(jù)集合上工作得很好；但是，一個大規(guī)模數(shù)據(jù)庫可能包含幾百萬個對象，在這樣的大數(shù)據(jù)集合樣本上進行聚類可能會導致有偏的結果。

我們需要具有高度可伸縮性的聚類算法。

2、不同屬性

許多算法被設計用來聚類數(shù)值類型的數(shù)據(jù)。但是，應用可能要求聚類其他類型的數(shù)據(jù)，如二元類型(binary)，分類/標稱類型（categorical/nominal），序數(shù)型（ordinal）數(shù)據(jù)，或者這些數(shù)據(jù)類型的混合。

3、任意形狀

許多聚類算法基于歐幾里得或者曼哈頓距離度量來決定聚類?；谶@樣的距離度量的算法趨向于發(fā)現(xiàn)具有相近尺度和密度的球狀簇。但是，一個簇可能是任意形狀的。提出能發(fā)現(xiàn)任意形狀簇的算法是很重要的。

4、領域最小化

許多聚類算法在聚類分析中要求用戶輸入一定的參數(shù)，例如希望產(chǎn)生的簇的數(shù)目。聚類結果對于輸入?yún)?shù)十分敏感。參數(shù)通常很難確定，特別是對于包含高維對象的數(shù)據(jù)集來說。這樣不僅加重了用戶的負擔，也使得聚類的質量難以控制。

5、處理“噪聲”

絕大多數(shù)現(xiàn)實中的數(shù)據(jù)庫都包含了孤立點，缺失，或者錯誤的數(shù)據(jù)。一些聚類算法對于這樣的數(shù)據(jù)敏感，可能導致低質量的聚類結果。

6、記錄順序

一些聚類算法對于輸入數(shù)據(jù)的順序是敏感的。例如，同一個數(shù)據(jù)集合，當以不同的順序交給同一個算法時，可能生成差別很大的聚類結果。開發(fā)對數(shù)據(jù)輸入順序不敏感的算法具有重要的意義。

參考資料：百度百科-聚類算法

四、金融風控AI—評分卡模型算法(1)

辦理過信用卡的朋友知道，開卡需要先申請（篩選好壞用戶），可能還會根據(jù)你的信用情況會有不同的額度。這就是銀行的信用風險計量體系。對于信用卡有4類評分卡：

1）申請評分卡（A卡）

2）行為評分卡（B卡）

3）催收評分卡（C卡）

4）欺詐評分卡（F卡）

這些評分卡算法一樣，只是訓練的數(shù)據(jù)不同，所用的參數(shù)也就不同。

螞蟻金服的芝麻信用也是這樣的。

模型的開發(fā)主要包含以下幾大部分工作：數(shù)據(jù)獲取、數(shù)據(jù)預處理、探索分析、特征選擇、模型訓練、模型評估、建立評分系統(tǒng)。

本項目數(shù)據(jù)來源于kaggle競賽 Give Me Some Credit 。有訓練數(shù)據(jù)共計15萬條。

打開數(shù)據(jù)文件大概這個樣子：

字段描述如下

這部分主要做2個事情：缺失值處理和異常值處理。

pd的describe()函數(shù)，可以了解數(shù)據(jù)集的缺失值情況。

打開DataDescribe.csv

我們可以看大部分數(shù)據(jù)有15萬條，其中月收入只有12萬條，缺了近3萬條，家屬數(shù)量14.6萬條。

對于缺失值，根據(jù)不同的情況我們分類處理：

（1）如果缺失的不多，比如家屬數(shù)量缺失不多，可以直接刪除含有缺失值的樣本。用dropna()

（2）如果缺失較多，不宜直接全部刪除，根據(jù)樣本之間的相似性填補缺失值。比如用平均值

（3）如果缺失較多，不宜直接全部刪除，根據(jù)變量之間的相關關系填補缺失值。比如用隨機森林法填補。

（4）如果缺失巨大，就失去分析意義，可以將整個字段刪除

平均值填補只要一句話：

隨機森林法填補：

調用隨機森林：

異常值是指明顯偏離大多數(shù)抽樣數(shù)據(jù)的數(shù)值，或者直接違背常識的數(shù)據(jù)，比如年齡是負數(shù)。對于違背常識的記錄直接刪除，而對于其他異常數(shù)據(jù)需要具體分析：

具體采用哪種方式其實最好都試一下，看看最后得到的模型怎么樣。因為所有這些操作都是有假設條件的，而你的數(shù)據(jù)是否滿足這些條件，試過才知道。

從圖看有異常值不少，不過一般只把異常的0值去掉。

對于RevolvingUtilizationOfUnsecuredLines及DebtRatio都是百分數(shù)類型。其中第一項肯定不能大于100%而且統(tǒng)計一下這部分異常數(shù)據(jù)不多，果斷刪掉。第二項債務百分比不敢確定是否可債務大于100%，統(tǒng)計了一下有3w多條，而且取出來看了一下不是很特別，同樣可以試一下刪除或者放入不管或者填充看看最后不同的效果。

這3個逾期不還次數(shù)指標意義相似放一起看，發(fā)現(xiàn)有2個數(shù)據(jù)特別顯眼，是96，98。雖然按箱型圖的含義所有圓圈都是異常值，但仔細分析這三個指標發(fā)現(xiàn)正常值絕大部分是0，這就導致了箱型圖的1/4線和3/4線都是0，所以我們通常把頭頂2個值作為異常值。我把這部分異常值取出來發(fā)現(xiàn)數(shù)量不多，只有200多條，理論上可以直接刪除或者放在里面置之不理。但是我看了這部分數(shù)據(jù)發(fā)現(xiàn)非常異常。這208條數(shù)據(jù)有125條是違約用戶，違約占比62%，而全量數(shù)據(jù)里面違約占比7%不到，所以我覺得應該把這部分數(shù)據(jù)作為一條規(guī)則來處理，遇到這三個指標有超過90的數(shù)值，直接報告警。那么是否可以把這部分數(shù)據(jù)留著置之不理呢，后面我試了，發(fā)現(xiàn)會對變量之間的相關性有很大影響（后面會詳細講）。

同樣這個指標我們把50以上作為異常值。

這個指標pass

月收入可以去掉特別高的數(shù)據(jù)

家庭成員可以剔除特別高的

第一篇完

以上就是關于模型算法有哪些相關問題的回答。希望能幫到你，如有更多相關問題，您也可以聯(lián)系我們的客服進行咨詢，客服也會為您講解更多精彩的知識和內容。