HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    數(shù)據(jù)集有哪些類型(數(shù)據(jù)集的類型有哪幾類)

    發(fā)布時間:2023-04-19 04:55:59     稿源: 創(chuàng)意嶺    閱讀: 52        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于數(shù)據(jù)集有哪些類型的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    數(shù)據(jù)集有哪些類型(數(shù)據(jù)集的類型有哪幾類)

    一、DataTable和DataSet有什么區(qū)別

    datatable表示數(shù)據(jù)表,dataset是數(shù)據(jù)集。

    一、數(shù)據(jù)表。

    表是用來存儲數(shù)據(jù)的基本對象,它是數(shù)據(jù)庫的資源中心,是數(shù)據(jù)庫最基本的組件。數(shù)據(jù)庫中的每個表都包含有關(guān)某個主題的信息。在導(dǎo)航窗格中,在表對象上雙擊就可以打開表。

    表是由列和行組成的二維結(jié)構(gòu)的表格。一列中顯示某種類型的信息,在這列的最上方是列標(biāo)題,描述這列的信息類型,也叫做字段名。在標(biāo)題下面列出的這個類型中具體內(nèi)容的數(shù)據(jù)為字段值。在同一行中的所有字段值構(gòu)成一條記錄。記錄由具體的字段值構(gòu)成,一個記錄就是一條獨(dú)立的信息。

    二、數(shù)據(jù)集。

    數(shù)據(jù)集,就是數(shù)據(jù)的查詢。

    查詢是用來操作數(shù)據(jù)庫中的記錄對象,利用它可以按照預(yù)先定義的不同條件從數(shù)據(jù)表或其它查詢中篩選出需要操作的字段,并可以把它們集中起來,形成動態(tài)數(shù)據(jù)集。用戶可以瀏覽、查詢、打印,甚至修改這個動態(tài)數(shù)據(jù)集中的數(shù)據(jù)。

    通過查詢,可以查找和檢索滿足指定條件的數(shù)據(jù),包括幾個表中的數(shù)據(jù),也可以使用查詢同時更新或刪除幾個記錄,以及對數(shù)據(jù)執(zhí)行預(yù)定義或自定義的計算。

    使用查詢可以回答有關(guān)數(shù)據(jù)的特定問題,而這些問題通過表很難解決??梢允褂貌樵兒Y選數(shù)據(jù)、執(zhí)行數(shù)據(jù)計算和匯總數(shù)據(jù)??梢允褂貌樵冏詣訄?zhí)行許多數(shù)據(jù)管理任務(wù),并在提交數(shù)據(jù)更改之前查看這些更改。

    查詢實際上也就是選取記錄的條件。查詢出來的數(shù)據(jù)也存儲到一個臨時的表中。用于從表中檢索數(shù)據(jù)或者進(jìn)行計算的查詢稱為選擇查詢,用于添加、更改或刪除的查詢叫做操作查詢。

    二、數(shù)據(jù)圖表有哪些類型

    數(shù)據(jù)分析圖表主要類型有柱狀圖,條形圖,折線圖,餅圖,雷達(dá)圖等等。

    柱狀圖利用柱高度反映數(shù)據(jù)差異,肉眼對高度差異很敏感,柱狀圖局限于適用規(guī)模數(shù)據(jù)集中。條形圖可以顯示各項目間比較情況柱狀圖類似作用,每條都清晰表示數(shù)據(jù),很直觀。折線圖適合二維數(shù)據(jù)集適合二維數(shù)據(jù)集比較,容易反應(yīng)數(shù)據(jù)變化趨勢。餅圖可以顯示各項與各項總比例。

    數(shù)據(jù)圖表是一種特殊的數(shù)據(jù)分析技術(shù),側(cè)重于建模和知識發(fā)現(xiàn),用于預(yù)測目的而并非純粹的描述目的,而商業(yè)智能涵蓋了很大程度上依賴于聚合的數(shù)據(jù)分析,主要側(cè)重于商業(yè)信息。

    數(shù)據(jù)集有哪些類型(數(shù)據(jù)集的類型有哪幾類)

    關(guān)于數(shù)據(jù)圖表

    合理的數(shù)據(jù)圖表,會更直觀的反映數(shù)據(jù)間的關(guān)系,比用數(shù)據(jù)和文字描述更清晰、更易懂。將工作表中的數(shù)據(jù)轉(zhuǎn)換成圖表呈現(xiàn),可以幫助我們更好地了解數(shù)據(jù)間的比例關(guān)系及變化趨勢,對研究對象做出合理的推斷和預(yù)測。

    數(shù)據(jù)圖表可以方便地查看數(shù)據(jù)的差異和預(yù)測趨勢,使數(shù)據(jù)比較或數(shù)據(jù)變化趨勢變得一目了然,有助于快速、有效地表達(dá)數(shù)據(jù)關(guān)系。圖表是生成它的工作數(shù)據(jù)相鏈接的。

    三、如何識別并輸出數(shù)據(jù)集中所有變量的類型

    1、打開數(shù)據(jù)集,并給一個唯一的序號來標(biāo)識數(shù)據(jù)集。

    2、輸出給定變量在數(shù)據(jù)集中的次序。

    3、判斷數(shù)據(jù)集中給定變量的類型。

    4、關(guān)閉數(shù)據(jù)集。

    四、基于網(wǎng)絡(luò)的入侵檢測數(shù)據(jù)集研究

    摘要:標(biāo)記數(shù)據(jù)集是訓(xùn)練和評估基于異常的網(wǎng)絡(luò)入侵檢測系統(tǒng)所必需的。本文對基于網(wǎng)絡(luò)的入侵檢測數(shù)據(jù)集進(jìn)行了重點的文獻(xiàn)綜述,并對基于包和流的底層網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行了詳細(xì)的描述。本文確定了15種不同的屬性來評估單個數(shù)據(jù)集對特定評估場景的適用性。這些屬性涵蓋了廣泛的標(biāo)準(zhǔn),并被分為五類,例如用于提供結(jié)構(gòu)化搜索的數(shù)據(jù)量或記錄環(huán)境。在此基礎(chǔ)上,對現(xiàn)有數(shù)據(jù)集進(jìn)行了全面的綜述。本綜述還強(qiáng)調(diào)了每個數(shù)據(jù)集的特性。此外,本工作還簡要介紹了基于網(wǎng)絡(luò)的數(shù)據(jù)的其他來源,如流量生成器和數(shù)據(jù)存儲庫。最后,我們討論了我們的觀察結(jié)果,并為使用和創(chuàng)建基于網(wǎng)絡(luò)的數(shù)據(jù)集提供了一些建議。

    一、引言

    信息技術(shù)安全是一個重要的問題,入侵和內(nèi)部威脅檢測的研究已經(jīng)投入了大量的精力。在處理與安全相關(guān)的數(shù)據(jù)[1]-[4]、檢測僵尸網(wǎng)絡(luò)[5]-[8]、端口掃描[9]-[12]、蠻力攻擊[13]-[16]等方面已經(jīng)發(fā)表了許多貢獻(xiàn)。所有這些工作的共同點是,它們都需要具有代表性的基于網(wǎng)絡(luò)的數(shù)據(jù)集。此外,基準(zhǔn)數(shù)據(jù)集是評價和比較不同網(wǎng)絡(luò)入侵檢測系統(tǒng)(NIDS)質(zhì)量的良好基礎(chǔ)。給定一個帶標(biāo)簽的數(shù)據(jù)集,其中每個數(shù)據(jù)點都被分配給類normal或attack,可以使用檢測到的攻擊數(shù)量或虛警數(shù)量作為評估標(biāo)準(zhǔn)。

    不幸的是,沒有太多具有代表性的數(shù)據(jù)集。Sommer和Paxson[17](2010)認(rèn)為,缺乏具有代表性的公共可用數(shù)據(jù)集是基于異常的入侵檢測面臨的最大挑戰(zhàn)之一。Malowidzki等人(2015)和Haider等人(2017)也發(fā)表了類似的聲明。然而,社區(qū)正在解決這個問題,因為在過去幾年中已經(jīng)發(fā)布了幾個入侵檢測數(shù)據(jù)集。其中,澳大利亞網(wǎng)絡(luò)安全中心發(fā)布了UNSW-NB15[20]數(shù)據(jù)集,科堡大學(xué)發(fā)布了CIDDS-001[21]數(shù)據(jù)集,新布倫瑞克大學(xué)發(fā)布了CICIDS 2017[22]數(shù)據(jù)集。未來還會有更多數(shù)據(jù)集發(fā)布。然而,現(xiàn)有數(shù)據(jù)集沒有全面的索引,很難跟蹤最新的發(fā)展。

    本文對現(xiàn)有的基于網(wǎng)絡(luò)的入侵檢測數(shù)據(jù)集進(jìn)行了文獻(xiàn)綜述。首先,對底層數(shù)據(jù)進(jìn)行更詳細(xì)的研究?;诰W(wǎng)絡(luò)的數(shù)據(jù)以基于包或基于流的格式出現(xiàn)?;诹鞯臄?shù)據(jù)只包含關(guān)于網(wǎng)絡(luò)連接的元信息,而基于包的數(shù)據(jù)也包含有效負(fù)載。然后,對文獻(xiàn)中常用的評價網(wǎng)絡(luò)數(shù)據(jù)集質(zhì)量的不同數(shù)據(jù)集屬性進(jìn)行了分析和分組。本調(diào)查的主要貢獻(xiàn)是對基于網(wǎng)絡(luò)的數(shù)據(jù)集進(jìn)行了詳盡的文獻(xiàn)綜述,并分析了哪些數(shù)據(jù)集滿足哪些數(shù)據(jù)集屬性。本文重點研究了數(shù)據(jù)集內(nèi)的攻擊場景,并強(qiáng)調(diào)了數(shù)據(jù)集之間的關(guān)系。此外,除了典型的數(shù)據(jù)集之外,我們還簡要介紹了流量生成器和數(shù)據(jù)存儲庫作為網(wǎng)絡(luò)流量的進(jìn)一步來源,并提供了一些觀察和建議。作為主要的好處,本調(diào)查建立了一組數(shù)據(jù)集屬性,作為比較可用數(shù)據(jù)集和確定合適數(shù)據(jù)集的基礎(chǔ),給出了特定的評估場景。此外,我們創(chuàng)建了一個網(wǎng)站1,其中引用了所有提到的數(shù)據(jù)集和數(shù)據(jù)存儲庫,我們打算更新這個網(wǎng)站。

    本文的其余部分組織如下。下一節(jié)將討論相關(guān)工作。第三部分詳細(xì)分析了基于包和流的網(wǎng)絡(luò)數(shù)據(jù)。第四部分討論了文獻(xiàn)中常用來評價入侵檢測數(shù)據(jù)集質(zhì)量的典型數(shù)據(jù)集屬性。第五節(jié)概述了現(xiàn)有的數(shù)據(jù)集,并根據(jù)第四節(jié)確定的屬性檢查每個數(shù)據(jù)集。第六節(jié)簡要介紹了基于網(wǎng)絡(luò)的數(shù)據(jù)的進(jìn)一步來源。在本文件以摘要結(jié)束之前,第七節(jié)討論了意見和建議。

    二、相關(guān)工作

    本節(jié)回顧基于網(wǎng)絡(luò)的入侵檢測數(shù)據(jù)集的相關(guān)工作。需要注意的是,本文沒有考慮基于主機(jī)的入侵檢測數(shù)據(jù)集,比如ADFA[23]。讀者可以在Glass-Vanderlan等人的[24]中找到關(guān)于基于主機(jī)的入侵檢測數(shù)據(jù)的詳細(xì)信息。

    Malowidzki等人[18]將缺失的數(shù)據(jù)集作為入侵檢測的一個重要問題進(jìn)行了討論,對好的數(shù)據(jù)集提出了要求,并列出了可用的數(shù)據(jù)集。Koch等人的[25]提供了入侵檢測數(shù)據(jù)集的另一個概述,分析了13個數(shù)據(jù)源,并根據(jù)8個數(shù)據(jù)集屬性對它們進(jìn)行了評估。Nehinbe[26]為IDS和入侵防御系統(tǒng)(IPS)提供了關(guān)鍵的數(shù)據(jù)集評估。作者研究了來自不同來源的七個數(shù)據(jù)集(如DARPA數(shù)據(jù)集和DEFCON數(shù)據(jù)集),強(qiáng)調(diào)了它們的局限性,并提出了創(chuàng)建更真實數(shù)據(jù)集的方法。由于在過去的四年中發(fā)布了許多數(shù)據(jù)集,我們延續(xù)了2011年到2015年[18],[25],[26]的工作,但提供了比我們的前輩更最新和更詳細(xì)的概述。

    雖然許多數(shù)據(jù)集論文(如CIDDS-002[27]、ISCX[28]或UGR ' 16[29])只對一些入侵檢測數(shù)據(jù)集做了一個簡要的概述,但Sharafaldin等人對[30]提供了更詳盡的綜述。他們的主要貢獻(xiàn)是一個生成入侵檢測數(shù)據(jù)集的新框架。Sharafaldin等人還分析了11個可用的入侵檢測數(shù)據(jù)集,并根據(jù)11個數(shù)據(jù)集屬性對其進(jìn)行了評估。與早期的數(shù)據(jù)集論文相比,我們的工作重點是對現(xiàn)有的基于網(wǎng)絡(luò)的數(shù)據(jù)集提供一個中立的概述,而不是提供一個額外的數(shù)據(jù)集。

    最近的其他論文也涉及到基于網(wǎng)絡(luò)的數(shù)據(jù)集,但主要關(guān)注的焦點有所不同。Bhuyan等人對網(wǎng)絡(luò)異常檢測進(jìn)行了全面的綜述。作者描述了現(xiàn)有的9個數(shù)據(jù)集,并分析了現(xiàn)有異常檢測方法所使用的數(shù)據(jù)集。類似地,Nisioti等人的[32]關(guān)注于用于入侵檢測的無監(jiān)督方法,并簡要參考了現(xiàn)有的12個基于網(wǎng)絡(luò)的數(shù)據(jù)集。Yavanoglu和Aydos[33]分析比較了最常用的入侵檢測數(shù)據(jù)集。然而,他們的審查只包含七個數(shù)據(jù)集,包括其他數(shù)據(jù)集,如HTTP CSIC 2010[34]??偠灾@些作品往往有不同的研究目標(biāo),而且只是接觸對于基于網(wǎng)絡(luò)的數(shù)據(jù)集,則略有不同。

    三、數(shù)據(jù)

    通常,網(wǎng)絡(luò)流量以基于包或基于流的格式捕獲。在包級捕獲網(wǎng)絡(luò)流量通常是通過鏡像網(wǎng)絡(luò)設(shè)備上的端口來完成的?;诎臄?shù)據(jù)包含完整的有效載荷信息。基于流的數(shù)據(jù)更加聚合,通常只包含來自網(wǎng)絡(luò)連接的元數(shù)據(jù)。Wheelus等人通過一個說明性的比較強(qiáng)調(diào)了這一區(qū)別:“捕獲包檢查和NetFlow之間的一個很好的區(qū)別示例是徒步穿越森林,而不是乘坐熱氣球飛越森林”[35]。在這項工作中,引入了第三類(其他數(shù)據(jù))。另一個類別沒有標(biāo)準(zhǔn)格式,并且因每個數(shù)據(jù)集而異。

    A基于分組的數(shù)據(jù)

    基于包的數(shù)據(jù)通常以pcap格式捕獲,并包含有效負(fù)載??捎玫脑獢?shù)據(jù)取決于使用的網(wǎng)絡(luò)和傳輸協(xié)議。有許多不同的協(xié)議,其中最重要的是TCP、UDP、ICMP和IP。圖1顯示出了不同的報頭。TCP是一種可靠的傳輸協(xié)議,它包含諸如序列號、確認(rèn)號、TCP標(biāo)志或校驗和值之類的元數(shù)據(jù)。UDP是一種無連接的傳輸協(xié)議,它的頭比TCP小,TCP只包含四個字段,即源端口、目標(biāo)端口、長度和校驗和。與TCP和UDP相比,ICMP是一個包含狀態(tài)消息的支持協(xié)議,因此更小。通常,在報頭旁邊還有一個可用的IP報頭傳輸協(xié)議的。IP報頭提供源和目標(biāo)IP地址等信息,如圖1所示。

    b .流為基礎(chǔ)數(shù)據(jù)

    基于流的網(wǎng)絡(luò)數(shù)據(jù)是一種更簡潔的格式,主要包含關(guān)于網(wǎng)絡(luò)連接的元信息?;诹鞯臄?shù)據(jù)將所有在時間窗口內(nèi)共享某些屬性的包聚合到一個流中,通常不包含任何有效負(fù)載。默認(rèn)的五元組定義,即,源IP地址、源端口、目標(biāo)IP地址、目標(biāo)端口和傳輸協(xié)議[37],是一種廣泛使用的基于流的數(shù)據(jù)屬性匹配標(biāo)準(zhǔn)。流可以以單向或雙向格式出現(xiàn)。單向格式將主機(jī)A到主機(jī)B之間共享上述屬性的所有包聚合到一個流中。從主機(jī)B到主機(jī)A的所有數(shù)據(jù)包聚合為另一個單向流。相反,一個雙向流總結(jié)了主機(jī)a和主機(jī)B之間的所有數(shù)據(jù)包,不管它們的方向如何。

    典型的基于流的格式有NetFlow[38]、IPFIX[37]、sFlow[39]和OpenFlow[40]。表I概述了基于流的網(wǎng)絡(luò)流量中的典型屬性。根據(jù)特定的流格式和流導(dǎo)出器,可以提取額外的屬性,如每秒字節(jié)數(shù)、每個包的字節(jié)數(shù)、第一個包的TCP標(biāo)志,甚至有效負(fù)載的計算熵。

    此外,可以使用nfdump2或YAF3之類的工具將基于包的數(shù)據(jù)轉(zhuǎn)換為基于流的數(shù)據(jù)(但不是相反)。讀者如果對流導(dǎo)出器之間的差異感興趣,可以在[41]中找到更多細(xì)節(jié),并分析不同的流導(dǎo)出器如何影響僵尸網(wǎng)絡(luò)分類。

    c .其他數(shù)據(jù)

    這個類別包括所有既不是純基于包也不是基于流的數(shù)據(jù)集。這類的一個例子可能是基于流的數(shù)據(jù)集,這些數(shù)據(jù)集已經(jīng)用來自基于包的數(shù)據(jù)或基于主機(jī)的日志文件的附加信息進(jìn)行了豐富。KDD CUP 1999[42]數(shù)據(jù)集就是這一類別的一個著名代表。每個數(shù)據(jù)點都有基于網(wǎng)絡(luò)的屬性,比如傳輸?shù)脑醋止?jié)數(shù)或TCP標(biāo)志的數(shù)量,但是也有基于主機(jī)的屬性,比如失敗登錄的數(shù)量。因此,這個類別的每個數(shù)據(jù)集都有自己的一組屬性。由于每個數(shù)據(jù)集都必須單獨(dú)分析,所以我們不對可用屬性做任何一般性的說明。

    四、數(shù)據(jù)集屬性

    為了能夠比較不同的入侵檢測數(shù)據(jù)集,并幫助研究人員為其特定的評估場景找到合適的數(shù)據(jù)集,有必要將公共屬性定義為評估基礎(chǔ)。因此,我們研究了文獻(xiàn)中用于評估入侵檢測數(shù)據(jù)集的典型數(shù)據(jù)集屬性。一般概念FAIR[43]定義了學(xué)術(shù)數(shù)據(jù)應(yīng)該遵循的四個原則實現(xiàn),即可查找性、可訪問性、互操作性和可重用性。在與這個一般概念相一致的同時,本工作使用更詳細(xì)的數(shù)據(jù)集屬性來提供基于網(wǎng)絡(luò)的入侵檢測數(shù)據(jù)集的重點比較。通常,不同的數(shù)據(jù)集強(qiáng)調(diào)不同的數(shù)據(jù)集屬性。例如,UGR ' 16數(shù)據(jù)集[29]強(qiáng)調(diào)較長的記錄時間來捕捉周期效應(yīng),而ISCX數(shù)據(jù)集[28]強(qiáng)調(diào)精確的標(biāo)記。由于我們的目標(biāo)是研究基于網(wǎng)絡(luò)的入侵檢測數(shù)據(jù)集的更一般的屬性,所以我們試圖統(tǒng)一和概括文獻(xiàn)中使用的屬性,而不是采用所有的屬性。例如,一些方法評估特定類型攻擊的存在,比如DoS(拒絕服務(wù))或瀏覽器注入。某些攻擊類型的存在可能是評估這些特定攻擊類型的檢測方法的相關(guān)屬性,但是對于其他方法沒有意義。因此,我們使用一般的屬性攻擊來描述惡意網(wǎng)絡(luò)流量的存在(見表三)。第五節(jié)提供了關(guān)于數(shù)據(jù)集中不同攻擊類型的更多細(xì)節(jié),并討論了其他特定的屬性。

    我們不像Haider et al.[19]或Sharafaldin et al.[30]那樣開發(fā)評估評分,因為我們不想判斷不同數(shù)據(jù)集屬性的重要性。我們認(rèn)為,某些屬性的重要性取決于具體的評估場景,不應(yīng)該在調(diào)查中普遍判斷。相反,應(yīng)該讓讀者能夠找到適合他們需要的數(shù)據(jù)集。因此,我們將下面討論的數(shù)據(jù)集屬性分為五類,以支持系統(tǒng)搜索。圖2總結(jié)了所有數(shù)據(jù)集屬性及其值范圍。

    A.一般資料

    以下四個屬性反映了關(guān)于數(shù)據(jù)集的一般信息,即創(chuàng)建年份、可用性、正常網(wǎng)絡(luò)流量和惡意網(wǎng)絡(luò)流量的存在。

    1)創(chuàng)建年份:由于網(wǎng)絡(luò)流量受概念漂移影響,每天都會出現(xiàn)新的攻擊場景,因此入侵檢測數(shù)據(jù)集的年齡起著重要作用。此屬性描述創(chuàng)建年份。與數(shù)據(jù)集發(fā)布的年份相比,捕獲數(shù)據(jù)集的底層網(wǎng)絡(luò)流量的年份與數(shù)據(jù)集的最新程度更相關(guān)。

    2)公共可用性:入侵檢測數(shù)據(jù)集應(yīng)公開可用,作為比較不同入侵檢測方法的依據(jù)。此外,數(shù)據(jù)集的質(zhì)量只能由第三方檢查,如果它們是公開可用的。表III包含此屬性的三個不同特征:yes, o.r. (on request)和no。On request是指在向作者或負(fù)責(zé)人發(fā)送消息后授予訪問權(quán)限。

    3)正常用戶行為:此屬性指示數(shù)據(jù)集中正常用戶行為的可用性,并接受yes或no值。值yes表示數(shù)據(jù)集中存在正常的用戶行為,但它不聲明是否存在攻擊。一般來說,入侵檢測系統(tǒng)的質(zhì)量主要取決于其攻擊檢測率和誤報率。此外,正常用戶行為的存在對于評估IDS是必不可少的。然而,缺少正常的用戶行為并不會使數(shù)據(jù)集不可用,而是表明它必須與其他數(shù)據(jù)集或真實世界的網(wǎng)絡(luò)流量合并。這樣的合并步驟通常稱為覆蓋或鹽化[44]、[45]。

    4)攻擊流量:IDS數(shù)據(jù)集應(yīng)包含各種攻擊場景。此屬性指示數(shù)據(jù)集中是否存在惡意網(wǎng)絡(luò)通信,如果數(shù)據(jù)集中至少包含一次攻擊,則該屬性的值為yes。表四提供了關(guān)于特定攻擊類型的附加信息。

    B.數(shù)據(jù)的性質(zhì)

    此類別的屬性描述數(shù)據(jù)集的格式和元信息的存在。

    1)元數(shù)據(jù):第三方很難對基于包和基于流的網(wǎng)絡(luò)流量進(jìn)行內(nèi)容相關(guān)的解釋。因此,數(shù)據(jù)集應(yīng)該與元數(shù)據(jù)一起提供關(guān)于網(wǎng)絡(luò)結(jié)構(gòu)、IP地址、攻擊場景等的附加信息。此屬性指示附加元數(shù)據(jù)的存在。

    2)格式:網(wǎng)絡(luò)入侵檢測數(shù)據(jù)集以不同的格式出現(xiàn)。我們大致將它們分為三種格式(參見第三節(jié))。(1)基于分組的網(wǎng)絡(luò)流量(例如pcap)包含帶負(fù)載的網(wǎng)絡(luò)流量。(2)基于流的網(wǎng)絡(luò)流量(如NetFlow)只包含關(guān)于網(wǎng)絡(luò)連接的元信息。(3)其他類型的數(shù)據(jù)集可能包含基于流的跟蹤,帶有來自基于包的數(shù)據(jù)甚至來自基于主機(jī)的日志文件的附加屬性。

    3)匿名性:由于隱私原因,入侵檢測數(shù)據(jù)集往往不會公開,或者只能以匿名的形式提供。此屬性指示數(shù)據(jù)是否匿名以及哪些屬性受到影響。表III中的none值表示沒有執(zhí)行匿名化。值yes (IPs)表示IP地址要么被匿名化,要么從數(shù)據(jù)集中刪除。同樣,值yes (payload)表示有效負(fù)載信息被匿名化,要么從基于分組的網(wǎng)絡(luò)流量中刪除。

    C.數(shù)據(jù)量

    此類別中的屬性根據(jù)容量和持續(xù)時間描述數(shù)據(jù)集。

    1) Count:屬性Count將數(shù)據(jù)集的大小描述為包含的包/流/點的數(shù)量或物理大小(GB)。

    2)持續(xù)時間:數(shù)據(jù)集應(yīng)涵蓋較長時間內(nèi)的網(wǎng)絡(luò)流量,以捕捉周期性影響(如白天與夜晚或工作日與周末)[29]。屬性持續(xù)時間提供每個數(shù)據(jù)集的記錄時間。

    D.記錄環(huán)境

    此類別中的屬性描述捕獲數(shù)據(jù)集的網(wǎng)絡(luò)環(huán)境和條件。

    1)流量類型:描述網(wǎng)絡(luò)流量的三種可能來源:真實的、模擬的或合成的。Real是指在有效的網(wǎng)絡(luò)環(huán)境中捕獲真實的網(wǎng)絡(luò)流量。仿真的意思是在測試床或仿真網(wǎng)絡(luò)環(huán)境中捕獲真實的網(wǎng)絡(luò)流量。綜合意味著網(wǎng)絡(luò)流量是綜合創(chuàng)建的(例如,通過一個流量生成器),而不是由一個真實的(或虛擬的)網(wǎng)絡(luò)設(shè)備捕獲的。

    2)網(wǎng)絡(luò)類型:中小企業(yè)的網(wǎng)絡(luò)環(huán)境與互聯(lián)網(wǎng)服務(wù)提供商(ISP)有著本質(zhì)的區(qū)別。因此,不同的環(huán)境需要不同的安全系統(tǒng),評估數(shù)據(jù)集應(yīng)該適應(yīng)特定的環(huán)境。此屬性描述創(chuàng)建相應(yīng)數(shù)據(jù)集的基礎(chǔ)網(wǎng)絡(luò)環(huán)境。

    3)完整網(wǎng)絡(luò):該屬性采用Sharafaldin等人的[30],表示數(shù)據(jù)集是否包含來自具有多個主機(jī)、路由器等網(wǎng)絡(luò)環(huán)境的完整網(wǎng)絡(luò)流量。如果數(shù)據(jù)集只包含來自單個主機(jī)(例如蜜罐)的網(wǎng)絡(luò)流量,或者只包含來自網(wǎng)絡(luò)流量的一些協(xié)議(例如獨(dú)占SSH流量),則將值設(shè)置為no。

    E.評價

    以下特性與使用基于網(wǎng)絡(luò)的數(shù)據(jù)集評估入侵檢測方法有關(guān)。更精確地說,這些屬性表示預(yù)定義子集的可用性、數(shù)據(jù)集的平衡和標(biāo)簽的存在。

    1)預(yù)定義的分割:有時,即使在相同的數(shù)據(jù)集上對不同的IDS進(jìn)行評估,也很難對它們的質(zhì)量進(jìn)行比較。在這種情況下,必須明確是否使用相同的子集進(jìn)行訓(xùn)練和評估。如果數(shù)據(jù)集附帶用于訓(xùn)練和評估的預(yù)定義子集,則此屬性提供信息。

    2)均衡:基于異常的入侵檢測通常采用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法。在這些方法的訓(xùn)練階段(例如,決策樹分類器),數(shù)據(jù)集應(yīng)該與其類標(biāo)簽相平衡。因此,數(shù)據(jù)集應(yīng)該包含來自每個類(normal和attack)的相同數(shù)量的數(shù)據(jù)點。然而,真實世界的網(wǎng)絡(luò)流量是不平衡的,它包含了比攻擊流量更多的正常用戶行為。此屬性指示數(shù)據(jù)集是否與其類標(biāo)簽相平衡。在使用數(shù)據(jù)挖掘算法之前,應(yīng)該通過適當(dāng)?shù)念A(yù)處理來平衡不平衡的數(shù)據(jù)集。他和Garcia[46]提供了從不平衡數(shù)據(jù)中學(xué)習(xí)的良好概述。

    3)帶標(biāo)簽:帶標(biāo)簽的數(shù)據(jù)集是訓(xùn)練監(jiān)督方法、評估監(jiān)督和非監(jiān)督入侵檢測方法所必需的。此屬性表示是否標(biāo)記了數(shù)據(jù)集。如果至少有兩個類normal和attack,則將此屬性設(shè)置為yes。此屬性中可能的值為:yes, yes with BG。(yes with background)、yes (IDS)、indirect和no。是的,有背景意味著有第三類背景。屬于類背景的包、流或數(shù)據(jù)點可以是正常的,也可以是攻擊。Yes (IDS)是指使用某種入侵檢測系統(tǒng)來創(chuàng)建數(shù)據(jù)集的標(biāo)簽。數(shù)據(jù)集的一些標(biāo)簽可能是錯誤的,因為IDS可能不完美。間接意味著數(shù)據(jù)集沒有顯式標(biāo)簽,但是可以通過其他日志文件自己創(chuàng)建標(biāo)簽。

    五、數(shù)據(jù)集

    我們認(rèn)為,在搜索足夠的基于網(wǎng)絡(luò)的數(shù)據(jù)集時,標(biāo)記的數(shù)據(jù)集屬性和格式是最決定性的屬性。入侵檢測方法(監(jiān)督的或非監(jiān)督的)決定是否需要標(biāo)簽以及需要哪種類型的數(shù)據(jù)(包、流或其他)。因此,表II提供了關(guān)于這兩個屬性的所有研究的基于網(wǎng)絡(luò)的數(shù)據(jù)集的分類。表三給出了關(guān)于第四節(jié)數(shù)據(jù)集屬性的基于網(wǎng)絡(luò)的入侵檢測數(shù)據(jù)集的更詳細(xì)概述。在搜索基于網(wǎng)絡(luò)的數(shù)據(jù)集時,特定攻擊場景的存在是一個重要方面。因此,表III顯示了攻擊流量的存在,而表IV提供了數(shù)據(jù)集中特定攻擊的詳細(xì)信息。關(guān)于數(shù)據(jù)集的論文描述了不同抽象級別的攻擊。例如,Vasudevan等人在他們的數(shù)據(jù)集中(SSENET- 2011)將攻擊流量描述為:“Nmap、Nessus、Angry IP scanner、Port scanner、Metaploit、Backtrack OS、LOIC等是參與者用來發(fā)起攻擊的一些攻擊工具?!毕啾戎拢琑ing等人在他們的CIDDS-002數(shù)據(jù)集[27]中指定了執(zhí)行端口掃描的數(shù)量和不同類型。因此,攻擊描述的抽象級別可能在表四中有所不同。對所有攻擊類型的詳細(xì)描述超出了本文的范圍。相反,我們推薦感興趣的讀者閱讀Anwar等人的開放存取論文“從入侵檢測到入侵響應(yīng)系統(tǒng):基礎(chǔ)、需求和未來方向”。此外,一些數(shù)據(jù)集是其他數(shù)據(jù)集的修改或組合。圖3顯示了幾個已知數(shù)據(jù)集之間的相互關(guān)系。

    基于網(wǎng)絡(luò)的數(shù)據(jù)集,按字母順序排列

    AWID [49]。AWID是一個公共可用的數(shù)據(jù)集4,主要針對802.11網(wǎng)絡(luò)。它的創(chuàng)建者使用了一個小型網(wǎng)絡(luò)環(huán)境(11個客戶機(jī)),并以基于包的格式捕獲了WLAN流量。在一個小時內(nèi),捕獲了3700萬個數(shù)據(jù)包。從每個數(shù)據(jù)包中提取156個屬性。惡意網(wǎng)絡(luò)流量是通過對802.11網(wǎng)絡(luò)執(zhí)行16次特定攻擊而產(chǎn)生的。AWID被標(biāo)記為一個訓(xùn)練子集和一個測試子集。

    Booters[50]。Booters是罪犯提供的分布式拒絕服務(wù)(DDoS)攻擊。Santanna et. al[50]發(fā)布了一個數(shù)據(jù)集,其中包括九種不同的啟動程序攻擊的跟蹤,這些攻擊針對網(wǎng)絡(luò)環(huán)境中的一個空路由IP地址執(zhí)行。結(jié)果數(shù)據(jù)集以基于分組的格式記錄,包含超過250GB的網(wǎng)絡(luò)流量。單獨(dú)的包沒有標(biāo)記,但是不同的Booters攻擊被分成不同的文件。數(shù)據(jù)集是公開可用的,但是出于隱私原因,booters的名稱是匿名的。

    僵尸網(wǎng)絡(luò)[5]。僵尸網(wǎng)絡(luò)數(shù)據(jù)集是現(xiàn)有數(shù)據(jù)集的組合,可以公開使用。僵尸網(wǎng)絡(luò)的創(chuàng)建者使用了[44]的疊加方法來組合ISOT[57]、ISCX 2012[28]和CTU-13[3]數(shù)據(jù)集的(部分)。結(jié)果數(shù)據(jù)集包含各種僵尸網(wǎng)絡(luò)和正常用戶行為。僵尸網(wǎng)絡(luò)數(shù)據(jù)集被劃分為5.3 GB訓(xùn)練子集和8.5 GB測試子集,都是基于包的格式。

    CIC DoS[51]。CIC DoS是加拿大網(wǎng)絡(luò)安全研究所的一組數(shù)據(jù),可以公開使用。作者的意圖是創(chuàng)建一個帶有應(yīng)用層DoS攻擊的入侵檢測數(shù)據(jù)集。因此,作者在應(yīng)用層上執(zhí)行了8種不同的DoS攻擊。將生成的跟蹤結(jié)果與ISCX 2012[28]數(shù)據(jù)集的無攻擊流量相結(jié)合生成正常的用戶行為。生成的數(shù)據(jù)集是基于分組的格式,包含24小時的網(wǎng)絡(luò)流量。

    CICIDS 2017 [22]。CICIDS 2017是在模擬環(huán)境中歷時5天創(chuàng)建的,包含基于分組和雙向流格式的網(wǎng)絡(luò)流量。對于每個流,作者提取了80多個屬性,并提供了關(guān)于IP地址和攻擊的附加元數(shù)據(jù)。正常的用戶行為是通過腳本執(zhí)行的。數(shù)據(jù)集包含了多種攻擊類型,比如SSH蠻力、heartbleed、僵尸網(wǎng)絡(luò)、DoS、DDoS、web和滲透攻擊。CICIDS 2017是公開可用的。

    cidds - 001 [21]。CIDDS-001數(shù)據(jù)集是在2017年模擬的小型商業(yè)環(huán)境中捕獲的,包含為期四周的基于單向流的網(wǎng)絡(luò)流量,并附帶詳細(xì)的技術(shù)報告和附加信息。該數(shù)據(jù)集的特點是包含了一個在互聯(lián)網(wǎng)上受到攻擊的外部服務(wù)器。與蜜罐不同,來自模擬環(huán)境的客戶機(jī)也經(jīng)常使用此服務(wù)器。正常和惡意的用戶行為是通過在GitHub9上公開可用的python腳本執(zhí)行的。這些腳本允許不斷生成新的數(shù)據(jù)集,并可用于其他研究。CIDDS-001數(shù)據(jù)集是公開可用的,包含SSH蠻力、DoS和端口掃描攻擊,以及從野外捕獲的一些攻擊。

    cidds - 002 [27]。CIDDS-002是基于CIDDS-001腳本創(chuàng)建的端口掃描數(shù)據(jù)集。該數(shù)據(jù)集包含兩個星期的基于單向流的網(wǎng)絡(luò)流量,位于模擬的小型業(yè)務(wù)環(huán)境中。CIDDS-002包含正常的用戶行為以及廣泛的不同端口掃描攻擊。技術(shù)報告提供了關(guān)于外部IP地址匿名化的數(shù)據(jù)集的附加元信息。數(shù)據(jù)集是公開可用的。

    以上就是關(guān)于數(shù)據(jù)集有哪些類型相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    短視頻用戶數(shù)據(jù)分析(短視頻用戶數(shù)據(jù)分析報告)

    農(nóng)村電商的發(fā)展趨勢與未來(農(nóng)村電商的發(fā)展趨勢與未來最新數(shù)據(jù))

    快手小店今日數(shù)據(jù)顯示在主頁(快手小店今日數(shù)據(jù)顯示在主頁怎么辦)

    杭州名吃十大排行榜(杭州有什么特色美食小吃)

    咖啡館排行榜(咖啡館排行榜前十)