回答

0

數據集包含每個連接的41 features

這些功能獲得了預處理TCP轉儲文件。

爲此,TCP轉儲文件中的數據包信息彙總爲連接。具體而言(http://kdd.ics.uci.edu/databases/kddcup99/task.html):

的連接是TCP的數據包的起始,並在一些公 結束定義的時間序列,它們之間的數據從一個源IP地址在一些明確定義的協議流至目標 IP地址。

有些功能(所謂的基於時間的流量特徵)分2秒的時間窗口來計算。

其他功能(基於主機的流量功能)使用在多個連接(本例中爲100)上估計的歷史窗口。

基於主機的功能對跨越間隔長於2秒的攻擊有用。

2秒和100連接是有些隨意的值。

這兩類功能的值沒有上限(例如,在2秒間隔內連接到同一主機的 數目可能大於100)。

相同「應該是」真爲:

32. | dst host count | count of connections having the same destination host 



33. | dst host srv count | count of connections having the same 
          destination host and using the same service 

的問題是,有沒有文件,說明KDD的細節特徵提取。主要參考是:

A Framework for Constructing Features and Models for Intrusion Detection Systems - 文科LEE/SALVATORE J. STOLFO

從中明顯,bro-ids tools使用:

使用兄弟作爲分組過濾和重新組裝發動機

。我們擴展了Bro以處理ICMP數據包,並對其數據包片段檢測模塊進行了更改,因爲它在處理包含Teardrop或Ping-of-Death攻擊的數據時崩潰。我們使用Bro「連接已完成」事件處理程序爲每個連接輸出彙總記錄。

在兄弟的事件處理程序,我們補充說檢查交互式TCP連接(例如,遠程登錄,FTP,SMTP等)的數據交換的功能。這些功能將值分配給一組「內容」功能,以指示數據內容是否提示可疑行爲。

但這還不夠。

dst host countdst host srv count都在[0,255]範圍內。

AI-IDS/kdd99_feature_extractor項目在Github上可以提取原始數據的第32和33功能(看看在stats*.cpp文件),但:

有些功能可能無法精確計算同樣的方法,KDD

#2相關的問題是:

+0

非常感謝您爲您詳細解答,但我仍然有一個問題。在我看來,獲得第32和第33個特徵值的方法是檢查當前連接之間的100個連接,然後如果一個連接合格,該特徵的值將加1.但是,通過這種方式,我們不能得到一個大於100的值。 – tjhy01

+0

我修改了我的答案。您可以從「AI-IDS/kdd99_feature_extractor」項目開始 – manlio

+0

非常感謝您的回答,我很受啓發 – tjhy01