功能在KDD99數據集中的值是錯誤的？

在KDD99 data set，一個巨大的連接第32和33功能的值的數量比100功能在KDD99數據集中的值是錯誤的？

我不明白爲什麼用100個連接的connection window可以得到一個值，該值大於100的原因還大嗎？我諮詢了很多信息，但一無所獲。

來源

2017-09-15 tjhy01

數據集包含每個連接的41 features。

這些功能獲得了預處理TCP轉儲文件。

爲此，TCP轉儲文件中的數據包信息彙總爲連接。具體而言（http://kdd.ics.uci.edu/databases/kddcup99/task.html）：

的連接是TCP的數據包的起始，並在一些公結束定義的時間序列，它們之間的數據從一個源IP地址在一些明確定義的協議流至目標 IP地址。

有些功能（所謂的基於時間的流量特徵）分2秒的時間窗口來計算。

其他功能（基於主機的流量功能）使用在多個連接（本例中爲100）上估計的歷史窗口。

基於主機的功能對跨越間隔長於2秒的攻擊有用。

2秒和100連接是有些隨意的值。

這兩類功能的值沒有上限（例如，在2秒間隔內連接到同一主機的數目可能大於100）。

相同「應該是」真爲：

32. | dst host count | count of connections having the same destination host 



33. | dst host srv count | count of connections having the same 
          destination host and using the same service

的問題是，有沒有文件，說明KDD的細節特徵提取。主要參考是：

A Framework for Constructing Features and Models for Intrusion Detection Systems - 文科LEE/SALVATORE J. STOLFO

從中明顯，bro-ids tools使用：

使用兄弟作爲分組過濾和重新組裝發動機
。我們擴展了Bro以處理ICMP數據包，並對其數據包片段檢測模塊進行了更改，因爲它在處理包含Teardrop或Ping-of-Death攻擊的數據時崩潰。我們使用Bro「連接已完成」事件處理程序爲每個連接輸出彙總記錄。

和

在兄弟的事件處理程序，我們補充說檢查交互式TCP連接（例如，遠程登錄，FTP，SMTP等）的數據交換的功能。這些功能將值分配給一組「內容」功能，以指示數據內容是否提示可疑行爲。

但這還不夠。

dst host count和dst host srv count都在[0,255]範圍內。

的AI-IDS/kdd99_feature_extractor項目在Github上可以提取原始數據的第32和33功能（看看在stats*.cpp文件），但：

有些功能可能無法精確計算同樣的方法，KDD

＃2相關的問題是：

來源

2017-09-15 08:31:04 manlio

非常感謝您爲您詳細解答，但我仍然有一個問題。在我看來，獲得第32和第33個特徵值的方法是檢查當前連接之間的100個連接，然後如果一個連接合格，該特徵的值將加1.但是，通過這種方式，我們不能得到一個大於100的值。 – tjhy01

我修改了我的答案。您可以從「AI-IDS/kdd99_feature_extractor」項目開始 – manlio

非常感謝您的回答，我很受啓發 – tjhy01

功能在KDD99數據集中的值是錯誤的？

回答

相關問題