在KDD99 data set,一個巨大的連接第32和33功能的值的數量比100功能在KDD99數據集中的值是錯誤的?
我不明白爲什麼用100個連接的connection window
可以得到一個值,該值大於100的原因還大嗎?我諮詢了很多信息,但一無所獲。
在KDD99 data set,一個巨大的連接第32和33功能的值的數量比100功能在KDD99數據集中的值是錯誤的?
我不明白爲什麼用100個連接的connection window
可以得到一個值,該值大於100的原因還大嗎?我諮詢了很多信息,但一無所獲。
數據集包含每個連接的41 features。
這些功能獲得了預處理TCP轉儲文件。
爲此,TCP轉儲文件中的數據包信息彙總爲連接。具體而言(http://kdd.ics.uci.edu/databases/kddcup99/task.html):
的連接是TCP的數據包的起始,並在一些公 結束定義的時間序列,它們之間的數據從一個源IP地址在一些明確定義的協議流至目標 IP地址。
有些功能(所謂的基於時間的流量特徵)分2秒的時間窗口來計算。
其他功能(基於主機的流量功能)使用在多個連接(本例中爲100)上估計的歷史窗口。
基於主機的功能對跨越間隔長於2秒的攻擊有用。
2秒和100連接是有些隨意的值。
這兩類功能的值沒有上限(例如,在2秒間隔內連接到同一主機的 數目可能大於100)。
相同「應該是」真爲:
32. | dst host count | count of connections having the same destination host
33. | dst host srv count | count of connections having the same
destination host and using the same service
的問題是,有沒有文件,說明KDD的細節特徵提取。主要參考是:
A Framework for Constructing Features and Models for Intrusion Detection Systems - 文科LEE/SALVATORE J. STOLFO
從中明顯,bro-ids tools使用:
使用兄弟作爲分組過濾和重新組裝發動機。我們擴展了Bro以處理ICMP數據包,並對其數據包片段檢測模塊進行了更改,因爲它在處理包含Teardrop或Ping-of-Death攻擊的數據時崩潰。我們使用Bro「連接已完成」事件處理程序爲每個連接輸出彙總記錄。
和
在兄弟的事件處理程序,我們補充說檢查交互式TCP連接(例如,遠程登錄,FTP,SMTP等)的數據交換的功能。這些功能將值分配給一組「內容」功能,以指示數據內容是否提示可疑行爲。
但這還不夠。
dst host count
和dst host srv count
都在[0,255]
範圍內。
的AI-IDS/kdd99_feature_extractor項目在Github上可以提取原始數據的第32和33功能(看看在stats*.cpp
文件),但:
有些功能可能無法精確計算同樣的方法,KDD
#2相關的問題是:
非常感謝您爲您詳細解答,但我仍然有一個問題。在我看來,獲得第32和第33個特徵值的方法是檢查當前連接之間的100個連接,然後如果一個連接合格,該特徵的值將加1.但是,通過這種方式,我們不能得到一個大於100的值。 – tjhy01
我修改了我的答案。您可以從「AI-IDS/kdd99_feature_extractor」項目開始 – manlio
非常感謝您的回答,我很受啓發 – tjhy01