2013-03-02 68 views
0

最近,我一直在閱讀一些關於互聯網流量分類的論文,特別是使用機器學習算法。互聯網流量分類

我打算研究它,我想在本學期的機器學習課程中提出有關Internet流量分類的項目概念。

我的第一步是收集包含3-4個客戶端的本地網絡上的數據。我正在使用wireshark工具來嗅探數據包。

我的下一步是從wireshark數據包中提取TCP流。在這一步,我試圖在Linux上使用tcpflow。 tcpflow爲每個流創建不同的文件。在這裏,文件的內容大多是二進制的,我無法弄清楚如何從這些文件中提取鑑別符。

有人可以給我一個想法或分享他/她的經驗,我如何解釋tcpflow文件?聽到你的建議我會非常高興。

在此先感謝。

回答

2

下面是功能的一些想法,你可以從TCP流中提取:

  • 端口/協議(大多數協議通常是在服務器上使用相同的端口)
  • 包頻率和大小(短命令包或數據的長流)
  • TCP連接階段
  • 流錯誤/重傳
  • 流量控制消息和速率限制

爲了獲得更好的特徵提取,您可能需要查看一些協議(HTTP,DNS等)的細節,而不僅僅是TCP流。我認爲wireshark已經這樣做了,那麼爲什麼不重用他們的庫功能呢?

您也可能想要看看intrusion detection systems(IDS)的設計,因爲它們幾乎與流量做同樣的事情並試圖將其分類爲良性或惡意。