互聯網流量分類

最近，我一直在閱讀一些關於互聯網流量分類的論文，特別是使用機器學習算法。互聯網流量分類

我打算研究它，我想在本學期的機器學習課程中提出有關Internet流量分類的項目概念。

我的第一步是收集包含3-4個客戶端的本地網絡上的數據。我正在使用wireshark工具來嗅探數據包。

我的下一步是從wireshark數據包中提取TCP流。在這一步，我試圖在Linux上使用tcpflow。 tcpflow爲每個流創建不同的文件。在這裏，文件的內容大多是二進制的，我無法弄清楚如何從這些文件中提取鑑別符。

有人可以給我一個想法或分享他/她的經驗，我如何解釋tcpflow文件？聽到你的建議我會非常高興。

在此先感謝。

2013-03-02 John David

下面是功能的一些想法，你可以從TCP流中提取：

爲了獲得更好的特徵提取，您可能需要查看一些協議（HTTP，DNS等）的細節，而不僅僅是TCP流。我認爲wireshark已經這樣做了，那麼爲什麼不重用他們的庫功能呢？

您也可能想要看看intrusion detection systems（IDS）的設計，因爲它們幾乎與流量做同樣的事情並試圖將其分類爲良性或惡意。

2013-03-03 00:05:31

回答