2016-01-21 60 views
0

我有從多個PCAP文件獲取的請求的數據集,並已將這些PCAP文件加載到R.每個PCAP文件有效地引用單個觀察(行)。令牌化SQL注入字符串

在這個數據集中有一個「請求」列,它給出了一個關於源請求的字符串。例如,請求可能會顯示爲:

http://111.22.33.1/ilove/usingR/extraextra/sqli/?id='or1=1-- 

我想標記每個請求字符串以便在其上運行一些機器學習算法。對這些字符串進行標記的最好方法是什麼,以便對其進行一些分析?我知道存在諸如tm這樣的軟件包,但對它們沒有什麼經驗。

+0

看一下'urltools'包,如果解析工具有任何不足,請讓我知道您需要增強哪些內容。 – hrbrmstr

+0

你能給出更實際的輸入和輸出嗎? –

回答

0

我擔心你首先要檢查你的請求變量並找到相似的模式來幫助你找到規則來標記你的變量。

然後你可以使用str_split/模式。如果您將幻影號碼保留在字符串中,某些模型可能會在您的請求中找到您的共現模式。

然後對ip地址和文本做一些分析,如頻率檢查。

tm更適用於文本語料庫。在這裏,因爲它是「自動化」創建的字符串,所以您可能首先會使用更經典的方法找到一些有用的信息。