我在查找有關用於分析文件路徑名稱的工具,方法和技術的信息。我不是在談論文件大小,讀取/寫入時間或文件類型,而是分析自己的路徑或URL。文件路徑名稱或URL分析
我只知道基本的詞頻文本工具或方法,但我想知道是否有更先進的東西用於/應用於此嘗試並從中挖掘出額外的信息。
謝謝!
更新:
這是我想要的最狹窄的例子。好了,我有一些全路徑名作爲這樣的字符串:
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File1.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File2.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File3.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File4.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File5.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File1.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File2.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File3.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File4.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File5.doc
我想知道的是,出現在文件夾MapShedMaps「唯一」的2倍。如果我在弦上做頻率,我會得到10次出場。問題是我不知道這個目錄中的哪個級別是重要的,所以我希望根據我所描述的內容在目錄的每個級別有一個唯一的計數。
你能不能給你想要從URL來收集信息的類型的例子嗎?您可能會嘗試查找用於檢查URI信息的工具。 URL實際上是URI的一個子集,可能會限制你從那裏的工具。如果你有興趣,這傢伙會解釋一下。 http://www.bernzilla.com/item.php?id=100 – Ccorock
當然,理想情況下,我希望看到高頻名稱與其父目錄之間的關係。所以說大量的路徑以「成本模型」結束,我想知道是否有一個父級結構中的一個參與者會表明所使用的「成本模型」名稱的高比例。 – Steve
你有嘗試工作的首選語言嗎?或者你只是尋找實現這一目標的通用手段? – Ccorock