1
我有一個文本,這是一個損壞的sqlite 3數據庫,它有很多網址,大多都是引號。在不丟失URL的任何部分的情況下提取它們的最佳方式是什麼?如何使用正則表達式提取URL中的引號
鏈接包含所有類型的字符,該鏈接的50%都來自與100個字符的搜索引擎等
該文本文件是損壞的SQLite 3數據庫。
「URL」: 「http://www.bing.com/search?q=test」
我有一個文本,這是一個損壞的sqlite 3數據庫,它有很多網址,大多都是引號。在不丟失URL的任何部分的情況下提取它們的最佳方式是什麼?如何使用正則表達式提取URL中的引號
鏈接包含所有類型的字符,該鏈接的50%都來自與100個字符的搜索引擎等
該文本文件是損壞的SQLite 3數據庫。
「URL」: 「http://www.bing.com/search?q=test」
如果您在UNIX,下面應該這樣做
strings sqllite.txt | grep '\"http[^\"]*"' | tr '"' '\n' | grep 'http' | sort | uniq > extracted_urls.txt
哪裏sqllite是數據庫文件。剛剛在RHEL上進行了測試。排序和uniq只是刪除重複的URL。
編輯:新的表達方式忽略網站圖標文件
strings sqllite.txt | grep '\"url\":\"http[^\"]*"' | tr ',' '\n' | grep '\"url\":\"http' | tr '"' '\n' | grep 'http' | sort | uniq > extracted_urls.txt
我在Windows英寸但是這可以在Cygwin上工作嗎? – rudolph
@rudolphd我這麼認爲,但我現在無法測試它。如果失敗,可能需要進行語法調整。 –
剛剛測試過,它沒有工作,運行後沒有任何顯示。我檢查了文件夾,它是正確的,因爲它不顯示「沒有這樣的文件或目錄」。 – rudolph