如何使用正則表達式提取URL中的引號

我有一個文本，這是一個損壞的sqlite 3數據庫，它有很多網址，大多都是引號。在不丟失URL的任何部分的情況下提取它們的最佳方式是什麼？如何使用正則表達式提取URL中的引號

鏈接包含所有類型的字符，該鏈接的50％都來自與100個字符的搜索引擎等

該文本文件是損壞的SQLite 3數據庫。

「URL」：「http://www.bing.com/search?q=test」

2015-12-15 rudolph

如果您在UNIX，下面應該這樣做

strings sqllite.txt | grep '\"http[^\"]*"' | tr '"' '\n' | grep 'http' | sort | uniq > extracted_urls.txt

哪裏sqllite是數據庫文件。剛剛在RHEL上進行了測試。排序和uniq只是刪除重複的URL。

編輯：新的表達方式忽略網站圖標文件

strings sqllite.txt | grep '\"url\":\"http[^\"]*"' | tr ',' '\n' | grep '\"url\":\"http' | tr '"' '\n' | grep 'http' | sort | uniq > extracted_urls.txt

來源

2015-12-15 01:51:55

我在Windows英寸但是這可以在Cygwin上工作嗎？ – rudolph

@rudolphd我這麼認爲，但我現在無法測試它。如果失敗，可能需要進行語法調整。 –

剛剛測試過，它沒有工作，運行後沒有任何顯示。我檢查了文件夾，它是正確的，因爲它不顯示「沒有這樣的文件或目錄」。 – rudolph

如何使用正則表達式提取URL中的引號

回答

相關問題