解析網站的linux腳本（url）

-4

因此，有這個網站顯示最受歡迎的網站。我正在嘗試編寫一個腳本，其中包含兩個參數：第一個是html文件，第二個是文本文件。所有的網站網址應到第二個參數，所以在最後的文本文件應包含的東西，如：解析網站的linux腳本（url）

http://www.website1.com/ 
http://www.website2.com/ 
...

如果我說

cat argument1.html

這樣的東西印：

<a href="http://babelfish.altavista.com/babelfish/trurl_pagecontent?lp=en_nl&url=http%3A%2F%2Fwww.100bestwebsites.org%2F"><img src="Holland.gif" height="33" width="50"><br>DUTCH</a></font></div></td> 
    <td width="10%"> 
    <div align="center"><font face="Arial, Helvetica, sans-serif" size="2"><a href="http://babelfish.altavista.com/babelfish/trurl_pagecontent?lp=en_el&url=http%3A%2F%2Fwww.100bestwebsites.org%2F"><img src="Greece.gif" height="33" width="50"><br>GREEK</a></font></div></td>

所以你們可以看到有一堆字符，但在中間的某個地方實際上是網站。我需要使用grep和sed。

任何幫助表示讚賞。我知道grep和sed的基礎知識，但它只是基礎知識是不夠的。

來源

2015-10-21 Haz

要使用sed的是這樣一個痛苦的屁股，你就是最好做到這一點使用python/perl/ruby ...其他任何東西。特別是因爲你可能在同一行中有多個

我認爲[這是一個適當的參考]（http://stackoverflow.com/a/1732454/1270789）你正在嘗試做什麼。我認爲，用''nokogiri''或'perl''''''''''''''''''''''''更好，而不是使用'grep'和'sed'來合適的HTML DOM解析器。 –

哈哈哈@ KenY-N - 我能說什麼，偉大的思想都一樣;） –

在這裏你去那麼：

cat argument1.html | grep -o '<a href=['"'"'"][^"'"'"']*['"'"'"]' | sed -e 's/^<a href=["'"'"']//' -e 's/["'"'"']$//'

或

cat argument1.html | grep -o '<a .*href=.*>' | sed -e 's/<a/\n<a/g' | sed -e 's/<a .*href=['"'"'"]//' -e 's/["'"'"'].*$//' -e '/^$/ d'

信用：Easiest way to extract the urls from an html page using sed or awk only

來源

2015-10-21 02:16:57

您能向我解釋一下嗎？ – Haz

解釋正則表達式？我沒有寫這個，當我寫了2個小時後的正則表達式時，我忘記了它的作用！我知道它的發現 s（第一grep），然後我迷路了#truth我通常用'python'來做這件事需要我<5分鐘，我不必使用正則表達式 –

@Haz。如果你正在爲學校做作業，而你現在有工作代碼，那麼你應該自己動手解剖代碼，以便理解它。取出管道的前兩個部分並剪切/粘貼到命令行上。看看輸出，直到你理解了（在從你的類中查詢你的sed文檔之後）發生了什麼，然後添加另一部分管道，並觀察輸出中的變化與已添加的代碼的匹配情況。重複，直到你可以通過你的班級的期末考試！祝你好運。 – shellter

解析網站的linux腳本（url）

回答

相關問題