因此,有這個網站顯示最受歡迎的網站。我正在嘗試編寫一個腳本,其中包含兩個參數:第一個是html文件,第二個是文本文件。所有的網站網址應到第二個參數,所以在最後的文本文件應包含的東西,如:解析網站的linux腳本(url)
http://www.website1.com/
http://www.website2.com/
...
如果我說
cat argument1.html
這樣的東西印:
<a href="http://babelfish.altavista.com/babelfish/trurl_pagecontent?lp=en_nl&url=http%3A%2F%2Fwww.100bestwebsites.org%2F"><img src="Holland.gif" height="33" width="50"><br>DUTCH</a></font></div></td>
<td width="10%">
<div align="center"><font face="Arial, Helvetica, sans-serif" size="2"><a href="http://babelfish.altavista.com/babelfish/trurl_pagecontent?lp=en_el&url=http%3A%2F%2Fwww.100bestwebsites.org%2F"><img src="Greece.gif" height="33" width="50"><br>GREEK</a></font></div></td>
所以你們可以看到有一堆字符,但在中間的某個地方實際上是網站。我需要使用grep和sed。
任何幫助表示讚賞。我知道grep和sed的基礎知識,但它只是基礎知識是不夠的。
要使用sed的是這樣一個痛苦的屁股,你就是最好做到這一點使用python/perl/ruby ...其他任何東西。特別是因爲你可能在同一行中有多個
我認爲[這是一個適當的參考](http://stackoverflow.com/a/1732454/1270789)你正在嘗試做什麼。我認爲,用''nokogiri''或'perl''''''''''''''''''''''''更好,而不是使用'grep'和'sed'來合適的HTML DOM解析器。 –
哈哈哈@ KenY-N - 我能說什麼,偉大的思想都一樣;) –