2014-11-23 69 views
-2

我必須從成千上萬個網頁中按系統順序提取大學名稱,聯繫電話,電子郵件ID等信息。有沒有腳本可以做到這一點?如何從下載的網頁中提取信息?

完整場景:我使用wget下載了包含各個學院信息的網頁。每個大學約有5000個關於他們的信息的網頁,但是我只對他們的名字,電子郵件ID,網站和聯繫號碼感興趣。我需要將提取的信息按系統順序保存在合適的文件中。 如何提取信息?我怎樣才能使用grep來做到這一點?有沒有更好的方法來做到這一點?哪些腳本可用於提取信息? PS:我使用Ubuntu和Kali linux。我是一個新手。需要專家的幫助。

+0

看看python和BeautifulSoup – 2014-11-23 21:28:08

回答

0

我假設你有一個目錄,「CD」來表示所有文件:

grep -i -e "Name" -e "email" -e "http" ./* 

和完善,當你看到結果。這將寫入你的屏幕,最後添加後:

>> my_collected_things.txt 

把它變成文件。

+0

它不起作用。 它給出來自http源文件的輸出和所有對我無用的內容。 我是網頁開發和python的初學者。我試着用beautifulSoup和機械化工作,但不能寫一個能完成工作的腳本。 – Faiz 2014-12-13 10:19:44