我必須從成千上萬個網頁中按系統順序提取大學名稱,聯繫電話,電子郵件ID等信息。有沒有腳本可以做到這一點?如何從下載的網頁中提取信息?
完整場景:我使用wget下載了包含各個學院信息的網頁。每個大學約有5000個關於他們的信息的網頁,但是我只對他們的名字,電子郵件ID,網站和聯繫號碼感興趣。我需要將提取的信息按系統順序保存在合適的文件中。 如何提取信息?我怎樣才能使用grep來做到這一點?有沒有更好的方法來做到這一點?哪些腳本可用於提取信息? PS:我使用Ubuntu和Kali linux。我是一個新手。需要專家的幫助。
看看python和BeautifulSoup – 2014-11-23 21:28:08