如何從下載的網頁中提取信息？

-2

我必須從成千上萬個網頁中按系統順序提取大學名稱，聯繫電話，電子郵件ID等信息。有沒有腳本可以做到這一點？如何從下載的網頁中提取信息？

完整場景：我使用wget下載了包含各個學院信息的網頁。每個大學約有5000個關於他們的信息的網頁，但是我只對他們的名字，電子郵件ID，網站和聯繫號碼感興趣。我需要將提取的信息按系統順序保存在合適的文件中。如何提取信息？我怎樣才能使用grep來做到這一點？有沒有更好的方法來做到這一點？哪些腳本可用於提取信息？ PS：我使用Ubuntu和Kali linux。我是一個新手。需要專家的幫助。

來源

2014-11-23 Faiz

看看python和BeautifulSoup – 2014-11-23 21:28:08

我假設你有一個目錄，「CD」來表示所有文件：

grep -i -e "Name" -e "email" -e "http" ./*

和完善，當你看到結果。這將寫入你的屏幕，最後添加後：

>> my_collected_things.txt

把它變成文件。

來源

2014-11-23 14:49:14 ajaaskel

它不起作用。它給出來自http源文件的輸出和所有對我無用的內容。我是網頁開發和python的初學者。我試着用beautifulSoup和機械化工作，但不能寫一個能完成工作的腳本。 – Faiz 2014-12-13 10:19:44

如何從下載的網頁中提取信息？

回答

相關問題