2017-02-04 37 views
0

我以前在大學學習Java時只有3個月的短期課程(唯一的項目是編寫Sudoku遊戲)。scrape價格>列表>提醒我

我想了解一種最常用的通用自動化任務的編程語言。到目前爲止,我已經選擇了AHK,它幫助我瞭解了很多文本擴展/應用程序快捷方式等等。

想進一步推進並完成以下,例如:

1去這個網站:https://carousell.com/search/products/?query=12-35mm

2刮包含「松下」,「12-35mm」 所有數據(威爾這些結果的每一頁都難以獲取?)

3價格列的搜索結果。如果價格是誤導(如$ 1或低於$ X 4的值),搜索項目描述中價值(「$)。在Excel

5比較最新的測試結果,以平均價格

4 Tabluate結果。

6如果最新的價格比平均價格低>通過電子郵件通知我。

我大部分的自動化項目將是類似的東西。什麼是最好的編程語言,這是支付教程,可以引導我做到這一點嗎?

我已經縮小到Import.IO和Python;但我可能是錯的。

本課程似乎很有用,但我不確定是否會教我完成這個個人項目所需的一切。

https://www.udemy.com/automate/

請指教,謝謝!

+0

搜索結果中的項目具有相同的html結構。這簡化了刮削過程。我相信您可以使用R或Python完成拼寫,價格比較和自動郵件。看來這個課程將涵蓋最重要的部分就是抓取。 –

+0

我不確定它是否允許根據他們的服務條款。他們禁止某種形式的自動抓取,可能其意圖是禁止所有的刮蹭行爲。自從LinkedIn去年起訴人們刮鬍子以來,小心翼翼地進行了仔細研究。閱讀ToS/T&C應該是你在決定刮東西時做的第一件事。 – hrbrmstr

+0

@hrbrmstr這取決於你住的地方。一些國家擁有領先於LinkedIn的ToS/T&C的法律。但對於實際的編程而言,很難適應現場的每一項變化。 –

回答

1

Python很適合這些網頁的抓取和處理。你需要爲你的工作提供幾個模塊:

通過HTTP(S)獲取頁面:由於你想抓取的頁面沒有使用Javascript輸出你需要的信息,我建議偉大的requests就足夠了。

解析HTML並提取信息:這裏有很多選擇,我個人最喜歡的是BeautifulSoup。如果你想深入挖掘,有一個question about this

將結果保存到Excel中:幾個模塊將再次完成這項工作,我最喜歡的是openpyxl。如果你不需要保存非常大的文件,這應該會很好。

價格比較:您可以將價格與您的腳本進行比較,該表格就像「數據庫」一樣工作。

電子郵件:您可以發送電子郵件與Python standard library。這是一個fine tutorial如何做到這一點..


沒有嘗試寫劇本,如果您需要任何特定階段的提示,請與特定的代碼,這不是爲特定部分工作回來然後我們可以幫助你。

+0

是否有1個特別的付費教程,可以從地面教我Python?我可能需要從頭開始學習,甚至鏈接的教程對我目前的水平來說都有點複雜。 Udemy教程足夠用於這個目的嗎? – curiousnotepad