2012-03-14 95 views
0

我想編碼一些算法或解析器應該在谷歌搜索結果中獲取網站位置。這個問題是每次谷歌頁面佈局會改變我應該改正/改變算法。你認爲傢伙會如何經常改變?有沒有關於確定Google的網站位置的技巧/建議/技巧?獲取谷歌搜索結果的網站位置

如何製作穩健的位置檢測算法?

我想用C#,.NET 2.0和HtmlAgilityPack用於這一目的。任何意見或建議將非常感激。在此先感謝,夥計們!


之後的更新

我知道,谷歌將顯示的驗證碼,以防止機器查詢。我得到了特別的服務,這將承認任何驗證碼。你們能否告訴我你們在精確刮擦結果方面的經驗?

回答

1

asked about this一年前,得到了一些很好的答案。絕對是敏捷包是要走的路。

最後我們確實編寫了一個粗略的刮板,做了這項工作,沒有任何問題跑。我們比較輕鬆地點擊Google(每天約25條查詢)。我們採取了隨機預防措施1)順序和2)一天的時間和3)查詢之間的時間暫停。我不知道是否有任何幫助,但我們從未被驗證碼擊中。

現在我們暫時不打擾它了。

它的主要弱點是/是:

  • 我們只費心去檢查的第一頁(我們也許可以有編碼,從而看了第一X頁的增強版,但也許這將是一個更高風險 - 就谷歌檢測而言)。

  • 其結果是不可靠的,並跳動。你可能每週都會獲得第八名,除非你是第三名的隨機日。也許 ...仔細採取每天或每週的閱讀和記錄我們的排名整體思路是太有缺陷的

要獲得關於谷歌打破你的代碼的問題:谷歌沒有在我們運行的所有月份做出根本性重大更改但它們改變了這打破了我們保存結果(可能是CSS變更?)的「快照」,它沒有提高結果的可信度。

+0

非常感謝您的體驗! – kseen 2012-03-14 15:56:17

2

谷歌提供的APIs過多訪問他們的服務。搜索有Custom Search API

+2

這是以合法的方式做到這一點的唯一方法。然而結果是有用的,很少準確。 – LiamB 2012-03-14 12:30:51

+0

@皮諾我同意你的觀點。 – kseen 2012-03-14 12:53:28

+1

API中是否存在明確禁止您進行自動查詢的T&C? – hawbsl 2012-03-14 15:05:57

-1

我敢肯定,您不會輕易訪問Google搜索結果。他們一直試圖阻止人們這樣做。

如果想過屏幕抓取 - 要知道,他們將開始顯示的驗證碼,你將無法得到任何東西。

+0

如果您downvote,您也可以添加評論,並解釋原因 – 2012-04-13 10:25:44

1

幾個月前我們經歷了這個過程。我們嘗試了上面提到的API,結果甚至不接近實際的搜索結果。 (Google提供了大量信息)。

刮的頁面是一個問題,谷歌似乎改變標記每隔幾個月,也有檢查,在地方工作,如果你是人還是沒有。

我們最終放棄了與試劑盒市售(而且經常更新)位的人去。

+0

它是什麼工具包? – kseen 2012-03-14 12:54:43

1

我已經編碼了幾個項目,解析有機結果和adwords結果。 HTML敏捷包肯定是要走的路。

我每隔3分鐘運行一次查詢,我認爲這從來沒有觸發過CAPTCHA。

關於格式變化,我正在接受UL的ID(從這裏回憶),並且只在一年左右才改變一次(有機和adwords)。

雖然如上所述,谷歌並不喜歡你這樣做! :-)