2011-08-31 47 views
10

如果你已經對搜索API進行了認真的研究,你會發現它們中的大多數都有大量的TOS/TOU限制,使得它們幾乎不可能用於除了最常用的應用程序之外的任何其他應用程序。免費/付費搜索API允許對結果數據進行編程式查詢和緩存/存儲?

Bing的2.0 API,Yahoo Search BOSS,Google Places,Google AJAX Search(dead)等等對我們來說太嚴格了。我需要一次只運行一次有限且相對較少的查詢(可能爲500k),存儲結果中的特定數據以供我們的應用程序使用。例如,我們需要將商業名稱與他們的目標網站進行匹配(如果需要,我們已經編寫了從一組結果中做出'最佳猜測'的算法;我們只需要一個vanilla結果集)。另外,我們需要將該地址與該公司相關聯。

不幸的是,我可以找到ZERO搜索API,這將允許我們以編程,非用戶發起的方式觸發查詢。

我們甚至非常渴望讓人們感冒,用現金購買這類數據;谷歌,必應,雅虎和其他人似乎不希望我們的錢(如他們的TOS證明)...

有什麼想法?

+0

大家好!我看到這已經得到了近距離投票。如果有一個SO社區更適合這個問題,請告訴我。我誠實地瀏覽了所有內容,而原始的SO本身似乎是最相關的。謝謝! :) – rinogo

+0

你嘗試過Blekko嗎? 「我可以找到ZERO搜索API,這將允許我們以程序化,非用戶發起的方式發起查詢」是什麼意思?圍繞Google的自定義搜索引擎進行了一次討論,可以搜索整個網絡(添加一個網站並稍後刪除)。您也可以爲自定義搜索引擎購買「積分」,儘管某些用戶在這種情況下也發現了限制。無論如何,我理解你關於當前搜索API的侷限性,而Google是最好的搜索引擎,即使其他人競爭,沒有人擁有更大的索引。 –

+0

非常感謝您的回覆,sw。在您的建議提示下,我查出了Blekko,他們的TOU也是相當嚴格的。 (但是,目前Blekko API有一線希望:http://dev-ops.net/2011/02/02/blekko-search-engine-with-some-nice-features/) Google的CSE不適合我們;我們更喜歡長期的合法解決方案,而不是一個短期的,法律上可疑的補丁。我們有錢,願意分享它! :)爲什麼沒有一個大公司願意適應像我們這樣的合法業務需求的實體? – rinogo

回答

3

一個可自由訪問的索引,包括亞馬遜EC2上託管的50億個網頁,他們的網頁排名,鏈接圖和其他元數據。

http://commoncrawl.org/

他們的服務條款(或TOU)是相當合理的,並無限制太:

http://commoncrawl.org/about/terms-of-use/

+0

沒有多看這個(可能滿足要求,不確定);我想我會將它添加爲評論:http://80legs.com/ – rinogo

0

如果你知道一些的Visual Basic我建議用Bing Ad Intelligence玩耍。這是一個免費的Excel插件,你需要使用它是一個免費的微軟賬戶。

查詢限制爲每個查詢20,000字。您可以獲取有關點擊次數,展示次數,點擊率,每次點擊費用,平均出價和總成本的信息。如果您使用更高級的關鍵字研究功能,則查詢限制稍低。