我目前正在製作一個網絡爬蟲來抓取視頻遊戲網站上的所有可能的字符(最終幻想XIV洛德石)。使用文本搜索查找所有可能結果的算法
我這樣做的界面是使用網站的搜索。 http://lodestone.finalfantasyxiv.com/rc/search/characterForm
如果搜索發現超過1000個字符,它只返回前1000.文本搜索似乎不理解*,?要麼 _。
如果搜索字母a,我將獲取所有在其名稱中包含a的字符,而不是以a開頭的所有字符。
我猜我能爲所有的字符組合AA,AB,BA等,做搜索,但並不能保證我:
- 我將永遠不會超過1000個結果
- 它看起來效率不高,因爲很多角色會出現多次,需要過濾掉。
我正在尋找如何構建我的搜索文本的算法。
請注意,如果他們認爲自己是數據挖掘,他們可能會禁止您的IP http://support.jp.square-enix.com/rule.php?id=902&la=1&tag=useragreement_e http://support.jp.square-enix .com/rule.php?id = 902&la = 1&tag = playerssite – blizpasta 2010-11-23 13:21:47
好的謝謝你的提示。我會確定與他們聯繫。這是一個非常有趣的項目,到目前爲止我有一個爆炸,但我會在繼續之前與他們聯繫。 – Gilles 2010-11-23 13:52:59
更新:在通過電子郵件進行了多次嘗試通信之後,我甚至從未收到過自動回覆。因爲這個事實,我決定取消這個項目。 – Gilles 2011-03-24 15:54:00