網絡爬蟲類型程序 - 維基度分離

我得到了一個有趣的小項目靈感來自今日的xkcd工具提示。基本上，前提是對於任何維基百科文章，如果您一次又一次地遵循第一個鏈接（不在括號內或斜體內），最終您將看到哲學文章。網絡爬蟲類型程序 - 維基度分離

我正在嘗試編寫一個基本上隨機選擇一個維基百科頁面的程序（可能使用http://en.wikipedia.org/wiki/Special:Random網址），然後確定頁面來自哲學的「深度」。

我用C語言（我最熟悉的語言）打開了一個程序，爲了讓計劃順利並迅速實現，除了兩個「次要」（又名重要位）問題之外，我知道如何去做大部分工作：

char *grab_first_link(page, int n){ 
    //return url of 1st link not in italics or inside parentheses 
} 

void get_random_page{ 
    //go to http://en.wikipedia.org/wiki/Special:Random 
    //wait 2 seconds 
    //return the URL generated by the random page 
}

所以基本上我正在尋找一個圖書館，可以幫助簡單的HTML頁面。以及如何根據上述規則獲得正確鏈接的一些提示。

（還 - 我肯定有一百萬+ 1的方式來更有效地做到這一點/容易，我只是好奇，如果我能得到這一切/大都用C完成）

感謝您的幫助，提示，鏈接或點在正確的方向。

來源

2011-05-26 tomatosource

感謝編輯我永遠無法得到的代碼標記工作... – tomatosource 2011-05-27 01:46:50