2017-02-16 74 views
0

我已成功地使用維基百科頁面鏈接SQL轉儲獲取特定修訂時間的維基百科頁面之間的超鏈接。兩個Wikipedia頁面之間的鏈接數量

然而,有些情況下存在這樣的鏈接的多個實例,例如,非常相同的https://en.wikipedia.org/wiki/Wikipedia頁面和https://en.wikipedia.org/wiki/Wikimedia_Foundation。我有興趣查找特定修訂版的頁面對之間的鏈接數量。

理想的解決方案將涉及除pagelinks(我不知道)以外的轉儲文件,或使用MediaWiki API。

回答

1

我認爲你最不好的選擇是解析Parsoid輸出;例如請轉至https://en.wikipedia.org/api/rest_v1/page/html/Wikipedia並計算匹配選擇器a[rel="mw:WikiLink"][href="./Wikimedia_Foundation"]的鏈接。

+0

我將不得不做任何兩個維基百科文章之間的每個超鏈接的API調用和解析... – maruscia

+1

你必須,是的。您可以嘗試在[研究列表]上詢問(https://lists.wikimedia.org/pipermail/wiki-research-l/) - 也許有人已經做過並可以分享數據。 – Tgr

+0

謝謝,我遵循你的建議:) – maruscia