2011-05-07 170 views

回答

10

沒有辦法從維基百科API獲取「只是文本」。您可以下載頁面的HTML(如果您通過index.php而不是api.php執行此操作,請使用action=render來避免下載所有皮膚內容)或wikitext(您可以通過API或將action=raw傳遞給的index.php);你將不得不自己解析它,刪除你不想保留的位。

在HTML輸出中,MediaWiki通常很適合將類添加到您可能想要過濾的各種界面元素;由用戶創建的模板等可能不那麼重要(例如hack for table sorting只是將一些文本放在display:none範圍內,沒有類)。

要通過API獲取wiki文本,請使用prop=revisions。要獲取呈現的HTML,請使用action=parse

+0

好的,但我也得到維基百科建議在頁面頂部。像這樣「這篇文章需要額外的引文進行驗證。」 ....如何獲得「只是文本」?不是第三個庫或API服務? – Leonardo 2011-05-08 12:11:50

+0

@Leonardo:沒有API服務;我不知道任何第三方庫。在這種情況下,您可以從wikitext中去除模板{{refimprove}},也可以從HTML源代碼中去除任何類別爲「metadata」的東西。 – Anomie 2011-05-08 12:27:20

相關問題