我知道這個問題可能比它看起來更簡單,但在閱讀大量材料後,我感到非常困惑。因此,我已經下載了一個維基百科轉儲(這一個是精確的:enwiktionary-20151002-pages-articles-multistream.xml.bz2 - 這應該包含所有英文維基詞典的文章)。我想要的是通過標題獲取特定文章的內容(與在維基百科中搜索它的方式相同)。從維基百科獲取文章XML轉儲 - 通過標題
注:我不想要HTML(由維基百科產生)。我想要「真實」的內容,就像你在維基百科中「編輯」任何文章時看到的一樣。
幾句話:
- 搜索的標題,例如文章「書」
- 獲取內容
我應該如何着手呢?
P.S.我不是在尋找一種語言特定的解決方案。我只需要一些關於如何處理這個問題的想法。
不熟悉維基百科轉儲語法,你可以發佈一個樣本或鏈接到文檔 – Steve
隨着差不多12k代表你應該知道這些問題屬於**「主要基於意見的」**類別 –
我會開始通過解壓'bz2'文件,因爲似乎沒有辦法以壓縮格式處理它 – RiggsFolly