我想找到一種方法來獲取所有傳入鏈接到維基百科頁面(從維基百科內的其他頁面)的錨文本。我已經閱讀了一些已經完成了這些信息實驗的論文(例如http://web2py.iiit.ac.in/research_centres/publications/download/inproceedings.pdf.809e1550d80bca59.4d756c7469446f635f53756d6d6172697a6174696f6e5f46696e616c2e706466.pdf) ,但他們似乎沒有解釋他們如何獲得這些信息。我知道有一種資源叫做YAGO,它提供了鏈接到相關頁面的維基百科頁面,但似乎沒有提供錨文本。任何人都可以提出一種獲取這些信息的方式嗎獲取Wikipedia錨文本
1
A
回答
0
0
更詳細的信息,你可以做的是:
- 下載維基百科從https://dumps.wikimedia.org/enwiki/轉儲文件。選擇
latest
,然後選擇enwiki-latest-pages-articles.xml.bz2 - 清理維基百科轉儲文件https://github.com/attardi/wikiextractor。使用標記
l, --links
保留鏈接
現在,您已經清除了包含錨文本的純文本維基百科純文本。使用任何編程語言,您可以解析這些文件並提取錨文本。
相關問題
- 1. 在MQL中獲取Wikipedia ID
- 2. 使用javascript獲取錨標記文本
- 3. 如何使用DomDocument獲取錨文本?
- 4. 從錨標記獲取文本
- 5. 獲取文本寫在錨標記
- 6. 如何獲取Wikipedia文章的所有XML修訂版本?
- 7. 獲取隨機Wikipedia提取與Ajax
- 8. 獲取錨父
- 9. php Wikipedia API JSON獲取頁面ID
- 10. Wikipedia API:按時間表獲取修訂
- 11. 提取錨文本週圍的文字
- 12. 如何獲取維基百科頁面的HTML內容文本(通過Wikipedia API)?
- 13. jQuery獲取錨值
- 14. 使用NSScanner獲取Wikipedia文章摘要問題
- 15. 如何獲取指定類別的wikipedia文章列表?
- 16. 使用Python從Wikipedia html中提取文本
- 17. 獲取ckeditor文檔中的錨點
- 18. 如何獲取錨點DOMElement的值/文本?
- 19. Xpath表達式獲取href。不只是錨文本
- 20. PHP preg_replace鏈接獲取href和錨文本並連接它
- 21. 如何通過錨文本獲取對象?
- 22. 從RSS中提取的錨文本
- 23. 錨文本註釋
- 24. 旋轉錨文本?
- 25. 獲取錨索引/散列
- 26. 使用jQuery獲取錨值
- 27. 從父錨獲取href HtmlUnit
- 28. preg_replace帶錨文本的href錨點
- 29. 獲取文本
- 30. 獲取文本值
也許他們已經簡單地下載了轉儲並解析了文件以提取鏈接。 – Bergi 2014-10-03 01:01:35
你可以(並且在這種情況下**應該**)總是問作者。他們的聯繫信息在論文中。也許他們甚至會給你發送他們的數據! – Bergi 2014-10-03 01:10:10