我期待在我正在編寫的程序中進行一些文本分析。我正在尋找類似於維基百科轉儲(download.wikimedia.com)中提供的原始形式的替代文本來源。我在哪裏可以找到網絡上的原始文本轉儲?
我寧願沒有經過爬行網站的麻煩,試圖解析HTML,提取文本等。
我期待在我正在編寫的程序中進行一些文本分析。我正在尋找類似於維基百科轉儲(download.wikimedia.com)中提供的原始形式的替代文本來源。我在哪裏可以找到網絡上的原始文本轉儲?
我寧願沒有經過爬行網站的麻煩,試圖解析HTML,提取文本等。
的gutenberg project有各種格式(包括純文本)
NLTK提供了一個簡單的Python API來訪問many text corpora,包括古騰堡,路透社,莎士比亞和其他電子書的鉅額資金。
>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
+1我來到這裏後PG。 – Joe 2010-08-02 13:49:43