2010-08-02 45 views
5

我期待在我正在編寫的程序中進行一些文本分析。我正在尋找類似於維基百科轉儲(download.wikimedia.com)中提供的原始形式的替代文本來源。我在哪裏可以找到網絡上的原始文本轉儲?

我寧願沒有經過爬行網站的麻煩,試圖解析HTML,提取文本等。

回答

7

你在找什麼樣的文字?

有許多免費的電子書(小說和非小說類).txt格式可在Project Gutenberg

他們也有large DVD images書籍可供下載。

+0

+1我來到這裏後PG。 – Joe 2010-08-02 13:49:43

3

NLTK提供了一個簡單的Python API來訪問many text corpora,包括古騰堡,路透社,莎士比亞和其他電子書的鉅額資金。

>>> from nltk.corpus import brown 
>>> brown.words() 
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...] 
相關問題