創建PDF的內容

-2

我需要創建PDF的內容。創建PDF的內容

2011-08-05 Flow Rocks

對我來說，這仍然看起來像http://stackoverflow.com/questions/6822884/how-do-i-index-pdf-files-and-search-for-keywords的副本。它有什麼不同？ – katrielalex

您可以使用collections.Counter跟蹤字數。我將使用正則表達式來捕獲頁面上的所有單詞，將每個單詞添加到計數器，然後轉到下一頁。您可以爲每個單詞同時保留查找索引，然後過濾常用單詞（counter[word] > threshold），或者可以再次運行文檔，僅構建常用單詞的索引。

a）這將會有點慢 b）你必須處理像'a'，''，'和'等單詞，以確保這些不被計數。

來源

2011-08-05 10:16:12

如果你所有的文本都是Python中的字符串（我假設你是因爲你的相關文章而做的），那麼你可以使用Python的Natural Language Toolkit。你可以下載它from here。

實施例：

import nltk, re, pprint 
from nltk import FreqDist 

tokens = nltk.word_tokenize(pdf_text) 
text = nltk.Text(tokens) 
fdist = FreqDist(text) 
vocabulary = fdist.keys() 

print vocabulary[:50] # Print the 50 most common words

有關的基礎知識的更多信息檢查出Book的Chapter 1。

來源

2011-08-05 10:17:11 betamax

它是包含PDF文本的變量 - 作爲字符串。 – betamax

您需要在循環之前創建'pdf_text'變量，然後遍歷PDF頁面並將每個頁面附加到'pdf_text'，就像'pdf_text + = text'一樣。 – betamax

是的 - 如果'pdf_text'包含PDF中的文本，上面的代碼將起作用。 – betamax

使用pdftotext（隨xpdf）轉儲PDF文件到一個文本文件。您可以使用subprocess.call通過Python腳本來調用它。

使用collections.Counter.most_common或ntlk找到最常用的詞：

import collections 
keywords = collections.Counter(open(<...>).read()).most_common(20)

見this question。

來源

2011-08-05 10:59:29 katrielalex

創建PDF的內容

回答

相關問題