我需要創建PDF的內容。創建PDF的內容
Q
創建PDF的內容
-2
A
回答
0
您可以使用collections.Counter
跟蹤字數。我將使用正則表達式來捕獲頁面上的所有單詞,將每個單詞添加到計數器,然後轉到下一頁。您可以爲每個單詞同時保留查找索引,然後過濾常用單詞(counter[word] > threshold
),或者可以再次運行文檔,僅構建常用單詞的索引。
a)這將會有點慢 b)你必須處理像'a','','和'等單詞,以確保這些不被計數。
1
如果你所有的文本都是Python中的字符串(我假設你是因爲你的相關文章而做的),那麼你可以使用Python的Natural Language Toolkit。你可以下載它from here。
實施例:
import nltk, re, pprint
from nltk import FreqDist
tokens = nltk.word_tokenize(pdf_text)
text = nltk.Text(tokens)
fdist = FreqDist(text)
vocabulary = fdist.keys()
print vocabulary[:50] # Print the 50 most common words
1
使用
pdftotext
(隨xpdf
)轉儲PDF文件到一個文本文件。您可以使用subprocess.call
通過Python腳本來調用它。使用
collections.Counter.most_common
或ntlk
找到最常用的詞:import collections keywords = collections.Counter(open(<...>).read()).most_common(20)
相關問題
- 1. iOS - 從HTML內容創建多頁PDF
- 2. 從RecyclerView完整內容創建PDF?
- 3. Joomla 3.0+從HTML內容創建PDF
- 4. PDF內容不足以重建PDF?
- 5. 防止用dompdf創建的pdf中複製內容
- 6. 使用iTextSharp在創建的PDF中不顯示任何內容?
- 7. 輸出PDF文件的內容,而無需創建文件
- 8. 用數據庫中的內容創建PDF文件
- 9. 創建內容塊?
- 10. 創建輸出的內容
- 11. 發送Html內容到服務器創建PDF Angular 2
- 12. 如何使用eclipse在pdf中創建波斯語內容
- 13. iText5:創建PDF時,標題內容將出現兩次
- 14. 如何在android中創建PDF並添加內容usnig iText庫...?
- 15. 如何從PDF創建可重排內容?
- 16. 創建PDF應用程式內的iPad
- 17. JavaFX - IText - 創建PDF時創建PDF
- 18. PDF內容和SEO
- 19. 從PApplet內容創建BufferedImage
- 20. ViewBinder創建隨機內容
- 21. 創建2sxc內容模板
- 22. 創建文本內容(JavaScript)
- 23. 動態創建DOM內容
- 24. SQL創建基於內容
- 25. 在drupal7中創建內容
- 26. 動態創建SCORM內容
- 27. 創建腳本PDF創建
- 28. jsPDF:查看PDF的內容
- 29. Php顯示內容的pdf
- 30. Pdf創建建議
對我來說,這仍然看起來像http://stackoverflow.com/questions/6822884/how-do-i-index-pdf-files-and-search-for-keywords的副本。它有什麼不同? – katrielalex