2016-04-28 97 views
1

我已經閱讀了一些其他的計算器答案,並且還沒有找到一個令人滿意的答案,但它之前已被問過。當我嘗試使用PyPDF2來讀取pdf文檔時,它將句子中的所有單詞合併爲一個連續的字符串。有沒有人想出如何避免這種情況。下面是代碼PyPDF2堅持刪除所有空格

import PyPDF2 
import pandas as pd 

import struct as struct 

from nltk import word_tokenize 

pdfFileObj = open("notes.pdf", 'rb') 

    pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 

## reading pages fine 
print(type(pdfReader.numPages)) 

## read in the pages 
pageObj = pdfReader.getPage(0) 

print(pageObj.extractText()) 
以下

被輸出

2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability 
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics. 
3)Datasummarization(graphicalandnumerical) 

4)Probabilityandrandomvariables 

回答