2016-09-06 82 views
0

我正在嘗試解析python中的pdf並將報價提取到字符串中。我能夠在引文中提取文本,但我也想在報價開始前提取名稱。 例如: 考慮這個在報價之前提取字符串

Ziblatt,Daniel。 「重新思考聯邦制的起源:19世紀歐洲的謎題,理論和證據」,

我能夠提取一切引文,但我想要提取名稱。 這是我使用的代碼..請幫助

def quotes(x): 
    quoted = re.compile('"[^"]*"') 
    for value in quoted.findall(x): 
     print value 

回答

1

捕獲數據的雙引號前應該工作:

def quotes(x): 
    quoted = re.compile('(.+)"[^"]+"') 
    for value in quoted.findall(x): 
     print value.strip() 

我得到這個輸出中:

>>> quotes(text) 
'Ziblatt, Daniel. 2004.'