用大寫字母匹配單詞上的正則表達式多行文本中的正則表達式

我颳了幾篇文章並將其收集到一個文本文件中。從這些文章中，我想提取全部使用大寫的話：用大寫字母匹配單詞上的正則表達式多行文本中的正則表達式

這是收集物品的一個樣本：

"|[<p>Advertisement , By Milan Schreur and  Alissa J. Rubin OCT. 5, 2016 
, BRUSSELS — A man wounded two police officers with a knife in Brussels around noon on Wednesday in what the authorities called 「a potential terrorist attack.」 , ....]"

我想提取什麼是所有那些大寫輸入的單詞鎖，在這種情況下，單詞「布魯塞爾」，但在文件中還有更多。所以我想提取所有完全由大寫字母組成的單詞。

我試着像這樣的東西：

import re 

text_open = open("Training_News_6.csv") 
text_read = text_open.read() 
articles = text_read.split("<p>") 
pattern = re.findall("\s[A-Z]{4,}\s",'\n'.join(articles)) 
print(pattern)

來源

2016-11-23 M.Huntz

're.findall'接受字符串或類似字節的對象，並向它傳遞一個列表！ – Kasramvd

'articles'是一個列表。要傳遞一個字符串，只需再次使用換行符：'pattern = re.findall（「[\ S \ s] + [AZ] {3，}」，'\ n'.join（articles））' –

你完全想要世界「Alissa J. Rubin」嗎？ – Kasramvd

articles是一個列表，你做text_read.split後。 re.findall正在等待一個字符串。

來源

2016-11-23 21:33:59

用大寫字母匹配單詞上的正則表達式多行文本中的正則表達式

回答

相關問題