我想檢索段落包含單詞從一個網站。問題我不知道有多少單詞後,所以我需要迭代它。遍歷單詞儘可能多re.search python
import urllib.request
import re
url = "http://www.cnn.com"
request = urllib.request.Request(url)
html_content = urllib.request.urlopen(request)
mystring=html_content.read().decode('utf-8')
m = re.search('CNN\s\w+\s\w+\s\w+\s\w+\s\w+\s\w+\s\w+\s(\w+)',mystring)
print (m.group(0))
在這個例子中
我從韓國CNN的任意不等階關鍵字的新聞,例如我想獲得的所有段落,直到第一個句號(。),或者可以說punctutaion標誌。
不知道你在問什麼.. –
添加更多描述到你的問題。 –
用示例嘗試... –