我有大約3000000個帶有HTML標籤的字符串。我正在嘗試刪除標籤並獲取內容。我按照以下方式添加了代碼。但它花費了很多時間。有什麼辦法可以做並行處理嗎?任何方式我可以加快我的實施?如何加速字符串連接
from HTMLParser import HTMLParser
class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ''.join(self.fed)
def strip_tags(html):
s = MLStripper()
s.feed(html)
return s.get_data()
for each in lis:
if each != None:
each = strip_tags(each)
st+=" "+each.decode('utf-8')
3百萬字符串,即使它們每次只需要0.1毫秒,也很容易總共需要1000秒... – 2015-02-10 06:22:06
上次花了我半個小時。他們是一些大字符串。 300萬是整個地段的樣本。 – user168983 2015-02-10 06:24:42
您需要提供完整的代碼,恐怕問題不會僅在於您如何加入它們,或者說是針對Feed方式的時間測量。 – 2015-02-10 06:26:03