1
正如標題所說,我一直在努力抓取文章,剩下的只是作者。從文章中提取作者
下面是我的代碼,使用pyquery編譯段落和作者,只有筆者返回目標的空白
網站:http://business.transworld.net/153984/news/surfrider-foundation-names-chad-nelsen-new-ceo/
def extract_text_pyquery(html):
p = pq(html)
article_whole = p.find(".entry")
p_tag = article_whole('p')
print len(p_tag)
print p_tag
for i in range (0, len(p_tag)):
text = p_tag.eq(i).text()
print text
entire = p.find("#main")
author = entire.find('a').filter('.author')
print 'By:', author
謝謝!幾乎已經有了,我想我應該更具體一點,因爲我想獲取沒有附加標籤/功能的名稱。目前,它顯示從頁面源複製的行,然後單獨顯示名稱。我已經按照你的建議輸入了它,然後添加了「for i in range」,這就是結果。 – fsbinesh 2014-10-01 06:01:53
這將是特定於pyquery,但應該有一種方法來訪問一個單獨的標籤值 – ragingSloth 2014-10-01 15:10:41