2014-10-01 78 views
1

正如標題所說,我一直在努力抓取文章,剩下的只是作者。從文章中提取作者

下面是我的代碼,使用pyquery編譯段落和作者,只有筆者返回目標的空白

網站:http://business.transworld.net/153984/news/surfrider-foundation-names-chad-nelsen-new-ceo/

def extract_text_pyquery(html): 
    p = pq(html) 
    article_whole = p.find(".entry") 
    p_tag = article_whole('p') 
    print len(p_tag) 
    print p_tag 
    for i in range (0, len(p_tag)): 
     text = p_tag.eq(i).text() 
     print text 
    entire = p.find("#main") 
    author = entire.find('a').filter('.author') 
    print 'By:', author 

回答

0

類不是作者,rel是;期間選擇一個班級。您應該改爲過濾'[rel="author"]',方括號可以讓您將非標準標籤歸檔。

+0

謝謝!幾乎已經有了,我想我應該更具體一點,因爲我想獲取沒有附加標籤/功能的名稱。目前,它顯示從頁面源複製的行,然後單獨顯示名稱。我已經按照你的建議輸入了它,然後添加了「for i in range」,這就是結果。 – fsbinesh 2014-10-01 06:01:53

+0

這將是特定於pyquery,但應該有一種方法來訪問一個單獨的標籤值 – ragingSloth 2014-10-01 15:10:41