我目前正在嘗試抓取格式相當差的HTML網站(經常缺少結束標籤,不使用類或ID,因此很難直接訪問所需的元素等等)。 )。我一直在使用BeautifulSoup並取得了一些成功,但每過一段時間(雖然很少),我都遇到了BeautifulSoup創建HTML樹的頁面,與Firefox或Webkit有點不同。雖然這是可以理解的,因爲HTML的格式不明確,如果我能夠獲得與Firefox或Webkit產生的相同的分析樹,我將能夠更輕鬆地解析事情。 這些問題通常類似於網站打開<b>
標記兩次,當BeautifulSoup看到第二個<b>
標記時,它會立即關閉第一個標記,而Firefox和Webkit嵌套<b>
標記。使用Python進行網頁抓取
是否有Python的網頁抓取庫(甚至任何其他語言(我越來越絕望)),可以重現由Firefox或WebKit生成的解析樹(或者至少在不明確的情況下比BeautifulSoup更接近) 。
爲什麼不使用WebKit的本身? Webkit是開源的。是的,需要一點時間才能習慣。 – 2010-03-07 18:12:28
你有沒有告訴beautifulsoup組?他們可能對像你這樣的角落很感興趣http://groups.google.com/group/beautifulsoup – 2010-03-07 21:31:27
問了好多次...... – 2010-03-08 00:54:10