我有一個美國國會議員的網站列表,我以編程方式抓取地址。許多網站的底層標記有所不同,但直到我開始看到數百個網站沒有爲我寫的腳本提供預期結果時,這個問題一開始並不成問題。當strip_tags()燒燬乾草堆
在花了一些時間來評估潛在原因後,我發現file_get_contents()
的結果strip_tags()
被多次擦除了頁面的大部分來源!這不僅僅是刪除HTML,而是刪除了我想要刮掉的非HTML!
所以我刪除了電話strip_tags()
,用一個調用來取消所有非字母數字字符,並給該過程另外一次運行。它出現了其他的結果,但仍然缺乏很多。這一次是因爲我的正則表達式不符合所需的模式。查看返回的代碼後,我意識到我在整個文本中散佈了HTML屬性的殘餘部分,打破了我的模式。
有沒有辦法解決?它是HTML格式不正確的結果嗎?我能做些什麼嗎?