我是從其他網站刮的數據,我經常處理如下的情況:如何處理重複數據的抓取?
EntityA
IdEntityB
IdEntityC
EntityB
IdEntityD
IdEntityE
上述實體中的每一個都有自己的網頁,我想插入那些到SQL數據庫。但是,我報廢物品的順序不是最佳的。到目前爲止,我的解決方案(不涉及外鍵或任何類型的映射)一直是廢除EntityA
的頁面,請查找與其對應的EntityB
的頁面的鏈接,並安排該頁面被刪除。同時,全部刮落的實體被扔在一個箱子裏,然後我將其插入到數據庫中。出於性能方面的考慮,我一直等到有大約2000個實體被迫將所有實體推入數據庫。天真的做法是隻插入沒有唯一身份的每個身份,但這意味着我將不得不使用一些其他(非數字)較低質量的信息來引用系統上的每個實體。當我無法一起刮除所有實體時,如何保證數據庫中有乾淨的數據?這是使用Python和Scrapy框架。
你的意思是刮/刮?報廢扔掉,或擺脫:)「我們報廢了該項目,因爲它的成本太高」 – rofls
@rofls oops!修復它 –
乾淨的數據是什麼意思?你能解釋一下嗎??你是否意味着像你這樣的裁員可能會把同一個頁面兩次或者兩次都報廢。 –