我正在尋找大數據問題的最佳解決方案。我一直在想一會兒,很高興聽到你的意見。在大型數據庫表中標記重複記錄的最快方法
我有一個MySQL數據庫,其中包含大約5.000.000條記錄,每天加載並更改(新記錄和更改記錄)。
該表中有一些重複的記錄,我希望每天都有記錄。
表中有20列。我想查找在表格的4列中具有相同數據的重複記錄。
另外,我發現重複我需要通過每個重複記錄循環更新我的搜索功能,並更新表中它是複製到其他產品的記錄。
我想盡可能少使用mysql資源,並儘可能快地創建腳本。
現在我有以下查詢,但它是真的慢:
SELECT GROUP_CONCAT(id SEPARATOR '|') as ids,
GROUP_CONCAT(stock SEPARATOR '|') as stock
FROM table
GROUP BY column1, column2, column3, column4
HAVING count(id) > 1;
我可以把指標上的列,但我認爲它仍然會無法運行此查詢慢。
我很好奇你的願景。
請參閱http://meta.stackoverflow.com/questions/333952/why-should-i-provide-an-mcve-for-what-seems-to-me-to-be-a-very-simple- sql-query如果點可以在5或6中有效傳達,我們不需要看到20列 – Strawberry