我在我的SQLite數據庫中有一列10k個URI。我想確定哪些URI是同一網站的子域名。在SQL列中查找類似條目並按頻率排列
例如,對於給定的一組...
1. daiquiri.rum.cu
2. mojito.rum.cu
3. cubalibre.rum.cu
4. americano.campari.it
5. negroni.campari.it
6. hemingway.com
...我想運行一個返回查詢:
Website | Occurrences
----------------------------
rum.cu | 3
campari.it | 2
hemingway.com | 1
也就是說,域名/模式,被匹配,按數據庫中發現的次數排名。
我將使用的啓發式是:對於具有3個以上域的每個URI,用'%'替換第一個域並執行僞查詢:COUNT(來自網站的uris,其中uris LIKE'%.remainderofmyuri')。
請注意,我並不在乎執行速度(事實上根本不在乎)。條目數在10k-100k的範圍內。
rum.com從哪裏來?這是rum.cu的錯字嗎? (或者反過來。) –
是的!感謝您的評論。 – bsuire