不存在的性能 - t-sql查詢

這（爲簡單起見修改）查詢是較大查詢的一部分，並與其他選擇一起加入日期。不過，我已將此部分固定在狗身上。假設我有一個UserLoginHistory表，記錄用戶的每個登錄信息。對於每一個用戶我想他們第一次登錄的日期。（後來在查詢中，我組由LOGDATE得到多少第一次登錄有每一天都是。）不存在的性能 - t-sql查詢

select 
    LogDate, --(this value is only date, no time) 
    UserId 
from 
    UserLoginHistory ul 
where 
    not exists 
     (
      select 
       * 
      from 
       UserLoginHistory ulPrevious 
      where 
       ulPrevious.LogDate < ul.LogDate 
       and ul.UserId = ulPrevious.UserId 
     ) 
group by ul.LogDate, ul.UserId

顯然NOT EXISTS部分是慢的。但我無法弄清楚如何用更有效的方式替代它來完成同樣的工作。

對於小UserLogHistory計數，性能沒有問題。當我達到約15 000時，它開始變慢。也許我應該將每天的結果批量放入另一個表格，但是我希望找到更好的解決方案，因爲應該有一個更好的解決方案...

感謝您的時間！

來源

2013-03-07 cederlof

根據定義，NOT EXISTS必須執行表掃描。調整其性能的關鍵是讓必須掃描的關係儘可能小，理想情況下爲非聚集索引。如果不知道桌面上有什麼指數，就不可能提供更具體的建議。 – 2013-03-07 15:52:03

在大多數情況下，這是'not in'和'left outer join之間'key null'之間最好的方法：[Aaron Bertrand測試了它]（http://www.sqlperformance.com/2012/12/t-sql -queries /左防半聯接）。 – 2013-03-07 15:53:34

性能問題往往是平臺特定的，您使用的數據庫是：SQL Server還是Sybase？你有什麼指標在桌子上？ 15,000行不是很多，所以您的索引似乎可能不是最優的。 – Pondlife 2013-03-07 16:56:20

您可以使用一排編號方法：

select LogDate,UserId from (
    select 
     LogDate, 
     UserId 
     row_number() over (partition by UserId order by LogDate) as rown 
    from 
     UserLoginHistory ul 
) 
where rown = 1

行每個ID被LOGDATE編號，所以最早的一個將永遠編號爲1

注：我不認爲原始查詢中的group by是必要的 - not exists子句應保證您只能獲得UserId和LogDate的唯一組合。

來源

2013-03-07 15:53:52

現在，做了一個世界的差異。 – cederlof 2013-03-08 08:00:05

如果這些是您感興趣的唯一兩個字段，您能否使用簡單的聚合？

SELECT LogDate = MIN(LogDate), 
     UserID 
FROM UserLoginHistory 
GROUP BY UserID;

來源

2013-03-07 16:03:11 GarethD

謝謝，這可能適用於一個簡單的場景，但我選擇了dan1111的答案，因爲它對我來說會更靈活。 – cederlof 2013-03-08 08:02:02

不存在的性能 - t-sql查詢

回答

相關問題