2016-12-05 73 views
0

我即將使用小批量kmeans,因爲我有一個巨大的數據集是正確的,我每次使用partial_fit我輸入數據集?我正在使用它讓我們說每100個數據集是學習累積的聚類中心還是覆蓋舊的數據集?我有點困惑與部分適合scikit-learn中的minibatch kmeans是否使用部分擬合增量式學習?

+1

您確定您的進程受處理器限制,而不受I/O限制嗎? 25%的CPU使用率表示單個內核的使用情況。如果你最大化核心,你會看到100%的使用率。 – theorifice

回答

1

25%意味着它只使用一個核心25%?所以,你甚至不用第一個地方使用單核。所以在這種情況下,你應該調查你的過程可能受其他某些東西如磁盤I/O的約束,並嘗試優化它。我認爲在python中沒有像'真正的多線程',你受限於GIL(全局解釋器鎖),所以python不能使用多核心(多核),因爲python不能使用多核感。你可能能夠在python中使用多核,通過在python中敲打一些外部程序(支持真正的多線程)。

你也可以考慮使用Python的go instad。 go vs python

相關問題