data-partitioning

-1熱度

1回答

我已經使用：Y = datasample（Data，100，'Replace'，false）用於分離訓練數據NN.Data有150個數據樣本（150 * 5）

請告訴我如何從剩餘的50個數據樣本中提取用於測試受訓NN的'數據'數據集。有沒有其他的方法來分類培訓和測試數據用於分類目的。請幫助我.. 謝謝

1熱度

2回答

我正在從完全基於光標的基礎集合移動一堆代碼並生成這一直在做我的頭。我們創建一個6字符的短代碼（唯一）插入到每個公司數據庫和我（想）在遊標之外實現這一點。的我在迄今爲止其中例子： CREATE TABLE #customers (name VARCHAR(50), shortname VARCHAR(10)) INSERT INTO #customers VALUES ('Michael Sm

1熱度

2回答

U-SQL根據文件中的Distinct值將CSV文件拆分爲多個文件

我在Azure Data Lake Store中有數據，我正在使用U-SQL處理Azure Data Analytic Job中存在的數據。我有包含空間數據的幾個CSV文件，與此類似： File_20170301.csv longtitude| lattitude | date | hour | value1 ----------+-----------+--------------

-2熱度

4回答

如何將整數數組分爲偶數和奇數？

我想分區數組（例如[1,2,3,4,5,6,7,8]），第一個分區應該保持偶數值，第二個奇數值（例如結果：[2,4,6,8,1,3,5,7]）。我設法用內置的Array.prototype方法解決了這個問題兩次。第一種解決方案使用map和sort，僅次於sort。我想作出第三個解決方案，它使用排序算法，但我不知道什麼算法用於分區列表。我正在考慮冒泡排序，但我認爲它在我的第二個解決方案（arra

1熱度

3回答

SQL查詢時，對不符合

我使用SQL Server 2012中，我有以下的樣本數據 Date Type Symbol Price 6/30/1995 gaus 313586U72 109.25 6/30/1995 gbus 313586U72 108.94 6/30/1995 csus NES 34.5 6/30/1995 lcus NES 34.5 6/30/1995 lcus NYN 40.

1熱度

1回答

按文件劃分的Spark分區

我在S3存儲桶上有幾千個壓縮的CSV文件，每個大小大約30MB（解壓縮後大約120-160MB），我想使用spark進行處理。在我的Spark工作中，我在每一行都做了簡單的過濾器選擇查詢。分區Spark將文件分成兩個或多個部分，然後爲每個分區創建任務。每個任務需要大約1分鐘才能完成處理125K記錄。我想避免跨多個任務對單個文件進行分區。有沒有辦法獲取文件和分區數據，以便每個任務在一個完整文件

1熱度

2回答

同一表中兩列的總和

我在查詢數據倉庫（所以我不能重新設計表），我會盡我所能在一個簡單的示例中模擬這種情況。我們有3個主要的事件，更改和發佈表。這3個通過稱爲中間的中間表連接。這裏是它們的結構與樣本數據一起：事件表：變化表：釋放臺：中間表：前3代表具有完全相同的結構，但是中間表保存這些3個表成對的連接。例如，如果Rel1連接到Chg1，則在中間表中有一行爲或。這兩行沒有區別，可能不共存。 QUERY：我希

3熱度

2回答

SQL分區通過交替組的行

我有一個類似於這樣的數據表。 |Key|LotId|TransactionType|Quantity|Destination |1 |A |Transform |NULL |Foo |2 |A |Transform |NULL |Bar |3 |A |Consume |100 |NULL |4 |B |Transform |NULL |Bob |5 |B |Transform

3熱度

1回答

caret包中的createDataPartition函數如何拆分數據？

從文檔：對於自舉樣本，使用簡單隨機採樣。對於其他數據拆分，當y是試圖平衡拆分中的類分佈的因素時，隨機抽樣在y 的級別內完成。對於數字y，根據百分位將樣本分成組，並在這些子組內對樣本進行抽樣。對於createDataPartition，通過組參數設置百分位數。我不明白爲什麼需要這個「平衡」的東西。我想我表面上理解它，但是任何額外的見解都會非常有幫助。

3熱度

2回答

Azure Data Lake中的U-SQL輸出

如果我不知道表中包含多少個不同的鍵值，是否可以根據列值自動將表分成幾個文件？是否可以將鍵值放入文件名？