2017-08-11 106 views
0

我正在評估我創建的模型。該模型給出了輸出結果,一個id列表及其核心反應錯誤構造(一個分數),並且id根據這個分數排序。比方說,分數越高,id越可疑。Spark - 評估問題

例子:

ids: t4, c1, s3, d5, a2, ... 
score: 18, 15, 13, 5, 2, ... 

另外,我有一個包含真正的可疑IDS另一個列表。

suspicious: c1,d5 

我的目標是能夠說的id是x%在我的名單可疑的是在得分列表頂部Y%。

有什麼想法嗎?並在火花實施將是慷慨的你!

回答

0

這裏是我做過什麼,用大熊貓數據幀:

  • 我創建了一個包含所有數據的dataframes DF,並加載可疑數據成系列。
  • 在df中添加了另一列,即我命名的標籤。該記錄的標籤是基於可疑ID存在於可疑或不可疑
  • 與此最終數據框(id,分數,標籤),我能夠根據標籤進行計數,並且能夠具有諸如在問題中。