2017-05-28 57 views
0

l有csv文件,該文件與pandas一起處理。該列名爲raw_value l想要檢索此列中的唯一字符。獲取給定列中使用的字符的唯一列表

x=df.manual_raw_value.unique() 

允許檢索唯一行。不過,我正在尋找這個專欄中的整個字符。 這是: alphabet = 6,3 5 1 8 V O T R E A 2。 éE /:

raw_value 
    6,35 
    11,68 
    VOTRE 
    AVEL AR VRO 
    2292 
    questions. 
    nb 
    les 
    937,99 
    à 
    et 
    TTC 
    1 
    620 
    Echéance 
    vos 
    ROB21 
    Pièce 
    AGRIAL 
    désignation 
    des 
    taux 
    13s 
    2 
    par 
    le 
    mois, 
    32 
    21/07/2016 
    FR 
    au 
    0 
    téléphonique 
    BROYEUR 
    et 
    ST 
    TVA 
    de 
    des 
    ECHEANCIER 
    à 
    ne 
    lieu 
    481,67 
    N°0016 
    de 
    ministère 
    de 
    20/11/2015 
    Si 
    vous 
    59 
    cas 
    EUR 
    3.19 
    2 
    contrôle 
    assurances 
    BAS 
    et 
    4423873 
    renseignements 
    6104219 
    C9DECOMPTEDIVERS 
    6635 
    DE 
    10825 

EDIT_1

所有三種解決方案完美的作品。 l選擇了第二個

set(df.raw_value.apply(list).sum()) 

Hwever它返回一些編碼字符。它與編碼有關嗎? 如何解碼和顯示真正的字符。這裏是它打印的內容

{' ', 
'!', 
'"', 
'%', 
'&', 
"'", 
'(', 
')', 
'*', 
'+', 
',', 
'-', 
'.', 
'/', 
'0', 
'1', 
'2', 
'3', 
'4', 
'5', 
'6', 
'7', 
'8', 
'9', 
':', 
'=', 
'>', 
'?', 
'@', 
'_', 
'a', 
'b', 
'c', 
'd', 
'e', 
'f', 
'g', 
'h', 
'i', 
'j', 
'k', 
'l', 
'm', 
'n', 
'o', 
'p', 
'q', 
'r', 
's', 
't', 
'u', 
'v', 
'w', 
'x', 
'y', 
'z', 
'\x82', 
'\x87', 
'\x94', 
'\xa1', 
'\xa7', 
'\xaa', 
'\xab', 
'\xac', 
'\xae', 
'\xaf', 
'\xb0', 
'\xb4', 
'\xb9', 
'\xbb', 
'\xc2', 
'\xc3', 
'\xe2'} 

回答

2

您可以先將原始值轉換爲字符串列表,然後堆棧到char df並獲取唯一元素。

df.applymap(list).raw_value.apply(pd.Series).stack().unique() 
Out[620]: array(['6', ',', '3', ..., 'ô', 'D', 'M'], dtype=object) 

您還可以通過將原始值轉換爲列表,將列表轉換爲列表,然後獲取列表集。

set(df.raw_value.apply(list).sum()) 

一個尚未簡單的方法就是直接CONCAT原始值的字符串,然後應用設置就可以了,因爲串本質上是一個列表。

set(df.raw_value.sum()) 

注意,第一種方法將在結果中包含nan,而第二種和第三種方法不包含nan。

+0

請參閱我的更新。謝謝 – vincent75