2016-03-03 48 views
0

在Tweets數據的鏈接和主題標籤上應用re.findall後,我收到一個對象數組。我的數據看起來像在Python上分割正則表達式響應列

b=['https://t.co/1u0dkzq2dV', 'https://t.co/3XIZ0SN05Q'] 
    ['https://t.co/CJZWjaBfJU'] 
    ['https://t.co/4GMhoXhBQO', 'https://t.co/0V'] 
    ['https://t.co/Erutsftlnq'] 
    ['https://t.co/86VvLJEzvG', 'https://t.co/zCYv5WcFDS'] 

現在我想將它列拆分,我使用以下

df = pd.DataFrame(b.str.split(',',1).tolist(),columns = ['flips','row']) 

但它不工作,因爲奇怪的數據類型,我猜,我嘗試一些其他的解決方案,以及。沒有什麼工作。這就是我期望的,兩個單獨的列

https://t.co/1u0dkzq2dV https://t.co/3XIZ0SN05Q 
https://t.co/CJZWjaBfJU 
https://t.co/4GMhoXhBQO https://t.co/0V 
https://t.co/Erutsftlnq 
https://t.co/86VvLJEzvG    
+0

請提供[最小值,完整和可覈實的示例](HTTP://計算器。 com/help/mcve),並描述你期待的行爲。 –

回答

0

從您的問題中不清楚究竟什麼是您的數據的一部分。 (它包括方括號和單引號?)。在任何情況下,熊貓read_csv功能非常versitile並且可以處理粗糙數據:

import StringIO 
import pandas as pd 

raw_data = """ 
['https://t.co/1u0dkzq2dV', 'https://t.co/3XIZ0SN05Q'] 
['https://t.co/CJZWjaBfJU'] 
['https://t.co/4GMhoXhBQO', 'https://t.co/0V'] 
['https://t.co/Erutsftlnq'] 
['https://t.co/86VvLJEzvG', 'https://t.co/zCYv5WcFDS'] 
""" 

# You'll probably replace the StringIO part with the filename of your data. 
df = pd.read_csv(StringIO.StringIO(raw_data), header=None, names=('flips','row')) 

# Get rid of the square brackets and single quotes 
for col in ('flips', 'row'): 
    df[col] = df[col].str.strip("[]'") 

df 

輸出:

     flips      row 
0 https://t.co/1u0dkzq2dV https://t.co/3XIZ0SN05Q 
1 https://t.co/CJZWjaBfJU      NaN 
2 https://t.co/4GMhoXhBQO   https://t.co/0V 
3 https://t.co/Erutsftlnq      NaN 
4 https://t.co/86VvLJEzvG https://t.co/zCYv5WcFDS