2016-11-27 58 views
-1

有沒有辦法讓python「讀取」文檔,排除不必要的元素並構建1和0的鄰接矩陣?我有一個包含500個訪問過的頁面的電子表格,包含inlinks,outlinks和懸掛頁面(需要從搜索中排除)。從電子表格中讀取數據並在Python中構建矩陣

我想過粗僞這將是這個樣子:

for each visited page vp 
for each outlink of vp 
    if link relative 
    revolve link 
    if ink to visited page 
    write 1 
    else 
if link dangling 
    ignore it 
else 
    write 0 

是否有可能以某種方式實現的Python內這種想法?或者使用Matlab或R會更有用?

鏈接爬行結果: http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.txt http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.xlsx

回答

1

有沒有一種方法,使蟒蛇「讀」的文件,排除不必要的元素,打造的1和0的鄰接矩陣?

請參考https://docs.python.org/2/tutorial/inputoutput.html

最簡單的方式開始打開和讀取文件:

f = open('workfile', 'r') 
fileLines = f.readlines() 

#do something with your lines 
#properly adapt your pseudocode to 
#the extracted data 

f.close() 

您的問題,其餘都是超出範圍。