-1
有沒有辦法讓python「讀取」文檔,排除不必要的元素並構建1和0的鄰接矩陣?我有一個包含500個訪問過的頁面的電子表格,包含inlinks,outlinks和懸掛頁面(需要從搜索中排除)。從電子表格中讀取數據並在Python中構建矩陣
我想過粗僞這將是這個樣子:
for each visited page vp
for each outlink of vp
if link relative
revolve link
if ink to visited page
write 1
else
if link dangling
ignore it
else
write 0
是否有可能以某種方式實現的Python內這種想法?或者使用Matlab或R會更有用?
鏈接爬行結果: http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.txt http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.xlsx