2017-01-01 49 views
-1

HTML文件中提取文本我有一個腳本:從使用bash

cd ../data; 
dossier=$(ls crawl); 

let "compte = 1"; 

for file in $dossier 
do 

lynx --dump --nolist $file >> ../data/txt/$compte'.txt'; 

let "compte = compte + 1"; 
done 

我使用lynx檢索來自我所有的HTML文件中的文本,但問題是,當我打開我的文本文件,它被寫入即:

410 GONE 

This doesn't exist any more. Try html.com. 

我不知道爲什麼,因爲當我在終端和我的檢索文件夾,我執行每個HTML文件山貓轉儲和它產生的文本文件,但是當我想用它與腳本讀取我所有的HTML文件並使用它們上的lynx resu他們不好。

回答

0

你需要協議和(不確定這個)路徑。例如:

lynx -dump file:///where/my/file/is/file.html 
+0

謝謝;你是對的! – kely789456123