從使用bash

-1

HTML文件中提取文本我有一個腳本：從使用bash

cd ../data; 
dossier=$(ls crawl); 

let "compte = 1"; 

for file in $dossier 
do 

lynx --dump --nolist $file >> ../data/txt/$compte'.txt'; 

let "compte = compte + 1"; 
done

我使用lynx檢索來自我所有的HTML文件中的文本，但問題是，當我打開我的文本文件，它被寫入即：

410 GONE 

This doesn't exist any more. Try html.com.

我不知道爲什麼，因爲當我在終端和我的檢索文件夾，我執行每個HTML文件山貓轉儲和它產生的文本文件，但是當我想用它與腳本讀取我所有的HTML文件並使用它們上的lynx resu他們不好。

來源

2017-01-01 kely789456123

你需要協議和（不確定這個）路徑。例如：

lynx -dump file:///where/my/file/is/file.html

來源

2017-01-01 12:57:01 fernand0

謝謝;你是對的！ – kely789456123

回答

相關問題