-1
HTML文件中提取文本我有一個腳本:從使用bash
cd ../data;
dossier=$(ls crawl);
let "compte = 1";
for file in $dossier
do
lynx --dump --nolist $file >> ../data/txt/$compte'.txt';
let "compte = compte + 1";
done
我使用lynx
檢索來自我所有的HTML文件中的文本,但問題是,當我打開我的文本文件,它被寫入即:
410 GONE
This doesn't exist any more. Try html.com.
我不知道爲什麼,因爲當我在終端和我的檢索文件夾,我執行每個HTML文件山貓轉儲和它產生的文本文件,但是當我想用它與腳本讀取我所有的HTML文件並使用它們上的lynx
resu他們不好。
謝謝;你是對的! – kely789456123